Top Paper论文提出了一种新的神经网络架构—Backpack语言模型,它结合了强大的建模性能和可解释性控制的接口。
arXiv · Computation and Language(2023)
Top Paper本文介绍了一个名为OlaGPT的智能框架,旨在通过模拟人类认知的某些方面来提升大型语言模型(LLMs)在解决复杂推理问题方面的能力。
Yuanzhen Xie, Tao Xie, Mingxiong Lin, WenTao Wei, Chenglin Li, Beibei Kong,Lei Chen, Chengxiang Zhuo, Bo Hu,Zang Li arXiv · Computation and Language(2023)
这篇论文展示了语言模型可以在只受训练于文本的下一个标记预测时就能够学习到意义
arXiv · Machine Learning(2023)
文章介绍了一种名为QLoRA的有效的微调方法,可以减少内存使用量,从而在单个48GB GPU上微调65B参数的模型,而保持完整的16位微调任务性能。
arXiv · Machine Learning(2023)
本研究探讨控制生成对抗网络(GANs)的强大方式,即通过交互式地将图像中的任何点“拖动”到精确达到目标点,从而对生成的对象的姿态、形状、表情和布局进行灵活和精确的可控性。
arXiv · Computer Vision and Pattern Recognition(2023)
该文介绍了一种新的语言模型推理框架—Tree of Thoughts (ToT),它允许语言模型在推理过程中进行探索和全局决策,以提高自身的问题解决能力。
arXiv · Computation and Language(2023)
DoReMi—可以通过优化数据混合的比例来加速语言模型的预训练
arXiv · Computation and Language(2023)
多模态预训练框架—ULIP-2,旨在解决现有多模态预训练框架在3D应用中获取多模态数据时的可扩展性和全面性问题。
arXiv · Computer Vision and Pattern Recognition(2023)
再推荐几条看看查看更多推荐内容再推荐几条看看添加订阅关键词设定感兴趣领域,获取更精准推送