所有文章 > 正文

微软和马里兰大学联合提出Florence-VL,一系列多模态大模型

作者: AMiner AI

时间: 2024-12-12 11:44

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息。

1.本文提出了一种名为Florence-VL的新型多模态大型语言模型(MLLM),通过集成生成性视觉基础模型Florence-2来增强视觉表征。与常见的CLIP风格的视觉变换器不同,Florence-2能够捕捉到视觉特征的不同层次和方面,使其能够适应多种下游任务。研究团队设计了一种新颖的特征融合架构和创新的训练方法,将Florence-2的视觉特征有效融合到预训练的语言模型Phi 3.5和LLama 3中。特别提出了一种“深度-广度融合(DBFusion)”方法,用于融合不同深度和多个提示下提取的视觉特征。模型的训练包括整个模型的端到端预训练,以及对投影层和语言模型的微调,使用精心设计的包含高质量图像标题和指令调整对的多种开源数据集。定量分析和视觉化结果显示,Florence-VL在视觉语言对齐方面优于流行的视觉编码器,其中增强的深度和广度发挥了重要作用。Florence-VL在各种多模态和视觉为中心的基准测试中,如通用VQA、感知、幻觉、OCR、图表、知识密集型理解等方面,都取得了显著改进。为促进未来研究,研究团队开源了模型和完整的训练方法。

链接:Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion - AMiner

2.本文介绍了一种名为Infinity的位运算视觉自回归模型,该模型能够根据语言指令生成高分辨率、逼真的图像。Infinity在位运算标记预测框架下重新定义了视觉自回归模型,通过无限词汇量的标记分类器和位运算自我校正机制,显著提高了生成能力和细节表现。该方法理论上将标记词汇量扩展至无限,并同步扩大了变换器规模,相较于传统的自回归模型,展现出了更强大的扩展能力。Infinity在自回归文本到图像模型中创下新纪录,性能超过了顶尖的扩散模型如SD3-Medium和SDXL。特别地,Infinity将GenEval基准分数从0.62提升至0.73,ImageReward基准分数从0.87提升至0.96,在0.8秒内完成1024x1024图像的生成,速度是SD3-Medium的2.6倍,成为最快的文本到图像模型。研究团队将发布模型和代码,以推动Infinity在视觉生成和统一标记建模领域的进一步探索。

链接:Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis - AMiner

3.该研究构建了一个名为ProcessBench的工具,旨在评估自动检测数学推理过程中错误的能力。该工具包含3400个测试案例,主要针对竞赛和奥赛级别的数学问题,每个案例都有专家标注的错误步骤。研究通过比较两种类型的模型——过程奖励模型(PRMs)和评审模型,后者通过提示通用语言模型逐步评估每个解决方案,发现现有PRMs在处理更具挑战性的数学问题时泛化能力不足,而开源模型QwQ-32B-Preview的评审能力已能与专有模型GPT-4o相媲美。研究者期望ProcessBench能推动未来在推理过程评估方面的工作,为语言模型的可扩展监督铺平道路。

链接:ProcessBench: Identifying Process Errors in Mathematical Reasoning - AMiner

4.本文针对强化学习(RL)领域中记忆概念的复杂性和评估方法的不足,提出了一种分类和评估RL智能体记忆的方法。文章首先明确了不同类型的记忆概念,如长期记忆与短期记忆、声明性记忆与程序性记忆,这些概念借鉴了认知科学的研究。基于这些定义,文章对智能体的记忆类别进行了分类,并提出了一套评估RL智能体记忆能力的实验方法,以实现评估的标准化。通过使用该方法对不同RL智能体进行实验,文章实证展示了遵循所提方法的重要性,以及不遵守该方法可能导致的问题。

链接:Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation - AMiner

5.该论文探讨了一种新型推理范式,旨在让大型语言模型(LLM)在连续潜空间中进行推理。研究者认为,传统的语言空间并不总是最适合进行推理,因为大部分单词主要用于文本连贯性而非推理。因此,论文提出了“椰子”(Coconut)范式,即连续思维链(Chain of Continuous Thought),利用LLM的最后隐藏状态作为推理状态的表示,并将其直接作为连续空间中的下一个输入嵌入,而不是解码成单词。实验结果显示,这种方法能够有效增强LLM在多个推理任务上的表现,并展现出更高级的推理模式,如宽度优先搜索(BFS)以解决问题,而不是像传统的思维链(CoT)那样过早地确定单一确定路径。在某些需要大量回溯计划的逻辑推理任务中,Coconut的表现优于CoT,且在推理过程中需要的思维符号更少。这些发现为潜空间推理的潜力提供了证据,并为未来的研究提供了有价值的见解。

链接:Training Large Language Models to Reason in a Continuous Latent Space - AMiner

二维码 扫码微信阅读
推荐阅读 更多