所有文章 > 正文

大模型周报丨大模型评估中存在什么问题?中科大等提出Ziya2

作者: AMiner AI

时间: 2023-11-17 13:53

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。

LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、作者、AMiner AI综述等信息

1. Don't Make Your LLM an Evaluation Benchmark Cheater

这篇论文讨论了在大规模语言模型(LLMs)中,不当使用评估基准和误导性解释评估结果的潜在风险和影响。特别是,作者关注了一个可能导致评估不适当的特殊问题,即“基准泄露”,指的是评估集相关的数据偶尔被用于模型训练。由于预训练数据通常在模型测试之前准备,因此这种现象变得越来越普遍。作者进行了大量实验,研究了基准利用的影响,发现它可以显著提高评估结果,最终导致模型性能评估的不可靠。为了改进现有评估基准的使用,作者最后为LLM开发人员和基准维护者提出了几项指南。作者希望这项工作能够引起对LLM适当训练和评估的关注。

11-ynZIpYlFpS.png

链接:Don't Make Your LLM an Evaluation Benchmark Cheater - AMiner

 2. Ziya2: Data-centric Learning is All LLMs Need

这篇论文介绍了一种名为Ziya2的大型语言模型(LLM),该模型采用LLaMA2作为基础模型,并进一步在700亿个标记上进行预训练。该研究重点关注预训练技术和数据中心优化,以在不同的阶段增强Ziya2的学习过程。实验结果表明,Ziya2在多个基准测试中显著优于其他模型,特别是在与代表性的开源模型相比时具有令人鼓舞的结果。

12-sFsWcczIt6.png

链接:Ziya2: Data-centric Learning is All LLMs Need - AMiner

 

3. LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

这篇论文介绍了一种名为LCM-LoRA的通用稳定扩散加速模块。潜在一致性模型(LCMs)在加速文本到图像生成任务方面取得了显著成果,只需最少的推理步骤就能生成高质量的图像。LCMs是从预训练的潜在扩散模型(LDMs)中提炼出来的,仅需要约32个A100 GPU的训练小时。本报告从两个方面扩展了LCMs的潜力:首先,通过将LoRa蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的稳定扩散模型,我们扩大了LCM的应用范围,使得模型具有更少的内存消耗,实现了更优秀的图像生成质量。其次,我们将通过LCM蒸馏获得的LoRa参数识别为一种通用的稳定扩散加速模块,名为LCM-LoRA。LCM-LoRA可以直接插入到各种经过微调的稳定扩散模型或LoRAs中,无需训练,因此它是一种适用于各种图像生成任务的通用加速器。与以前的数值PF-ODE求解器(如DDIM、DPM-Solver)相比,LCM-LoRA可以被视为一种具有强大泛化能力的插件神经PF-ODE求解器。

13-YeUZPfBcu8.png

链接:LCM-LoRA: A Universal Stable-Diffusion Acceleration Module - AMiner

 4. LRM: Large Reconstruction Model for Single Image to 3D

这篇论文介绍了一种名为LRM(大重建模型)的方法,该方法可以从一个单张输入图像中预测物体的3D模型,耗时仅5秒。与之前的方法不同,这些方法通常在小型数据集(如ShapeNet)上进行训练,并采用特定类别的训练方式,LRM则采用了一种可扩展的基于变换器架构,具有5亿个可学习参数,直接从输入图像预测神经辐射场(NeRF)。作者在包含约100万个对象的的大量多视角数据上以端到端的方式训练模型,包括来自Objaverse的合成渲染和来自MVImgNet的真实捕捉。这种高容量模型和大规模训练数据的组合使我们的模型具有高度的泛化能力,并能从各种测试输入(包括现实世界的野外捕捉和生成模型的图像)中产生高质量的3D重建。视频演示和可交互的3D网格可以在以下网址找到:https://yiconghong.me/LRM/。

14-fFmlWUYrG7.png

链接:LRM: Large Reconstruction Model for Single Image to 3D - AMiner

 

5. GLaMM: Pixel Grounding Large Multimodal Model

这篇论文介绍了GLaMM:首个像素级接地的大型多模态模型。多模态模型(LMMs)将大语言模型扩展到了视觉领域。之前的研究使用整体图像和文本提示来生成无grounded的文本响应,而最近的研究使用区域级LMM来生成视觉grounded的响应,但它们仅能一次指明一个对象类别,需要用户指定输入中的区域,或者无法提供密集的像素级对象grounding。在本文中,作者提出了第一个可以生成与相应对象分割掩码无缝交织的自然语言响应的模型——GLaMM。GLaMM不仅可以ground对话中出现的对象,而且足够灵活,可以接受文本和可选的视觉提示(感兴趣区域)作为输入。这使用户可以在文本和视觉领域的不同粒度上与模型进行交互。由于缺乏生成视觉grounded详细对话的标准基准,作者引入了一个全面的评估协议和精心策划的grounded对话。作者提出的Grounded对话生成(GCG)任务需要大规模密集grounded的自然场景概念。为此,作者提出了一个密集注释的Grounding-anything数据集(GranD),使用作者提出的自动化注释管道,包括750万唯一概念,这些概念在总计8.1亿个带有分割掩码的区域上进行grounded。除了GCG之外,GLaMM还在诸如指代表达分割、图像和区域级描述以及视觉语言对话等下游任务上表现出色。项目页面:https://mbzuai-oryx.github.io/groundingLMM。

15-Dzb2sQrwfe.png

链接:GLaMM: Pixel Grounding Large Multimodal Model - AMiner

 6. CogVLM: Visual Expert for Pretrained Language Models

这篇论文介绍了 CogVLM,一个强大的开源视觉语言基础模型。与流行的浅层对齐方法不同,CogVLM 通过在注意力和 FFN 层中的可训练视觉专家模块,弥合了预训练语言模型和图像编码器之间的差距。因此,CogVLM 能够在不牺牲 NLP 任务性能的情况下,实现视觉语言特征的深度融合。CogVLM-17B 在 10 个经典的跨模态基准测试中取得了最先进的性能,包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,并且在 VQAv2、OKVQA、TextVQA、COCO captioning 等任务中排名第二,超过了或与 PaLI-X 55B 相媲美。

16-sRosxtmyu7.jpg

链接:COGVLM: VISUAL EXPERT FOR LARGE LANGUAGE MODELS - AMiner

 

7. Levels of AGI: Operationalizing Progress on the Path to AGI

这篇论文提出了一种分类人工通用智能(AGI)模型及其前体能力与行为的方法。这个框架提出了AGI表现、普遍性和自主性的等级。作者希望这个框架能像自动驾驶等级一样有实用价值,为比较模型、评估风险和测量走向AGI道路上的进展提供共同语言。在发展这个框架时,作者分析了现有的AGI定义,并提炼出六条一个有用的AGI本体应满足的原则。这些原则包括关注能力而不是机制;分别评估普遍性和性能;定义通向AGI道路上的阶段,而不是关注终点。根据这些原则,作者提出了基于能力深度(性能)和广度(普遍性)的“AGI等级”,并思考了当前系统如何适应这个本体。他们讨论了未来基准的具有挑战性的要求,这些基准能定量衡量AGI模型的行为和能力与这些等级的对比。最后,他们讨论了这些AGI等级如何与部署考虑因素(如自主性和风险)相互作用,并强调了为负责任和安全的部署高度能力的人工智能系统选择人机交互范式的重要性。

17-9nADNmNGRI.png

链接:Levels of AGI: Operationalizing Progress on the Path to AGI - AMiner

 

8. mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

这篇论文介绍了一种名为mPLUG-Owl2的多模态大型语言模型,该模型通过利用模态协作来提高文本和多模态任务的性能。mPLUG-Owl2采用模块化网络设计,语言解码器作为通用接口来管理不同模态。具体来说,mPLUG-Owl2引入了共享功能模块以促进模态协作,并引入了模态自适应模块来保留模态特有特征。实验结果表明,mPLUG-Owl2能够泛化文本任务和多模态任务,并使用单个通用模型实现最先进的性能。值得注意的是,mPLUG-Owl2是第一个在纯文本和多模态场景中都表现出模态协作现象的多模态大型语言模型,为未来多模态基础模型的开发开辟了新的道路。

18-O5ePhATi3r.png

链接:mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration - AMiner

 

9. LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

这篇论文介绍了一种名为Skywork-13B的双语基础模型,该模型是基于3.2万亿个来自英汉文本的标记进行训练的。这是迄今为止公开发布的大型语言模型中,规模相当且训练最充分的双语基础模型。文章引入了一种两阶段训练方法,分别针对通用训练和特定领域的增强训练。研究表明,该模型不仅在流行的基准测试中表现优异,而且在多样领域中的中文语言建模方面达到了最先进的水平。此外,文章提出了一种新颖的泄漏检测方法,表明测试数据污染是一个紧迫的问题,值得LLM社区进一步研究。为了推动未来的研究,作者还发布了Skywork-13B,以及训练过程中获得的中间阶段检查点。同时,作者也发布了一部分SkyPile语料库,这是一组超过1500亿个网页文本标记,是迄今为止最大的高质量开放中文预训练语料库。作者希望Skywork-13B和开放的语料库能成为有价值的开源资源,使更多人能够接触到高质量的语言模型。

19-GQTCgtIAQx.png

链接:LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents - AMiner

 10. TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models

这篇论文介绍了一种名为TEAL(Tokenize and Embed ALL)的方法,用于处理多模态大型语言模型(MM-LLMs)中的输入和生成非文本模态的问题。TEAL将任何模态的输入视为标记序列,并为所有模态学习一个联合嵌入空间。具体来说,TEAL首先使用现有的标记器将任何模态的输入离散化为标记序列,然后使用可学习的嵌入矩阵将标记序列嵌入到联合嵌入空间中。MM-LLMs只需要像文本LLMs那样依次预测多模态标记。最后,应用相应的解标记器根据预测的标记序列生成每个模态的输出。通过联合嵌入空间,TEAL使冻结的LLMs能够执行涉及非文本模态(如图像和音频)的理解和生成任务。因此,文本LLM可以仅作为接口,并在文本理解和生成方面保持高性能。实验表明,TEAL在多模态理解方面取得了显著改进,并实现了一种简单的多模态生成方案。

20-dsHcBocy64.png

链接:TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models - AMiner

二维码 扫码微信阅读
推荐阅读 更多