所有文章 > 正文

苹果最新研究：大语言模型能理解上下文吗？｜大模型周报

作者: 学术头条

时间: 2024-02-05 11:43

LongAlign：大模型的有效长上下文对齐

本周值得关注的大模型 / AIGC 前沿研究

LongAlign：大模型的有效长上下文对齐

谷歌新研究：移动端亚秒级文生图模型

中国科学院大学、中国科学院：AI 生成的学生论文，亟需更好的检测方法

Google DeepMind：大模型中的高效探索

苹果最新研究：大语言模型能理解上下文吗？

Meta 提出 CoA：让大模型高效使用工具

首个触觉大模型 UniTouch：利用触觉进行多模态学习

Image Anything：七种模态任意组合，像人类一样想象画面

让大模型帮你打《星际争霸II》欢迎来到王者荣耀：AI 让你输得很开心

AudioSeal：首个用于 AI 生成语音的音频水印技术

DressCode：根据文本提示为数字人设计服装

Mobile-Agent：自主操作 APP 的移动端智能体

Diffuse to Choose：使用扩散模型优化在线购物中的“虚拟试用”

Google Deepmind：使用大模型生成具有表现力的机器人行为

1.LongAlign：大模型的有效长上下文对齐

扩展大型语言模型（LLMs）以有效处理长上下文需要对长度相似的输入序列进行指令微调。来自清华大学和智谱AI 的研究团队提出了一种用于长上下文对齐的指令数据、训练和评估方法——LongAlign。在保持处理短小、通用任务的能力的同时，LongAlign 在长上下文任务中的性能比现有的 LLMs 高出 30%。

论文链接：LongAlign: A Recipe for Long Context Alignment of Large Language Models - AMiner

2.谷歌新研究：移动端亚秒级文生图模型

来自谷歌公司的研究团队提出了一个在架构和采样技术上进行广泛优化的高效文生图扩散模型——MobileDiffusion，其在移动设备上生成 512×512 图像时，实现了惊人的亚秒级推理速度，建立了新的技术水平。

论文链接：MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices - AMiner

3.中国科学院大学、中国科学院：

AI生成的学生论文，亟需更好的检测方法

来自中国科学院大学和中国科学院的研究团队构建了一个由人工智能（AI）生成的学生论文数据集 AIG-ASAP，它采用了一系列有望生成高质量论文同时躲避检测的文本干扰方法。评估结果显示，目前教育领域迫切需要更准确、更鲁棒的方法来检测 AI 生成的学生论文。

论文链接：
Hidding the Ghostwriters: An Adversarial Evaluation of AI-Generated Student Essay Detection - AMiner

4.Google DeepMind：大模型中的高效探索

Google DeepMind 研究团队发现，在收集人类反馈改进大型语言模型（LLMs）的过程中，高效探索能带来巨大收益。在实验中，智能体按顺序生成查询，同时将反馈接收到的数据拟合到奖励模型中。表现最好的智能体使用双 Thompson 采样生成查询，不确定性由认识神经网络表示。实验证明，高效探索能够以更少的查询次数获得更高的性能。

5.苹果最新研究：大模型能理解上下文吗？

苹果研究团队通过对现有数据集进行调整，提出了一个上下文理解基准，从而适应生成模型的评估。该基准包括四项不同的任务和九个数据集，所有提示都旨在评估模型理解上下文的能力。实验结果表明，与最先进的微调模型相比，预训练的密集模型在理解更细微的上下文特征方面存在困难。

6.Meta提出CoA：让大模型高效使用工具

为使大型语言模型（LLMs）在多步骤推理中更好地利用工具，Meta 研究团队提出了抽象链（Chain-of-Abstraction，CoA）。它训练 LLMs 用抽象占位符解码推理链、调用领域工具，通过填充特定知识来具体化每个推理链。这种利用抽象链进行的规划使 LLMs 能够学习更多通用推理策略，同时允许 LLMs 并行执行解码和调用外部工具，从而避免了因等待工具响应而造成的推理延迟。

论文链接：Efficient Tool Use with Chain-of-Abstraction Reasoning - AMiner

7.首个触觉大模型UniTouch：利用触觉进行多模态学习

来自耶鲁大学和密歇根大学的研究团队提出了一个统一的触觉模型 UniTouch，适用于与视觉、语言和声音等多种模态相连的基于视觉的触摸传感器。从机器人抓取预测到触摸图像问答，UniTouch 能够在零样本环境下执行各种触觉感知任务，是首个展示出这种能力的模型。

论文链接：Binding Touch to Everything: Learning Unified Multimodal Tactile Representations - AMiner

8.Image Anything：七种模态任意组合，像人类一样想象画面

人类感知和理解力的多面性表明，当我们思考时，我们的身体可以自然地将任何感官（又称模式）组合起来，在大脑中形成一幅美丽的图画。来自香港科技大学的研究团队提出了一种端到端多模态生成模型——ImgAny，它可以模仿人类推理并生成高质量的图像。该项研究受到人类认知过程的启发，无需对不同模态进行特定微调即可在实体和属性层面整合和协调多个输入模态。

论文链接：Image Anything: Towards Reasoning-coherent and Training-free Multi-modal Image Generation - AMiner

9.让大模型帮你打《星际争霸II》

为研究大型语言模型（LLMs）在 StarCraft II（《星际争霸II》）游戏环境中执行实时战略战争任务的能力，来自宝马诚迈公司的研究团队提出了一种利用 LLMs 在 StarCraft II 游戏环境中执行实时战略的嵌入式智能体——SwarmBrain。它能够进行经济扩张、领土扩张和战术制定，并且能够击败设置在不同难度级别的电脑玩家。

论文链接：SwarmBrain: Embodied agent for real-time strategy game StarCraft II via large language models - AMiner

10.欢迎来到王者荣耀：AI 让你“开心地输”

为了提升人们的游戏体验，来自腾讯人工智能实验室和天美 L1 工作室的研究团队，提出了一个“以人为中心”的合作智能体建模方案。该方案能够使智能体在保持原有能力（如赢得游戏）的同时提升玩家的游戏体验。研究团队提出了“从人类收益中强化学习”（Reinforcement Learning from Human Gain，RLHG）方法。RLHG 方法引入了一个“基线”，与人类原始实现目标的程度相对应，并鼓励代理学习能有效提高人类实现目标的行为。