论文标题:
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
论文地址:
https://arxiv.org/abs/2410.00255
介绍
多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它各种模态对齐至语言模型的语义空间,从而实现多模态的理解和对话能力。近来,越来越多的研究聚焦于 3D 大语言模型(3DLLM),旨在实现对 3D 物体以及复杂场景的理解,推理和自由对话。
与 2D MLLMs 所能接触的广泛的多模态数据不同,3DLLMs 的训练数据相对稀少。即便过去有些工作尝试生成更多的多模态指令数据,他们仍然在指令的鲁棒性上存在两点不足:
1)绝大多数 3D 多模态指令数据对是正样本对,缺乏负样本对或者对抗性样本对。模型在这种数据上训练缺乏一定的辨识能力,因为无论被问到什么问题,模型只会输出正面的回答。因此碰到问题与场景无关时,模型也更容易出现幻觉。这种模型有可能只是记住了正样本对,而非真正地理解被问及的场景、物体、以及具体的指令。
2)由于在造数据的过程中,人类标注员或者生成式大语言模型是按照既定的规则去描述物体的,很多由这些描述所转换而来的指令缺乏多样性。甚至有的数据是直接按照模板生成的。
为了解决以上问题,我们提出一个强大 3DLLM—Robin3D。其在大规模鲁棒数据上得到训练。特别的,我们提出了“鲁棒指令数据生成引擎”(Robust Instruction Generation, RIG),旨在生成两种数据:
1)对抗性指令数据。该数据特点在于在训练集或者单个训练样本中,混合了正样本和负样本对(或者对抗样本对),从而使得模型在该类数据集训练能获得更强的辨识能力。我们的对抗性指令数据包含了物体层面到场景层面的、基于类别的指令和基于表达的指令。最终形成了四种新的训练任务,帮助模型解耦对正样本对的记忆。
2)多样化指令数据。我们首先全面收集现有研究中的各种指令类型,或将一些任务转化为指令跟随的格式。为了充分利用大语言模型(LLMs)强大的上下文学习能力,我们使用 ChatGPT,通过为每个任务定制的特定提示工程模板来多样化指令的语言风格。
将这些与现有基准的原始训练集相结合,我们构建了百万级指令跟随样本,其中约有 34.4 万个对抗性数据(34%)、50.8 万个多样化数据(50%)和 16.5 万个基准数据(16%),如图 1(右)所示。
▲ 图2 Robin3D 的模型结构
2.1 关系增强投射器
如图 2 所示,关系增强投射器(Relation-Augmented Projector, RAP)考虑三种特征:
1. Mask3D 所抽取的场景级别特征,这种特征经过多层 cross-attention 充分交互了语意和位置关系。
2. Mask3D 里的位置嵌入特征,这种特征由物体超点直接转换而来,代表了物体间的位置关系。
3. Uni3D 抽取的统一物体级别特征,这种特征和语言进行过大规模的对齐训练。
▲ 图3 RAP公式
如图 3 所示,我们通过 MLP 和短接的方式,对三种特征进行高效的融合,最终实现了即保持强大的统一物体级别语意信息、又增强了物体之间的空间位置关系。
2.2 ID-特征捆绑
如图 1 所示,我们的 ID -特征捆绑(ID-Feature Bonding, IFB)主要包含两个操作。首先,我们使用两个相同的 ID 来包裹其物体特征。由于 LLM 的因果注意力机制,这种方法通过第一个 ID 将 ID 信息与物体特征关联起来,并通过第二个 ID 将物体信息与其 ID 关联起来。
其次,我们提出了一个后视觉顺序,将视觉 tokens 放置在输入序列的末尾,靠近模型生成的答案标记。该方法减少了由于 tokens 间的相对距离和 LLM 中旋转位置嵌入所导致的从答案 tokens 到 ID -特征 tokens 的注意力减弱问题,同时增强了视觉信息对答案 tokens 的注意力影响,从而提升答案生成效果。
鲁棒指令数据生成引擎
3.1 对抗性数据生成
▲ 图4 多样化数据的生成流程和详细的提示工程
为了丰富表述风格,我们开发了一个可扩展的流程,利用 ChatGPT 的上下文学习能力对上述数据进行重述。这通过一组示例和结构化提示工程实现,如图 4(上)所示。
具体而言,给定一个收集的指令数据集D_task(其中任务包括 ScanRefer、Multi3DRefer、Nr3D、Sr3D 、Nr3D Captioning、ScanQA、SQA3D、PF-3DVG 和 3DFQA)。
我们构建了一个系统提示P_system,以指示重述的要求和结构化的输出格式,同时提供一个示例提示P_eg,以帮助 ChatGPT 更好地理解要求。我们还随机选择一个温度参数T(从[1.1, 1.2, 1.3]中选取)以增加输出的随机性和多样性。
我们的重述输出D_rephrase通过公式D_rephrase = M(P_system, P_eg, D_task, T)生成,其中M是 ChatGPT 的 GPT-4o 版本。图 4(上)详细说明了P_system和P_eg的内容,以 ScanRefer 数据为例。
通过使用sentence=和rephrase=的结构化提示,GPT-4o 能够轻松遵循要求,我们可以通过检测rephrase=关 键字方便地收集输出。图 4(下)提供了每个任务的示例提示的详细信息。由于 Nr3D Captioning 源于 Nr3D,PF-3DVG 源于 Sr3D ,而 3DFQA 源于 ScanQA,因此我们不再为这些任务提供额外示例。
实验
4.1 主要结果
▲ 表2和表3 消融实验结果
如表 2 和表 3 所示,我们对提出的对抗性数据和多样化数据进行了消融实验,也对模型结构上 RAP 和 IFB 的提出做了消融实验。实验结果在所有 benchmark 上都证明了他们一致的有效性。
更多阅读
# 投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是 最新论文解读,也可以是 学术热点剖析、 科研心得或 竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
?? 稿件基本要求:
? 文章确系个人 原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
? 稿件建议以 markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
? PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供 业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
?? 投稿通道:
? 投稿邮箱:hr@paperweekly.site
? 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
? 您也可以直接添加小编微信( pwbot02)快速投稿,备注:姓名-投稿
??
现在,在 「知乎」也能找到我们了
进入知乎首页搜索 「PaperWeekly」
·
·
·
送别离君已忘 | 4天前 |
功能实用,好评! |
幸福小公主 | 9天前 |
使用这个app的过程中遇到了一些问题,希望能够提供更好的技术支持。 |
雨过了天晴 | 5天前 |
省时省力,真是个神器! |
魔法小精灵 | 7天前 |
真是个好帮手,功能齐全,操作简单,非常实用! |
承诺代表我的心 | 8天前 |
界面设计很漂亮,用起来很舒心! |
天使之翼 | 9天前 |
简洁好用,必备应用! |
誰策划这场悲剧ヽ | 9天前 |
使用这个app的过程中遇到了一些问题,希望能够提供更好的技术支持。 |
心有余悸的爱 | 3天前 |
解决问题,效率高! |
甜蜜小公主 | 5天前 |
这个app真的很好,用起来很顺畅,非常推荐! |
幸福小天使 | 4天前 |
设计精美,用起来舒服! |