中文信息处理实验室12篇论文被ACL2024录用

近日，中文信息处理实验室12 项大模型领域研究成果被国际顶级会议ACL2024录用，相关成果涉及大模型知识机制、大模型价值观对齐、大模型智能规划、大模型评估、大模型检索等方向。以下是相关被录用成果的简要介绍。

成果一：沉默的螺旋：大模型如何影响信息检索？

论文标题：Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering

论文作者：Xiaoyang Chen, Ben He, Hongyu Lin, Xianpei Han, Tianshu Wang, Boxi Cao, Le Sun, Yingfei Sun

录用类型：主会长文

论文简介：将大语言模型（LLM）与检索系统相结合的 “检索增强生成”（RAG）在实践中已变得越来越普遍，然而LLM 生成内容渗入网络数据并影响检索-生成反馈回路所带来的影响在很大程度上还是未知领域。本研究构建并反复运行了一个模拟循环系统，以深入研究 LLM 文本对 RAG 系统造成的短期和长期影响。以当前流行的开放领域问题解答（ODQA）任务为切入点，本研究揭示了潜在的数字 “沉默螺旋 “效应，即 LLM 生成的文本在搜索排名中始终优于人类撰写的内容，从而逐渐削弱人类撰写文本在网上的影响。这种趋势有可能造成一个失衡的信息生态系统，即LLM生成的错误内容肆意泛滥，导致准确信息被边缘化。本研究敦促学术界注意这一潜在问题，确保数字信息景观的多样性和真实性。

成果二：学习还是自我对齐？重新思考大模型指令微调底层机制

论文标题：Learning or Self-aligning? Rethinking Instruction Fine-tuning

论文作者：Mengjie Ren, Boxi Cao, Hongyu Lin, Cao Liu, Xianpei Han, Ke Zeng, Guanglu Wan, Xunliang Cai, Le Sun

录用类型：主会长文

论文简介：指令微调已经成为大型语言模型构建的核心步骤之一，然而关于指令微调对大模型的输出的影响机制的深入分析仍然非常缺乏。当前应用指令微调的工作主要有两个目的，模型行为模式的转换和注入特定领域的知识。由于缺乏对指令微调的深入分析，我们很难理解指令微调给模型带来的增益究竟是由于其成功地对齐了我们期望的输出空间，实现了更好的知识表达机制，还是由于指令微调过程中确实带来了额外的领域知识增益。然而，对IFT潜在机制的理解仍然非常有限。在本文中，我们设计了知识扰动的分析框架，来解耦合模型行为模式转换与额外世界知识注入的作用。我们的实验表明，试图通过IFT学习额外的世界知识往往难以产生积极的影响，甚至可能导致明显的负面影响。此外，我们发现在指令微调前后保持内部知识的一致性是实现成功指令微调的关键因素。我们的研究结果揭示了指令微调的潜在机制，即指令微调的核心作用机制并不是让模型去“学习”额外的知识，而是将模型内部现有的知识进行一种自我的对齐。

成果三：规则或故事：哪种是与大模型交流时更好的常识表达方式？

论文标题：Rule or Story, Which is a Better Commonsense Expression for Talking with Large Language Models?

论文作者：Ning Bian, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben He, Le Sun

录用类型：主会长文

论文简介：自然语言处理领域一直以来都面临着常识规则的报道偏差和常识推理的曝光偏差的挑战，这是语言模型学习常识的主要障碍。但是，我们人类是通过故事来表达和传承常识的。在这篇论文中，我们研究了大规模语言模型在故事中表达常识的能力。实验结果显示，在28个常识问答数据集上，故事能够更好地帮助大模型提取常识信息，生成置信度和准确性更高。此外，故事对于回答与日常事件相关的问题更有效，而规则对于回答科学问题更有效，与文本语料库中常识的报道偏差现象一致。我们还发现，通过迭代自监督微调可以进一步提高常识故事的正确性和相关性。这篇论文展示了使用适合大模型的表达方式来表示、检索和利用常识知识的重要性，并提示了故事作为自然语言常识表达的潜力。

成果四：PRP-Graph：利用图聚合的两两排序提示使大模型有效进行文本重排序

论文标题：PRP-Graph: Pairwise Ranking Prompting to LLMs with Graph Aggregation for Effective Text Re-ranking

论文作者：Jian Luo, Xuanang Chen, Ben He, Le Sun

录用类型：主会长文

论文简介：成对排序提示（Pairwise Ranking Prompting, PRP）在大语言模型的零样本文档重排任务中表现出色。但在现有方法中，PRP在处理不同置信区间的比较结果时仅输出相同的标签而未考虑成对比较的不确定性，这意味着对LLM生成概率信息的利用不足。因此，本文提出了一种基于改进的评分PRP单元的成对重排方法PRP-Graph。PRP-Graph利用目标标签的输出概率来衡量大模型对比较结果的确定程度，进而经由排序图构建和排序图聚合两个阶段来获得重排结果。在BEIR数据集上的实验表明，本文提出的方法优于现有的PRP方法。综合分析表明，PRP-Graph对初始排序顺序表现出较强的鲁棒性，并以可接受的效率提供了出色的重新排序结果。

成果五：基于大模型的开放可执行规划：挑战与基准构建

论文标题：Open Grounded Planning: Challenges and Benchmark Construction

论文作者：Shiguang Guo*, Ziliang Deng*, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun

录用类型：主会长文

论文简介：大型语言模型（LLM）正在更广泛地应用到规划任务中，现有的基于LLM的规划工作要么专注于利用LLM固有的语言生成能力来生成自由风格的计划，要么采用强化学习方法在受限环境中为有限的动作集学习决策。然而，这两种方法在实际规划中的开放性和可执行性要求方面存在显著差异。在本文中，我们提出了一项新的规划任务——Open Grounded Planning。这项任务的主要目标是要求模型基于可变动作集合生成计划，并且确保生成的计划具有可执行性。为此，我们建立了一个涵盖广泛领域的基准，并且测试了当前最先进的LLM以及五种可能的规划方法，结果表明现有的LLM和方法在应对开放域中基础规划的挑战时仍然存在困难。本文的结果定义并建立了Open Grounded Planning的数据集，并阐明了使用LLM进行规划的潜在挑战和未来方向。

成果六：穿过阴影：AI生成内容检测器的干扰效应揭示

论文标题：Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors

论文作者：Ying Zhou, Ben He, Le Sun

录用类型：主会长文

论文简介：AI文本检测技术旨在区分人类和机器生成的内容。然而，最新研究表明，这些检测系统通常缺乏鲁棒性，难以准确识别经过扰动处理的文本。此外，检测器在实际应用中的性能评估以及扰动技术对检测器鲁棒性的影响仍然缺乏系统性研究。基于此，我们的工作模拟了非正式和专业写作的真实场景，评估了现有AI文本检测器的开箱性能，并构建了12种黑箱文本扰动方法，以测试这些检测器在不同扰动粒度下的鲁棒性。同时，通过对抗学习实验，我们进一步研究了扰动数据增强对AI文本检测器鲁棒性的影响。实验结果表明，当前的检测系统在应对扰动文本时表现出明显的不足，同时，合理地利用扰动数据进行对抗性训练可以显著提升检测器的鲁棒性和检测准确性。

成果七：StructEval：面向大模型的结构化评估

论文标题：StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation

论文作者：Boxi Cao, Mengjie Ren, Hongyu Lin, Xianpei Han, Feng Zhang, Junfeng Zhan, Le Sun

录用类型：Findings of ACL 长文

论文简介：评估是大规模语言模型发展的基石。针对每个原子的测试目标，现有的评估通常使用孤立的测试样例，从而难以准确区分模型是真正掌握了所需的知识还仅仅是猜测/记忆了特定问题的答案。因此，本文提出了一个名为StructEval的评估框架，对于每个原子的测试目标，StructEval能够自动构建覆盖多个认知层级和核心概念的结构化评估，从而为语言模型提供更全面、鲁棒和可靠的评估结果。多个模型上的实验结果证明StructEval能够出色地抵抗现有评测基准中的数据污染风险，并且通过减轻潜在偏差的干扰，提供针对模型能力的更一致和可靠的评估结论。进一步的，StructEval还能够为设计理论指导的大模型评估准则提供有价值的启发。

成果八：基于示例遵循的大模型上下文学习偏见消除

论文标题：Debiasing In-Context Learning by Instructing LLMs How to Follow Demonstrations

论文作者：Lvxue Li, Jiaqi Chen, Xinyu Lu, Yaojie Lu, Hongyu Lin, Shuheng Zhou, Huijia Zhu, Weiqiang Wang, Zhongyi Liu, Xianpei Han, Le Sun

录用类型：Findings of ACL 长文

论文简介：上下文学习因其高效性和任务迁移性受到广泛关注，然而其会受到示例偏差的困扰，也即其性能和鲁棒性会受到上下文示例选择和排序的影响。本文针对这一示例偏差现象进行了探究，指出其可能主要源自上下文示例引起的语义歧义：上下文示例中存在多种输入到输出的映射，在不同的上下文中可能会被大型语言模型以不同的方式解释。这种语义歧义在上下文学习期间破坏了大型语言模型对于任务的理解程度，从而导致了性能波动。为解决语义歧义问题，本文进一步提出了两种去偏差方法，并在6个任务数据集上进行了实验，证实了两种方法能够有效缓解示例偏差，并显著提高任务性能。

成果九：从无标注语料中构建大模型指令数据

论文标题：Building Instruction Data from Unlabelled Corpus

论文作者：Shu Chen, Xinyan Guan, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

录用类型：Findings of ACL 长文

论文简介：指令微调增强了大语言模型的指令遵循能力与广泛的文本生成能力，是对齐大语言模型的基本步骤。然而，人工标注指令数据的成本高、难度大。对此，本文提出了一个简单可扩展的方法，从无监督语料中自动构建高质量的指令数据。具体来说，本文使用启发式规则，从无监督语料中采集包含高质量指令跟随监督信号的纯文本，并通过反向标注指令以及输出改写的方法将其转换为高质量的指令数据。实验结果表明，使用本方法标注数据微调的大语言模型相比其他开源非蒸馏方法具有更好的指令遵循效果。

成果十：XMC-Agent：面向动态多标签的大语言模型驱动的智能体框架

论文标题：XMC-Agent : Dynamic Navigation over Scalable Hierarchical Index for Incremental Extreme Multi-label Classification

论文作者：Yanjiang Liu, Tianyun Zhong, Yaojie Lu, Hongyu Lin, Ben He, Shuheng Zhou, Huijia Zhu, Weiqiang Wang, Zhongyi Liu, Xianpei Han, Le Sun

录用类型：Findings of ACL 长文

论文简介：极限多标签分类（XMC）旨在从大规模标签集合中为实例准确分配相关标签，但面对实际场景中标签集合动态增长的挑战时，标签的学习、管理和预测都变得困难。传统的XMC方法假设标签是静态的，难以应对不断增长的标签集合，而基于标签语义嵌入的方法因信息后交互的模式而难以处理复杂的映射关系。为了解决这个问题，本文提出了一种名为XMC-Agent的大语言模型驱动的智能体框架，它能有效地学习、管理和预测极其庞大且动态增长的标签集合。具体来说，XMC-Agent将极端多标签分类任务建模为智能体在统一标签空间中的动态导航问题，并采用可扩展的层次标签索引来有效管理这个统一的标签空间。此外，我们还提出了两种算法来增强XMC-Agent的动态导航能力：一种是用于构建可扩展层次索引的自构建算法，以及一种用于对齐智能体到特定任务的迭代反馈学习算法。实验证明，XMC-Agent在三个标准数据集上达到了最先进的性能水平。

成果十一：分析、生成与精炼：基于大模型查询扩展的零样本开放域问答

论文标题：Analyze, Generate and Refine: Query Expansion with LLMs for Zero-Shot Open-Domain QA

论文作者：Xinran Chen, Xuanang Chen, Ben He, Tengfei Wen, Le Sun

录用类型：Findings of ACL 长文

论文简介：查询扩展是开放域问答（OpenQA）流程中的关键组件，通过添加相关文本来扩展查询的范围，从而提升检索性能。然而，现有方法如GAR和EAR严重依赖监督训练，且在跨领域和跨数据集时常常难以保持有效性。与此同时，虽然大型语言模型已在信息检索任务中展示了QE能力，但其在OpenQA中的应用常常受限，缺乏对查询信息的需求分析和对生成的查询扩展的质量控制，难以满足OpenQA任务的特殊需求。为弥补这一差距，本文提出了一种新颖的基于LLM的用于OpenQA任务的查询扩展方法，命名为AGR（Analyze, Generate and Refine）。AGR采用三步提示策略，首先分析查询，然后生成面向答案的扩展，最后对候选扩展精炼以更好地形成优化后的扩展文本。最终，通过在四个OpenQA数据集上的广泛实验表明，AGR不仅在检索准确性上可与域内监督方法媲美，还在跨域零样本场景中优于最先进的基线。此外，在端到端QA评估中AGR方法也表现出色，突显了其在OpenQA中的优越性。

成果十二：SoFA：通过优先规则遵循实现鲁棒的动态对齐

论文标题：SoFA: Shielded On-the-fly Alignment via Priority Rule Following

论文作者：Xinyu Lu, Bowen Yu, Yaojie Lu, Hongyu Lin, Haiyang Yu, Le Sun, Xianpei Han, Yongbin Li

录用类型：Findings of ACL 长文

论文简介：在不同国家和地区，对于大语言模型的监管要求和价值偏好可能多种多样，基于参数学习的对齐方法适合对通用价值（人工智能宪法）进行建模，在面对多样监管规则时需要重复标注，可扩展性不足；而如果将监管要求和价值偏好以指令的形式注入模型，则容易与其它用户指令混淆与被劫持。本论文提出通过对自然语言规则进行优先遵循的范式来对大语言模型进行动态对齐，具体来说，我们首先定义了宪法>=动态注入的规则>指令的优先级规范，并且通过半自动化的方式从大语言模型模拟中蒸馏出了符合该规范的优先规则遵循训练数据集PriorityRules。实验表明，经过优先遵循信号增强训练的模型能够提升模型对于系统提示的整合和保持能力，进而减少有害，偏见与幻觉响应，并且在广泛多样的规则集上具有泛化性。

780