root – ICIP站点

About root

This author has not yet filled in any details.
So far root has created 185 blog entries.

中科院软件所中文信息处理实验室获EDBT最佳论文奖亚军

root 2025-04-03T23:18:56+00:00

中科院软件所中文信息处理实验室获EDBT最佳论文奖亚军近日，数据库领域重要国际学术会议 EDBT 2025（The 28th International Conference on Extending Database Technology，CORE A & CCF-B类会议）在西班牙巴塞罗那圆满落幕。中国科学院软件研究所中文信息处理实验室论文《DBCopilot: Natural Language Querying over Massive Databases via Schema Routing》荣获最佳研究论文奖亚军（Runner-Up for Best Research Paper Award）。该论文第一作者为博士生王天舒，通讯作者为林鸿宇副研究员和韩先培研究员。 EDBT评奖委员会评价该论文道：“在大型机构和组织中使用自然语言查询关系型数据库面临数据库模式（database schema）的海量、复杂和多样化挑战。针对上述挑战，论文创新性的将任务分为两部分：模式路由（schema routing），用于识别合适的数据库和表格；以及SQL 生成（SQL generation），用于将自然语言问题转换为SQL查询语句。论文为这两个步骤都提出了创新性解决方案，并验证了这些方法在各项基准上带来的持续改进。” 成果介绍：论文提出了大小模型协同合作的 DBCopilot 框架，将自然语言查询扩展从单一受限数据库到海量数据库规模。具体地，论文首先将海量数据库自然语言查询问题解耦合为数据库路由任务（Schema Routing）和自然语言转结构化查询任务（NL2SQL），并针对性的提出了大小模型协同架构--DBCopilot。在DBCopilot架构中，可快速低成本微调的小模型用于解决领域特定、语义相关的Schema Routing任务，而大模型则用于SQL 生成任务。通过互补和协调两者的快速适应和通用生成的能力，DBCopilot可以有效利用模式之间的复杂结构关系从而实现更精准的海量数据库模式路由。同时针对训练数据稀缺的问题，论文提出了基于反向模式生成的数据合成方法，无需人工标注即可自动适配到海量数据库。论文通过广泛实验验证了所提模式路由方法的有效性，以及大小模型协作框架的可扩展性。研究成果表明，DBCopilot 能够有效地实现多源查询扩展，从而提升数据的可访问性。会议简介：EDBT 是数据库领域的重要学术会议（CORE A 类 & CCF- B类国际会议）。自 1988年创办以来，EDBT 每两年召开一次，2008 年起改为每年举办，并于 2009 年开始与数据库理论研究会议 ICDT（International Conference on Database Theory）联合召开。作为数据库及信息系统技术与应用领域的重要学术交流平台，会议为研究人员、从业者、开发者和用户提供了探索新理念、新技术和新工具以及交流经验的重要平台。之前的EDBT活动分别在威尼斯、维也纳、剑桥、阿维尼翁、瓦伦西亚、康斯坦茨、布拉格、伊拉克利翁、慕尼黑、南特、圣彼得堡、洛桑、乌普萨拉、柏林、热那亚、雅典、布鲁塞尔、波尔多、威尼斯、维也纳，里斯本、哥本哈根（虚拟）、尼科西亚（虚拟），爱丁堡（虚拟）等地方召开。

中科院软件所中文信息处理实验室获EDBT最佳论文奖亚军 root 2025-04-03T23:18:56+00:00

北京市自然科学基金-小米联合基金重点项目开题及进展研讨会顺利召开

root 2024-12-20T10:00:35+00:00

北京市自然科学基金-小米联合基金重点项目开题及进展研讨会顺利召开 2024年12月17日，北京市自然科学基金-小米联合基金重点项目“大语言模型知识的表征、学习、记忆和注入机制分析与验证”开题及进展研讨会在中国科学院软件研究所顺利举行。研讨会特邀北京理工大学教授黄河燕、小米集团研究员王斌、北京理工大学教授邬霞、中国科学院信息工程研究所研究员陈恺和中国人民大学教授赵鑫、小米公益基金会副秘书长高文隽、小米大模型负责人栾剑、小米技术委技术合作高级经理丁倩到会指导，中国科学院软件研究所科技处处长王熙博及项目组成员出席本次会议。中国科学院软件研究所科技处处长王熙博对与会的专家表示热烈欢迎，感谢他们年末百忙之中莅临指导。项目负责人孙乐研究员汇报了项目的整体情况及进展，从科学问题与研究目标、研究内容与技术方案、预期成果与考核指标以及总体进展与工作计划等多个方面进行汇报。接着，各课题负责人依次汇报了课题的研究内容、进展和技术方案。各位课题负责人深入介绍了项目在知识探测、知识体系化评估和大模型优化等方面的技术挑战与创新方案。专家组成员深入讨论了项目的整体技术方案和研究方向，并对知识表征、学习、记忆及注入机制等关键技术难点进行了充分质询。专家组一致认为，项目研究目标明确，团队基础良好，期待研究成果能够在大模型知识机制理论、方法和实践中产生重要影响。小米集团代表对项目未来工作进行了指导，小米大模型负责人栾剑从实际应用角度为项目提出了建设性意见，并期待进一步推动研究成果更好地与实际需求对接。小米公益基金会副秘书长高文隽表示，将为课题研究提供组织支持，助力课题组推进研究进展，搭建交流平台，促进学术与产业界的深入交流。

北京市自然科学基金-小米联合基金重点项目开题及进展研讨会顺利召开 root 2024-12-20T10:00:35+00:00

中文信息处理实验室多篇论文被 AAAI 与 COLING 录用

root 2024-12-20T10:11:18+00:00

中文信息处理实验室多篇论文被 AAAI 与 COLING 录用近日，中文信息处理实验室多项大模型领域研究成果被国际顶级会议 AAAI 2025 与 COLING 2025 录用，相关成果涉及大模型代码生成评测基准、大模型检索增强、大模型指令微调和大模型应用等方向。以下是相关被录用成果的简要介绍。成果一：DomainEval: 一个自动构建的多领域代码生成基准论文标题：DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation 论文作者：Qiming Zhu*, Jialun Cao*, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Shing-Chi Cheung 合作单位：香港科技大学发表会议：AAAI 2025 录用类型：主会长文论文简介：代码基准例如 HumanEval 被广泛用于评估大语言模型（LLM）的代码能力，揭示模型的优势与不足。然而，现有的基准主要在常见代码任务（例如冒泡排序、求最大公约数）上进行测试，而未探索特定领域的代码任务（例如计算、系统、密码学）。本文提出了一个多领域代码基准，DOMAINEVAL，旨在全面评估 LLM 的代码能力。基准构建流程以全自动方式运行，能够将代码仓库一键式转化为结构化的评测数据。通过 DOMAINEVAL 对 12 个代表性 LLM 的评估，发现 LLM 通常擅长计算任务，但在密码学和系统领域的代码任务上表现不佳。我们还观察到，更多次的采样可以提高 LLM 的整体性能，但领域之间的性能差距也可能随之增加。本研究的贡献包括覆盖六个流行领域的代码生成任务基准数据集 DOMAINEVAL，一个用于构建代码生成任务基准的全自动流程，以及根据 LLM 在 DOMAINEVAL 上的表现发现模型在代码生成任务方面的局限性，为未来的研究提供改进方向。排行榜链接 https://domaineval.github.io/。成果二：匹配，比较还是选择？大模型实体匹配探究论文标题：Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching 论文作者：Tianshu Wang, Xiaoyang Chen, Hongyu Lin, Xuanang Chen, Xianpei Han, Hao Wang, Zhenyu Zeng, Le Sun 合作单位：阿里云发表会议：COLING 2025 录用类型：主会长文论文简介：实体匹配是实体消解中的关键环节。近期，基于大模型（LLMs）的实体匹配展现出显著潜力。然而，现有基于大模型的实体匹配方法通常采用二分类匹配范式，忽视了记录关系之间的全局一致性。本文系统性探究了融合记录交互的多种大模型实体匹配方法。具体而言，我们全面比较了匹配、比较和选择三种代表性策略，并分析了它们在不同场景下的优势和局限。基于研究发现，我们进一步提出了复合式实体匹配框架（ComEM），该框架有效整合多种策略和大模型的各自优势。在 8 个实体消解数据集和 10 个大模型上的实验结果充分验证了提出策略的有效性，以及 [...]

中文信息处理实验室多篇论文被 AAAI 与 COLING 录用 root 2024-12-20T10:11:18+00:00

中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用

root 2024-10-08T15:09:06+00:00

中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用近日，中文信息处理实验室多项大模型领域研究成果被国际顶级会议 NeurIPS 2024 与 EMNLP 2024 录用，相关成果涉及大模型位置向量机制、大模型检索、大模型应用等方向。以下是相关被录用成果的简要介绍。成果一自检索：基于单一大语言模型的端到端信息检索论文标题：Self-Retrieval: End-to-End Information Retrieval with One Large Language Model 论文作者：Qiaoyu Tang*， Jiawei Chen*， Zhuoqun Li， Bowen Yu， Yaojie Lu， Cheng Fu， Haiyang Yu， Hongyu Lin， Fei Huang， Ben He， Xianpei Han， Le Sun， Yongbin Li 合作单位：阿里巴巴发表会议：NeurIPS 2024 录用类型：主会长文论文简介：大语言模型（LLM）极大地改变了信息检索（IR）系统的构建和应用。然而，当前信息检索系统与大语言模型仅存在有限的交互，大模型通常作为信息检索系统组件的一部分，且信息检索系统通常与大模型分开构建。这种相互独立的架构限制了大模型和信息检索系统之间的知识共享和深度协作。我们提出了一种端到端的大模型驱动的信息检索架构--“自检索”（Self-Retrieval）。自检索将信息检索系统的所有基本功能整合到一个大模型中，在整个检索过程中充分利用大模型的固有功能。具体来说，自检索通过自监督学习内化检索语料库，并将检索过程转化为生成段落的序列，并自评估相关性以重排序。实验结果表明，自检索不仅大大超越了以往的检索方法，而且还能显著提高大模型驱动的下游应用（如检索增强生成）的性能。成果二 RoPE 的基数是大模型窗口长度的约束论文标题：Base of RoPE Bounds Context Length 论文作者：Xin Men， Mingyu Xu， Qingyu Zhang， Bingning Wang， Hongyu Lin， Xianpei Han， Weipeng Chen 合作单位：百川智能发表会议：NeurIPS 2024 录用类型：主会长文论文简介：基于RoPE(Rotary Position Embedding)的相对位置编码几乎成为大语言模型中标准的组件。以往，RoPE中唯一的超参数base的设置大多依赖启发式方法。我们最新的研究发现，模型能处理的最大窗口长度实际上是由这个base参数所决定的：要实现一个理想的长窗口模型，base必须大于某个特定阈值。我们通过理论分析和实践验证双重途径，证实了这个base下界的存在。同时，这项研究也揭示了基于旋转角度外推(OOD， Out-of-Distribution)理论进行长窗口外推的局限性。成果三 Seg2Act: 面向文档逻辑结构的全局上下文感知动作生成论文标题：Seg2Act: Global Context-aware Action Generation for Document Logical Structuring 论文作者：Zichao Li， Shaojie [...]

中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用 root 2024-10-08T15:09:06+00:00

爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告

root 2024-10-04T11:53:54+00:00

爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告 9月25日上午，应实验室孙乐研究员的邀请，爱丁堡大学终身讲席教授、华为爱丁堡知识图谱实验室主任Jeff Z. Pan教授为我们带来了题为“Large Language Models Meet Knowledge Graphs: A New Journey for Knowledge Representation”的精彩学术报告。 Jeff Z. Pan教授是爱丁堡大学的终身讲席教授，同时担任华为爱丁堡知识图谱实验室主任和华为英国首席搜索科学家。他在知识表示、语义技术、人工智能推理、自然语言理解等领域拥有丰富的研究经验。Pan教授曾主导多个国际科研项目，并在艾伦·图灵研究院担任知识图谱研究主席。本次报告中，Pan教授介绍了大语言模型在知识图谱构建与应用中的最新进展。他指出，大语言模型的出现为知识图谱领域带来了全新机遇，尤其在显性知识和参数化知识的混合表示方面。尽管大语言模型有望通过较少的训练数据构建知识图谱，但其面临的挑战依然不容忽视。主要挑战包括知识编辑问题、长尾知识覆盖不足等。例如，在长尾知识覆盖中表现出不足，知识编辑重复训练效率低下，且可能影响整体知识表示的准确性。针对这些问题，Pan教授指出外部知识的融合对于大语言模型的支撑至关重要，并从文本、知识图谱、数据库Text-to-SQL三个方面，讨论了如何通过外部知识弥补这些不足。报告结束后，实验室师生积极参与讨论，围绕模型反馈的训练上界、知识编辑的泛化能力、以及如何在不影响语言理解的前提下进行文本到SQL的训练展开了深入的交流。

爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告 root 2024-10-04T11:53:54+00:00

中文信息处理实验室12篇论文被ACL2024录用

root 2024-05-24T10:29:29+00:00

中文信息处理实验室12篇论文被ACL2024录用近日，中文信息处理实验室12 项大模型领域研究成果被国际顶级会议ACL2024录用，相关成果涉及大模型知识机制、大模型价值观对齐、大模型智能规划、大模型评估、大模型检索等方向。以下是相关被录用成果的简要介绍。成果一：沉默的螺旋：大模型如何影响信息检索？论文标题：Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering 论文作者：Xiaoyang Chen, Ben He, Hongyu Lin, Xianpei Han, Tianshu Wang, Boxi Cao, Le Sun, Yingfei Sun 录用类型：主会长文论文简介：将大语言模型（LLM）与检索系统相结合的 "检索增强生成"（RAG）在实践中已变得越来越普遍，然而LLM 生成内容渗入网络数据并影响检索-生成反馈回路所带来的影响在很大程度上还是未知领域。本研究构建并反复运行了一个模拟循环系统，以深入研究 LLM 文本对 RAG 系统造成的短期和长期影响。以当前流行的开放领域问题解答（ODQA）任务为切入点，本研究揭示了潜在的数字 "沉默螺旋 "效应，即 LLM 生成的文本在搜索排名中始终优于人类撰写的内容，从而逐渐削弱人类撰写文本在网上的影响。这种趋势有可能造成一个失衡的信息生态系统，即LLM生成的错误内容肆意泛滥，导致准确信息被边缘化。本研究敦促学术界注意这一潜在问题，确保数字信息景观的多样性和真实性。成果二：学习还是自我对齐？重新思考大模型指令微调底层机制论文标题：Learning or Self-aligning? Rethinking Instruction Fine-tuning 论文作者：Mengjie Ren, Boxi Cao, Hongyu Lin, Cao Liu, Xianpei Han, Ke Zeng, Guanglu Wan, Xunliang Cai, Le Sun 录用类型：主会长文论文简介：指令微调已经成为大型语言模型构建的核心步骤之一，然而关于指令微调对大模型的输出的影响机制的深入分析仍然非常缺乏。当前应用指令微调的工作主要有两个目的，模型行为模式的转换和注入特定领域的知识。由于缺乏对指令微调的深入分析，我们很难理解指令微调给模型带来的增益究竟是由于其成功地对齐了我们期望的输出空间，实现了更好的知识表达机制，还是由于指令微调过程中确实带来了额外的领域知识增益。然而，对IFT潜在机制的理解仍然非常有限。在本文中，我们设计了知识扰动的分析框架，来解耦合模型行为模式转换与额外世界知识注入的作用。我们的实验表明，试图通过IFT学习额外的世界知识往往难以产生积极的影响，甚至可能导致明显的负面影响。此外，我们发现在指令微调前后保持内部知识的一致性是实现成功指令微调的关键因素。我们的研究结果揭示了指令微调的潜在机制，即指令微调的核心作用机制并不是让模型去“学习”额外的知识，而是将模型内部现有的知识进行一种自我的对齐。成果三：规则或故事：哪种是与大模型交流时更好的常识表达方式？论文标题：Rule or Story, Which is a Better Commonsense Expression for Talking with Large Language Models? 论文作者：Ning Bian, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben [...]

中文信息处理实验室12篇论文被ACL2024录用 root 2024-05-24T10:29:29+00:00

中央财经大学迟钰雪副教授应邀为实验室进行学术报告

root 2024-04-15T20:27:39+00:00

中央财经大学迟钰雪副教授应邀为实验室进行学术报告 2024年4月2日下午，应实验室林鸿宇副研究员的邀请，中央财经大学管理科学与工程学院副教授迟钰雪老师为实验室进行了题为 "Risk spillovers in Chinese production network: A supply-side shock perspective" 的学术报告。迟钰雪老师是中央财经大学管理科学与工程学院副教授，中国发展战略学研究会社会战略专业委员会委员。主持国家自然科学基金青年基金1项，参与多项国家自然科学基金面上项目、重大研究项目及国家高端智库试点项目。近年来，在《Nature Humanities and Social Sciences Communications，Knowledge-Based Systems》，《Information Processing & Management》，《管理科学学报》，《系统工程理论与实践》等期刊发表论文十余篇。长期担任《Information Sciences》、《系统工程理论与实践》等期刊审稿人。迟钰雪老师为我们介绍了其以第一作者新发表在《Nature Humanities and Social Sciences Communications》期刊的论文。该论文设计了一个模型来模拟供给端冲击在生产网络中传播并导致实际部门系统性风险的传播。该论文根据输入-产出框架定义了系统重要产业（SIIs）和系统性脆弱产业（SVIs），并根据风险溢出的程度和方向进行分类。模拟结果显示，风险溢出通过生产网络在产业之间传播，导致实际部门的系统性风险。该论文还将模型中的重要风险溢出路径分类为“SVIs→SIIs→SVIs”，用于风险监管和预防，并在2018年识别出75个风险溢出路径和9个闭环路径。此外，系统重要性（脆弱性）的关键因素包括输入-产出关系和生产网络的中心性。该论文为基于供应链加强实际部门的风险监管提供了科学依据。迟钰雪老师的精彩报告引发了实验室师生的认真思考，大家就选题契机、产业数据获取方式、生产网络的外循环扩展与产业间的可替代性问题进行了广泛且深入的交流讨论。

中央财经大学迟钰雪副教授应邀为实验室进行学术报告 root 2024-04-15T20:27:39+00:00

大模型遇见社会科学：从“人的社会”到“AI的社会” 的研究

root 2024-03-16T01:59:36+00:00

大模型遇见社会科学：从“人的社会”到“AI的社会” 的研究论文标题：AI for Social Science and Social Science of AI: A Survey 论文链接： 🔗 Information Processing & Management 期刊论文链接 https://www.sciencedirect.com/science/article/abs/pii/S0306457324000256 🔗 预印版论文链接 https://arxiv.org/pdf/2401.11839.pdf 你是否曾经思考过，一个AI与人类共同工作、共同生活的社会会是什么样的？科幻作品如《黑客帝国》中的虚拟世界、《机器人总动员》中的友善机器人WALL-E，甚至《银翼杀手》中的仿生人都为我们提供了想象的蓝本。在这些作品中，AI不再是简单的工具，而是拥有着独特行为特征的生命体，这样的幻想或许正在变为现实。大模型技术的兴起，不仅显著提升了AI的类人能力，重新定义了AGI的可能性，也打开了AI与人类合作的崭新篇章。越来越多的学者开始将目光投向AI与社会科学的结合，探索社会模拟[1, 2]、AI治理等领域的可能性。然而，当前AI与社会科学的结合通常混淆了两个截然不同的方向。一方面，由于AI的出色能力，它成为社会科学研究各个阶段的高效工具；另一方面，随着AI类人能力的增加和模仿人类社会的AI社区的出现，AI代理本身也能够被视作社会实体，以了解其独特的行为特征和对社会的影响。虽然这两个方向共享相同的技术手段，但研究目标、意义和应用范围却完全不同。例如，尽管两者都涉及社会模拟，但前者要求AI代理尽可能与人类行为对齐，以便快速、低成本、低风险地研究人类社会的运行规律；而后者则专注于探索AI自身的行为规律，尤其关注机器行为的与众不同之处，以理解机器行为的普遍现象。由于缺乏对这两个方向的全面调查，我们难以确定每项工作的研究意义和应用范围，这妨碍了我们理解和利用这两个方向之间的差异和联系。因此，中国科学院软件研究所中文信息处理实验室团队对AI技术和社会科学的结合做了一个全面和系统性的综述。具体来说，本文主要从两个视角来探讨AI与社会科学之间的关系：1）AI for social science，即AI利用其类人智能助力传统社会科学研究；2）Social science of AI，即AI成为社会科学的研究对象，被视作社会实体来研究其行为规律。除此之外，本文还对相关资源和工具进行了搜集和比较，为这一领域的研究提供了有益的参考。该综述发表于中科院一区Top期刊 Information Processing & Management。 AI for Social Science 对于AI for social science方向，本文重点讨论了大语言模型作为一种高效工具整合到现有的社会科学研究方法中的潜力。如图所示，以社会科学领域的经典研究范式[3]为基础，本文系统地探讨了大语言模型在假设生成和假设验证阶段能够发挥的作用。具体来说，在假设生成阶段，主要关注大语言模型如何帮助人类进行文献综述和假设提出。在假设验证阶段，分别考察了大语言模型在实验研究、调查研究和非反应性研究等不同研究方法中的作用。本章节旨在为社会科学研究人员在研究过程中如何应用大语言模型以提高效率提供一个全面且清晰的视角，同时揭示大语言模型尚未开发的潜力，提出潜在的风险和伦理问题，并探讨未来可能的发展方向。以实验研究为例，大语言模型可以扮演双重角色——既可作为实验助手[4]，又可作为人类行为的可信代理[1, 2]，成为实验对象。尤其是后者，在人工智能和社会科学领域引起了越来越多的关注，因为大型语言模型越来越有能力模拟类似人类的反应和行为。使用大型语言模型模拟实验的优势在于提高效率，降低成本，增强可扩展性，以及回避与人类受试者相关的伦理问题，从而为在人类身上被视为不道德的实验打开了大门，比如经典的斯坦福监狱实验[5]。劣势在于透明度低，重现性差，以及“仿真度”的不确定性[2]。因此，作者鼓励研究人员进一步开发评估大型语言模型模拟质量的方法，并且结合认知科学的见解来指导人工智能代理框架的发展，以增强其行为的相似性和合理性。 Social Science of AI 对于social science of AI方向，本文主要关注使用大型语言模型作为研究对象的社会科学研究，特别强调其与传统人类行为的区别。如图所示，本文遵循社会科学领域内的学科分类，从不同学科视角研究大语言模型作为社会实体的行为规律。人工智能协作的行为模式、结果、影响以及驱动其协作行为变化的因素尚不清楚。与social science of human类似，social science of AI的最终目标是明确人工智能智能体作为社会实体的行为特征，以及如何建模和理解这些行为特征。这类研究对于未来人工智能集体的自主决策和控制具有重要意义。以心理学为例，目前研究主要集中于对大语言模型的个性、认知能力等角度的探究。从个性的角度来看，大语言模型虽然整体表现出个性倾向[6-8]，但不像人类一样拥有一致和稳定的个性倾向，更倾向于是多个视角的叠加[9]。从认知能力领域来看，在归纳、类比、因果推理、心理理论等方面，以GPT-3.5和GPT-4为代表的最先进的大型语言模型可以展示出与人类相当甚至超越人类的认知能力，但采取的认知模式与人类并不一致[10]。模拟工具为了便于在社会科学研究中使用大型语言模型，已经存在一些公开可用的工具和资源作为辅助工具。考虑到其他应用主要依赖于直接使用或基于简单脚本的调用，本文重点介绍了基于大型语言模型的仿真工具和平台。在此框架下，对仿真需求进行了系统分析，并对各平台的功能进行了比较。总结与讨论本文综述了大语言模型与社会科学交叉领域的最新进展。我们提出一个二分法来概述这一领域的进展，包括“AI for social science”和“social science of AI ”。我们注意到，大型语言模型可以集成到社会科学研究的各个阶段，作为辅助工具、灵感来源、注释工具、内容分析工具等，从而有效提升研究效率。虽然大型语言模型作为工具具有速度、成本效益、无道德风险实验和低门槛等优势，但必须仔细验证其生成文本的可靠性和真实性。替代人类进行实验和调查的可行性仍然是一个争议性问题。因此，研究人员在使用这些模型时需要考虑验证的额外成本和偏倚风险。此外，大型语言模型本身和围绕它们形成的社区都表现出一些独特而有趣的行为。我们强调这一研究方向的前景，随着人工智能在日常生活中越来越普遍，这一研究方向将变得越来越重要。这两个方向相辅相成，后者可以指导前者的发展，而前者可以提高后者的研究效率。总之，我们认为，虽然人工智能不能取代社会学家，但它将深度融入研究过程；社会科学家也将在指导人工智能发展方面发挥重要作用。引用 [1] Park, Joon Sung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedings of the 36th [...]

大模型遇见社会科学：从“人的社会”到“AI的社会” 的研究 root 2024-03-16T01:59:36+00:00

学习还是自我对齐 ? 关于指令微调的内在机制的探究

root 2024-03-16T02:07:34+00:00

学习还是自我对齐 ? 关于指令微调的内在机制的探究论文标题：Learning or Self-aligning? Rethinking Instruction Fine-tuning. 论文链接：🔗 https://arxiv.org/abs/2402.18243 指令微调(Instruction Fine-tuning，IFT)已经成为大型语言模型构建的核心步骤之一，然而关于IFT对大模型的输出的影响机制的深入分析仍然非常缺乏。当前应用指令微调的工作主要有两个目的，模型行为模式的转换和注入特定领域的知识。由于缺乏对指令微调的深入分析，我们很难理解指令微调给模型带来的增益究竟是由于其成功地对齐了我们期望的输出空间，实现了更好的知识表达机制，还是由于指令微调过程中确实带来了额外的领域知识增益。为此，中国科学院软件研究所中文信息处理实验室联合美团提出基于知识扰动的分析框架，来解耦合模型行为模式转换与额外世界知识注入的作用。作者发现: (1) 对于指令微调而言，学习与模型参数知识不一致的世界知识无法带来增益，甚至会造成额外的损害。(2) 有效指令微调的本质在于完成行为模式转换的同时，保持指令微调前后模型参数知识的一致性。换句话说，指令微调的核心作用机制并不是让模型去“学习”额外的知识，而是将模型内部现有的知识进行一种自我的对齐。因此，最终决定指令微调性能的并非领域知识的注入程度，而是是否能够通过指令微调的过程，实现更有效的自我对齐，从而促进模型内部现存的参数知识在零样本问答这一目标模式下更好的表达。这一发现不仅对未来指令微调数据构建、微调方法的设计以及微调效果的评估提供了指引，还为最近兴起的包括super alignment[1]、self-play[2]等在内的一系列工作提供了坚实的依据。基于知识扰动的分析框架具体而言，作者分别收集了来自四个领域的的选择题数据集，并使用少样本上下文学习探测模型参数知识。作者认为，如果一个预训练完的基座模型，能够在给定少样本的条件下正确回答某个问题，则该基座模型就具备回答该问题的相关知识。基于上述的知识探测方法，作者通过知识扰动，构建了三组不同的IFT设置： Harmonious 由与模型参数知识一致的指令数据组成，是基座模型可以在少样本上下文学习下正确回答的问题。在该设置下的学习过程中，模型只需要学习行为模式，而不需要学习额外的世界知识； Incompatible 包含了基座模型在少样本上下文学习中无法正确回答的问题。由于与模型参数知识完全不一致，模型在训练阶段既需要学习行为模式，也需要学习世界知识； Self-aligning 该设置下的指令输入与incompatible设置中的完全一致，但是作者将每个指令对应的答案修改为基座模型自己预测的答案，以与模型参数知识保持一致。因此，在这种设置下，所有的响应都是不正确的，模型无法学习任何额外的世界知识。通过控制指令数据所蕴含的知识与模型参数知识的一致性程度，观察使用不同一致性程度的数据微调的模型的行为差异，作者希望回答以下两个研究问题： RQ1 指令数据中提供的额外世界知识是如何影响大模型的? RQ2 上述影响的潜在原因是什么? 为了回答上述的RQ并进行全面的评估，对于每个领域，作者构建了三种类型的测试集：同质测试集(HOMO)，从该领域的训练集所在的数据集留出域内测试集(ID)，包含了MMLU中所有属于该领域的subcategories 域外测试集(OOD)，包含了MMLU中所有不属于该领域的subcategories 通过观察不同设置下微调的模型在三种类型测试集上的性能差异，作者希望检查指令微调对各种场景的影响。实验 Exp-I: 在IFT中学习额外的知识是否重要？对于每个领域和基座模型的组合，作者分别构建了上述三组指令数据，并用来微调对应的基座模型，结果如下表所示，harmonious设置(HAR)与self-aligning设置(SELF)在四个基座模型、四个领域的三类评估上基本都明显强于incompatible设置(INC)。基于此，作者发现：1）当包含正确的世界知识时，与模型参数知识一致的指令数据会带来更优的微调结果；2）相比于使用正确但与模型参数知识不一致的数据微调模型，使用与模型参数知识一致但错误的指令数据微调模型能够获得更好的性能表现。这表明，对于IFT而言，学习指令数据中包含有的额外的世界知识很可能并不能够带来增益。 Exp-II: 在IFT上下文中引入额外的世界知识的对比为了进一步验证上述结论，作者提出Contextualized IFT来解耦IFT数据中包含的冲突知识，并对此问题进行了进一步的分析。具体而言，对于与模型参数知识不一致的指令数据，作者使用GPT-3.5生成响应该指令所需的知识，并将该知识加到指令的前面，以此构建指令数据并微调模型。针对含有冲突指令数据的incompatible设置，作者在三个基座模型、四个领域上进行了实验，上表报告了在不同基座模型上使用Vanilla IFT与作者提出的Contextualized IFT的平均性能，可以看出Contextualized IFT能够有效缓解不一致的指令数据带来的负面影响。基于此，作者发现让模型在指令微调过程中不学习与参数知识冲突的世界知识有助于实现更好的指令微调。结合以上两组实验，对于RQ1，作者得出结论：Conclusion1. 对于指令微调而言，学习与模型参数知识不一致的世界知识无法带来增益，甚至会造成额外的损害。 Exp-III: 一致性代表一切吗？上述发现似乎可以得出一个结论：为了更好地进行行为模式转换，应该使用与模型参数知识完全一致的IFT数据，而不需要任何额外的世界知识。为了探究这个假设，作者设计了一组新的实验。具体而言，通过调整来自incompatible和self-aligning的样本比例，作者旨在调整IFT数据中的知识与模型参数知识的一致性比率，从而观察不同一致性比率下IFT结果的变化。上图报告了基座模型Mistral-7B在不同领域上使用不同的知识一致性数据微调的结果，可以看出最优点并不总在最右侧取得，因此作者发现使用与模型内部参数知识完全一致的指令数据并不总能取得最优性能。 Exp-IV: 对IFT而言，什么是真正重要的？为了进一步分析指令微调的潜在机制，作者分析了IFT前后不同基座模型在三类评估上的知识差异，以观察IFT引发的内部知识改变的程度。具体来说，对于测试数据中的每个样本，作者首先计算原始模型通过上下文学习探测得到的对选项的预测排名与微调模型提供的预测排名之间的Pearson相关系数。在此基础上，作者计算每类测试集的平均Pearson相关系数，然后将其与微调模型在同一测试集上的性能进行比较。作者在三个基座模型，共计96个微调模型上进行了Spearman偏相关性分析 (基座模型在对应测试集上的性能作控制变量)，并在下表中汇报了在不同基座模型及所有模型上的偏相关系数(r)与显著性(p-value)。对于LLaMA-2-13B和Mistral-7B来说，远低于0.05的显著性表明了高置信度。作者因此得出指令微调前后模型内部知识的一致性是影响微调后模型性能的关键因素。作者还在下图中对Mistral-7B的结果进行了可视化，其中横轴为指令微调前后模型预测排序的Pearson相关系数，纵轴为微调后的模型性能，作者按照领域分组绘制了回归线，可以看到从同质、领域内、领域外的三类评估上，都有一个明显的上升趋势。为了探究上述发现是否是导致Exp-III中现象的原因，进一步地，作者对微调前后模型预测分布的KL散度进行了分析，并在下表汇报了不同基座模型在不同设置下微调前后预测分布的平均KL散度，其中“Best”表示在三类评估上平均表现最好的微调模型与其相应基座模型预测分布的平均KL散度。从表中可以看出，self-aliging设置下微调的模型与基座模型的KL散度要明显大于最优微调模型与基座模型的KL散度，由于模型内部参数知识是平滑的，完全使用自对齐设置(one-hot) 本身也是一种知识背离。由此，针对于前文提出的RQ2，作者得到如下结论：Conclusion 2. 有效指令微调的本质在于完成行为模式转换的同时，保持指令微调前后模型参数知识的一致性。总结与讨论上述的实验结论表明，指令微调的核心作用并不是注入特定领域的知识。与之相反的是，强行注入与模型现有知识不一致的额外知识，反而会损害模型在领域内外的表现。同时，作者的实验还发现，模型在IFT前后的内部参数知识的一致性—— 即IFT 前基于少样本上下文学习探测表现出来的知识与 IFT后在零样本问答模式下表现出来的知识之间的一致性，对于微调后模型的最终性能有着决定性的影响。这两个结论揭示了IFT的一个根本的作用机制，即指令微调不是一个监督的领域特定知识学习的过程，而是将指令与模型现有参数知识进行一种自我对齐的过程。因此，最终决定指令微调性能的并非领域知识的注入程度，而是是否能够通过指令微调的过程，实现更有效的自对齐，从而促进模型现存参数知识在零样本问答这一目标模式下更好的知识表达。这一发现不仅对未来指令微调数据构建、微调方法的设计以及微调效果的评估提供了指引，还为最近兴起的一系列工作提供了坚实的依据。例如，super alignment[1]旨在使用一个弱模型来指导一个更强的模型进行对齐。由于指令微调的核心在于引发行为模式的转换，而非知识的注入。因此，作者的结论证明了使用一个知识较少的弱模型来指导更大、知识更强的模型进行指令微调是完全可能的，同时也为最近兴起的包括self-play[2]、self-alignment[3][4]、self-rewarding[5]等在内的一系列工作提供了坚实的依据。引用 [1] Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, and Jeff Wu. 2023. Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision. ArXiv:2312.09390 [...]

学习还是自我对齐 ? 关于指令微调的内在机制的探究 root 2024-03-16T02:07:34+00:00

上海交通大学张倬胜博士应邀至实验室进行学术报告

root 2024-01-26T15:02:26+00:00

上海交通大学张倬胜博士应邀至实验室进行学术报告 2024年1月26日上午，上海交通大学张倬胜博士应邀在中文信息处理实验室发表了题为《大模型自主智能体的应用及安全挑战》的专题报告。张倬胜博士是上海交通大学电子信息与电气工程学院长聘教轨助理教授，曾担任领域内重要会议LREC-COLING 2024领域主席、ICLR 2023 Tiny Papers领域主席和中国计算语言学大会CCL 2022分委会主席。入选中国中文信息学会博士学位论文激励计划，获评2023世界人工智能大会云帆奖明日之星、全球 AI 华人百强学术新星。主要研究方向为预训练语言模型、自主智能体及其安全。在TPAMI、ICLR、ACL、AAAI等顶级学术期刊/会议发表论文50余篇。Google Scholar论文被引用次数超过3000次，3篇第一作者论文入选为AAAI和COLING高影响力论文列表。研发的语言理解与推理系统在8项国际权威自然语言理解评测获得第一名。报告中，张倬胜博士从智能机器人的未来应用畅想切入，讲述了大模型自主智能体的概念，并介绍了其具有自主性、自适应性、动态响应和自我完善等特性，以及其在现实与虚拟世界中包括系统操控、软件开发、科学发现、具身智能在内的各类场景中的应用。接着，他以Auto-UI智能手机自主智能体为例，展示了大模型自主智能体的具体应用实例，并以此工作中发现的攻击现象为引，引出了有关智能体强大能力背后潜在的安全挑战的讨论。随后，张倬胜博士从智能体应用的流程与形式等方面具体分析了其安全风险分类和来源的复杂性，智能体本身产生的内容与行为均存在风险，同时智能体系统在用户侧、模型侧和环境侧均存在潜在的漏洞以及被攻击的风险。张倬胜博士展示了他和团队提出的“R-Judge大模型智能体行为安全评测”，旨在探测模型自身安全风险判断能力与基于外界安全反馈的判断能力上限。他们发现模型对安全风险的判断与人类表现存在较大差距，模型越大性能越好，风险描述与环境反馈是提升模型检测风险能力的有效手段，并且指令遵循能力直接影响模型性能表现。最后，张倬胜博士从他自身的科研经历出发，与同学们分享了自己作为学生与研究者一路走来的经验，鼓励同学们保持紧迫感、信念感和包容心，坚持努力，追求极致。

上海交通大学张倬胜博士应邀至实验室进行学术报告 root 2024-01-26T15:02:26+00:00

12 Next

About root

Contact Info

Recent Posts