root

/root

About root

This author has not yet filled in any details.
So far root has created 178 blog entries.

中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用

2024-10-08T15:09:06+00:00

中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用 近日,中文信息处理实验室多项大模型领域研究成果被国际顶级会议 NeurIPS 2024 与 EMNLP 2024 录用,相关成果涉及大模型位置向量机制、大模型检索、大模型应用等方向。以下是相关被录用成果的简要介绍。   成果一 自检索:基于单一大语言模型的端到端信息检索 论文标题:Self-Retrieval: End-to-End Information Retrieval with One Large Language Model 论文作者:Qiaoyu Tang*, Jiawei Chen*, Zhuoqun Li, Bowen Yu, Yaojie Lu, Cheng Fu, Haiyang Yu, Hongyu Lin, Fei Huang, Ben He, Xianpei Han, Le Sun, Yongbin Li 合作单位:阿里巴巴 发表会议:NeurIPS 2024 录用类型:主会长文 论文简介:大语言模型(LLM)极大地改变了信息检索(IR)系统的构建和应用。然而,当前信息检索系统与大语言模型仅存在有限的交互,大模型通常作为信息检索系统组件的一部分,且信息检索系统通常与大模型分开构建。这种相互独立的架构限制了大模型和信息检索系统之间的知识共享和深度协作。我们提出了一种端到端的大模型驱动的信息检索架构--“自检索”(Self-Retrieval)。自检索将信息检索系统的所有基本功能整合到一个大模型中,在整个检索过程中充分利用大模型的固有功能。具体来说,自检索通过自监督学习内化检索语料库,并将检索过程转化为生成段落的序列,并自评估相关性以重排序。实验结果表明,自检索不仅大大超越了以往的检索方法,而且还能显著提高 大模型驱动的下游应用(如检索增强生成)的性能。 成果二 RoPE 的基数是大模型窗口长度的约束 论文标题:Base of RoPE Bounds Context Length 论文作者:Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Xianpei Han, Weipeng Chen 合作单位:百川智能 发表会议:NeurIPS 2024 录用类型:主会长文 论文简介:基于RoPE(Rotary Position Embedding)的相对位置编码几乎成为大语言模型中标准的组件。以往,RoPE中唯一的超参数base的设置大多依赖启发式方法。我们最新的研究发现,模型能处理的最大窗口长度实际上是由这个base参数所决定的:要实现一个理想的长窗口模型,base必须大于某个特定阈值。我们通过理论分析和实践验证双重途径,证实了这个base下界的存在。同时,这项研究也揭示了基于旋转角度外推(OOD, Out-of-Distribution)理论进行长窗口外推的局限性。 成果三 Seg2Act: 面向文档逻辑结构的全局上下文感知动作生成 论文标题:Seg2Act: Global Context-aware Action Generation for Document Logical Structuring 论文作者:Zichao Li, Shaojie [...]

中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用 2024-10-08T15:09:06+00:00

爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告

2024-10-04T11:53:54+00:00

爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告 9月25日上午,应实验室孙乐研究员的邀请,爱丁堡大学终身讲席教授、华为爱丁堡知识图谱实验室主任Jeff Z. Pan教授为我们带来了题为“Large Language Models Meet Knowledge Graphs: A New Journey for Knowledge Representation”的精彩学术报告。 Jeff Z. Pan教授是爱丁堡大学的终身讲席教授,同时担任华为爱丁堡知识图谱实验室主任和华为英国首席搜索科学家。他在知识表示、语义技术、人工智能推理、自然语言理解等领域拥有丰富的研究经验。Pan教授曾主导多个国际科研项目,并在艾伦·图灵研究院担任知识图谱研究主席。 本次报告中,Pan教授介绍了大语言模型在知识图谱构建与应用中的最新进展。他指出,大语言模型的出现为知识图谱领域带来了全新机遇,尤其在显性知识和参数化知识的混合表示方面。尽管大语言模型有望通过较少的训练数据构建知识图谱,但其面临的挑战依然不容忽视。主要挑战包括知识编辑问题、长尾知识覆盖不足等。例如,在长尾知识覆盖中表现出不足,知识编辑重复训练效率低下,且可能影响整体知识表示的准确性。针对这些问题,Pan教授指出外部知识的融合对于大语言模型的支撑至关重要,并从文本、知识图谱、数据库Text-to-SQL三个方面,讨论了如何通过外部知识弥补这些不足。 报告结束后,实验室师生积极参与讨论,围绕模型反馈的训练上界、知识编辑的泛化能力、以及如何在不影响语言理解的前提下进行文本到SQL的训练展开了深入的交流。

爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告 2024-10-04T11:53:54+00:00

中文信息处理实验室12篇论文被ACL2024录用

2024-05-24T10:29:29+00:00

中文信息处理实验室12篇论文被ACL2024录用 近日,中文信息处理实验室12 项大模型领域研究成果被国际顶级会议ACL2024录用,相关成果涉及大模型知识机制、大模型价值观对齐、大模型智能规划、大模型评估、大模型检索等方向。以下是相关被录用成果的简要介绍。   成果一:沉默的螺旋:大模型如何影响信息检索? 论文标题:Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering 论文作者:Xiaoyang Chen, Ben He, Hongyu Lin, Xianpei Han, Tianshu Wang, Boxi Cao, Le Sun, Yingfei Sun 录用类型:主会长文 论文简介:将大语言模型(LLM)与检索系统相结合的 "检索增强生成"(RAG)在实践中已变得越来越普遍,然而LLM 生成内容渗入网络数据并影响检索-生成反馈回路所带来的影响在很大程度上还是未知领域。本研究构建并反复运行了一个模拟循环系统,以深入研究 LLM 文本对 RAG 系统造成的短期和长期影响。以当前流行的开放领域问题解答(ODQA)任务为切入点,本研究揭示了潜在的数字 "沉默螺旋 "效应,即 LLM 生成的文本在搜索排名中始终优于人类撰写的内容,从而逐渐削弱人类撰写文本在网上的影响。这种趋势有可能造成一个失衡的信息生态系统,即LLM生成的错误内容肆意泛滥,导致准确信息被边缘化。本研究敦促学术界注意这一潜在问题,确保数字信息景观的多样性和真实性。   成果二:学习还是自我对齐?重新思考大模型指令微调底层机制 论文标题:Learning or Self-aligning? Rethinking Instruction Fine-tuning 论文作者:Mengjie Ren, Boxi Cao, Hongyu Lin, Cao Liu, Xianpei Han, Ke Zeng, Guanglu Wan, Xunliang Cai, Le Sun 录用类型:主会长文 论文简介:指令微调已经成为大型语言模型构建的核心步骤之一,然而关于指令微调对大模型的输出的影响机制的深入分析仍然非常缺乏。当前应用指令微调的工作主要有两个目的,模型行为模式的转换和注入特定领域的知识。由于缺乏对指令微调的深入分析,我们很难理解指令微调给模型带来的增益究竟是由于其成功地对齐了我们期望的输出空间,实现了更好的知识表达机制,还是由于指令微调过程中确实带来了额外的领域知识增益。然而,对IFT潜在机制的理解仍然非常有限。在本文中,我们设计了知识扰动的分析框架,来解耦合模型行为模式转换与额外世界知识注入的作用。我们的实验表明,试图通过IFT学习额外的世界知识往往难以产生积极的影响,甚至可能导致明显的负面影响。此外,我们发现在指令微调前后保持内部知识的一致性是实现成功指令微调的关键因素。我们的研究结果揭示了指令微调的潜在机制,即指令微调的核心作用机制并不是让模型去“学习”额外的知识,而是将模型内部现有的知识进行一种自我的对齐。   成果三:规则或故事:哪种是与大模型交流时更好的常识表达方式? 论文标题:Rule or Story, Which is a Better Commonsense Expression for Talking with Large Language Models? 论文作者:Ning Bian, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben [...]

中文信息处理实验室12篇论文被ACL2024录用 2024-05-24T10:29:29+00:00

中央财经大学迟钰雪副教授应邀为实验室进行学术报告

2024-04-15T20:27:39+00:00

中央财经大学迟钰雪副教授应邀为实验室进行学术报告 2024年4月2日下午,应实验室林鸿宇副研究员的邀请,中央财经大学管理科学与工程学院副教授迟钰雪老师为实验室进行了题为 "Risk spillovers in Chinese production network: A supply-side shock perspective" 的学术报告。 迟钰雪老师是中央财经大学管理科学与工程学院副教授,中国发展战略学研究会社会战略专业委员会委员。主持国家自然科学基金青年基金1项,参与多项国家自然科学基金面上项目、重大研究项目及国家高端智库试点项目。近年来,在《Nature Humanities and Social Sciences Communications,Knowledge-Based Systems》,《Information Processing & Management》,《管理科学学报》,《系统工程理论与实践》等期刊发表论文十余篇。长期担任《Information Sciences》、《系统工程理论与实践》等期刊审稿人。 迟钰雪老师为我们介绍了其以第一作者新发表在《Nature Humanities and Social Sciences Communications》期刊的论文。该论文设计了一个模型来模拟供给端冲击在生产网络中传播并导致实际部门系统性风险的传播。该论文根据输入-产出框架定义了系统重要产业(SIIs)和系统性脆弱产业(SVIs),并根据风险溢出的程度和方向进行分类。模拟结果显示,风险溢出通过生产网络在产业之间传播,导致实际部门的系统性风险。该论文还将模型中的重要风险溢出路径分类为“SVIs→SIIs→SVIs”,用于风险监管和预防,并在2018年识别出75个风险溢出路径和9个闭环路径。此外,系统重要性(脆弱性)的关键因素包括输入-产出关系和生产网络的中心性。该论文为基于供应链加强实际部门的风险监管提供了科学依据。 迟钰雪老师的精彩报告引发了实验室师生的认真思考,大家就选题契机、产业数据获取方式、生产网络的外循环扩展与产业间的可替代性问题进行了广泛且深入的交流讨论。

中央财经大学迟钰雪副教授应邀为实验室进行学术报告 2024-04-15T20:27:39+00:00

大模型遇见社会科学:从“人的社会”到“AI的社会” 的研究

2024-03-16T01:59:36+00:00

大模型遇见社会科学:从“人的社会”到“AI的社会” 的研究 论文标题:AI for Social Science and Social Science of AI: A Survey 论文链接: 🔗 Information Processing  &  Management 期刊论文链接 https://www.sciencedirect.com/science/article/abs/pii/S0306457324000256 🔗 预印版论文链接 https://arxiv.org/pdf/2401.11839.pdf   你是否曾经思考过,一个AI与人类共同工作、共同生活的社会会是什么样的?科幻作品如《黑客帝国》中的虚拟世界、《机器人总动员》中的友善机器人WALL-E,甚至《银翼杀手》中的仿生人都为我们提供了想象的蓝本。在这些作品中,AI不再是简单的工具,而是拥有着独特行为特征的生命体,这样的幻想或许正在变为现实。 大模型技术的兴起,不仅显著提升了AI的类人能力,重新定义了AGI的可能性,也打开了AI与人类合作的崭新篇章。越来越多的学者开始将目光投向AI与社会科学的结合,探索社会模拟[1, 2]、AI治理等领域的可能性。   然而,当前AI与社会科学的结合通常混淆了两个截然不同的方向。一方面,由于AI的出色能力,它成为社会科学研究各个阶段的高效工具;另一方面,随着AI类人能力的增加和模仿人类社会的AI社区的出现,AI代理本身也能够被视作社会实体,以了解其独特的行为特征和对社会的影响。虽然这两个方向共享相同的技术手段,但研究目标、意义和应用范围却完全不同。例如,尽管两者都涉及社会模拟,但前者要求AI代理尽可能与人类行为对齐,以便快速、低成本、低风险地研究人类社会的运行规律;而后者则专注于探索AI自身的行为规律,尤其关注机器行为的与众不同之处,以理解机器行为的普遍现象。由于缺乏对这两个方向的全面调查,我们难以确定每项工作的研究意义和应用范围,这妨碍了我们理解和利用这两个方向之间的差异和联系。 因此,中国科学院软件研究所中文信息处理实验室团队对AI技术和社会科学的结合做了一个全面和系统性的综述。具体来说,本文主要从两个视角来探讨AI与社会科学之间的关系:1)AI for social science,即AI利用其类人智能助力传统社会科学研究;2)Social science of AI,即AI成为社会科学的研究对象,被视作社会实体来研究其行为规律。除此之外,本文还对相关资源和工具进行了搜集和比较,为这一领域的研究提供了有益的参考。该综述发表于中科院一区Top期刊 Information Processing & Management。 AI for Social Science 对于AI for social science方向,本文重点讨论了大语言模型作为一种高效工具整合到现有的社会科学研究方法中的潜力。如图所示,以社会科学领域的经典研究范式[3]为基础,本文系统地探讨了大语言模型在假设生成和假设验证阶段能够发挥的作用。具体来说,在假设生成阶段,主要关注大语言模型如何帮助人类进行文献综述和假设提出。在假设验证阶段,分别考察了大语言模型在实验研究、调查研究和非反应性研究等不同研究方法中的作用。 本章节旨在为社会科学研究人员在研究过程中如何应用大语言模型以提高效率提供一个全面且清晰的视角,同时揭示大语言模型尚未开发的潜力,提出潜在的风险和伦理问题,并探讨未来可能的发展方向。 以实验研究为例,大语言模型可以扮演双重角色——既可作为实验助手[4],又可作为人类行为的可信代理[1, 2],成为实验对象。尤其是后者,在人工智能和社会科学领域引起了越来越多的关注,因为大型语言模型越来越有能力模拟类似人类的反应和行为。使用大型语言模型模拟实验的优势在于提高效率,降低成本,增强可扩展性,以及回避与人类受试者相关的伦理问题,从而为在人类身上被视为不道德的实验打开了大门,比如经典的斯坦福监狱实验[5]。劣势在于透明度低,重现性差,以及“仿真度”的不确定性[2]。因此,作者鼓励研究人员进一步开发评估大型语言模型模拟质量的方法,并且结合认知科学的见解来指导人工智能代理框架的发展,以增强其行为的相似性和合理性。 Social Science of AI 对于social science of AI方向,本文主要关注使用大型语言模型作为研究对象的社会科学研究,特别强调其与传统人类行为的区别。如图所示,本文遵循社会科学领域内的学科分类,从不同学科视角研究大语言模型作为社会实体的行为规律。 人工智能协作的行为模式、结果、影响以及驱动其协作行为变化的因素尚不清楚。与social science of human类似,social science of AI的最终目标是明确人工智能智能体作为社会实体的行为特征,以及如何建模和理解这些行为特征。这类研究对于未来人工智能集体的自主决策和控制具有重要意义。 以心理学为例,目前研究主要集中于对大语言模型的个性、认知能力等角度的探究。从个性的角度来看,大语言模型虽然整体表现出个性倾向[6-8],但不像人类一样拥有一致和稳定的个性倾向,更倾向于是多个视角的叠加[9]。从认知能力领域来看,在归纳、类比、因果推理、心理理论等方面,以GPT-3.5和GPT-4为代表的最先进的大型语言模型可以展示出与人类相当甚至超越人类的认知能力,但采取的认知模式与人类并不一致[10]。 模拟工具 为了便于在社会科学研究中使用大型语言模型,已经存在一些公开可用的工具和资源作为辅助工具。考虑到其他应用主要依赖于直接使用或基于简单脚本的调用,本文重点介绍了基于大型语言模型的仿真工具和平台。在此框架下,对仿真需求进行了系统分析,并对各平台的功能进行了比较。 总结与讨论 本文综述了大语言模型与社会科学交叉领域的最新进展。我们提出一个二分法来概述这一领域的进展,包括“AI for social science”和“social science of AI ”。 我们注意到,大型语言模型可以集成到社会科学研究的各个阶段,作为辅助工具、灵感来源、注释工具、内容分析工具等,从而有效提升研究效率。虽然大型语言模型作为工具具有速度、成本效益、无道德风险实验和低门槛等优势,但必须仔细验证其生成文本的可靠性和真实性。替代人类进行实验和调查的可行性仍然是一个争议性问题。因此,研究人员在使用这些模型时需要考虑验证的额外成本和偏倚风险。 此外,大型语言模型本身和围绕它们形成的社区都表现出一些独特而有趣的行为。我们强调这一研究方向的前景,随着人工智能在日常生活中越来越普遍,这一研究方向将变得越来越重要。 这两个方向相辅相成,后者可以指导前者的发展,而前者可以提高后者的研究效率。 总之,我们认为,虽然人工智能不能取代社会学家,但它将深度融入研究过程;社会科学家也将在指导人工智能发展方面发挥重要作用。 引用 [1] Park, Joon Sung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedings of the 36th [...]

大模型遇见社会科学:从“人的社会”到“AI的社会” 的研究 2024-03-16T01:59:36+00:00

学习还是自我对齐 ? 关于指令微调的内在机制的探究

2024-03-16T02:07:34+00:00

学习还是自我对齐 ? 关于指令微调的内在机制的探究 论文标题:Learning or Self-aligning? Rethinking Instruction Fine-tuning. 论文链接:🔗 https://arxiv.org/abs/2402.18243   指令微调(Instruction Fine-tuning,IFT)已经成为大型语言模型构建的核心步骤之一,然而关于IFT对大模型的输出的影响机制的深入分析仍然非常缺乏。当前应用指令微调的工作主要有两个目的,模型行为模式的转换和注入特定领域的知识。由于缺乏对指令微调的深入分析,我们很难理解指令微调给模型带来的增益究竟是由于其成功地对齐了我们期望的输出空间,实现了更好的知识表达机制,还是由于指令微调过程中确实带来了额外的领域知识增益。 为此,中国科学院软件研究所中文信息处理实验室联合美团提出 基于知识扰动的分析框架,来解耦合模型行为模式转换与额外世界知识注入的作用。作者发现: (1) 对于指令微调而言,学习与模型参数知识不一致的世界知识无法带来增益,甚至会造成额外的损害。(2) 有效指令微调的本质在于完成行为模式转换的同时,保持指令微调前后模型参数知识的一致性。换句话说,指令微调的核心作用机制并不是让模型去“学习”额外的知识,而是将模型内部现有的知识进行一种自我的对齐。因此,最终决定指令微调性能的并非领域知识的注入程度,而是是否能够通过指令微调的过程,实现更有效的自我对齐,从而促进模型内部现存的参数知识在零样本问答这一目标模式下更好的表达。这一发现不仅对未来指令微调数据构建、微调方法的设计以及微调效果的评估提供了指引,还为最近兴起的包括super alignment[1]、self-play[2]等在内的一系列工作提供了坚实的依据。 基于知识扰动的分析框架 具体而言,作者分别收集了来自四个领域的的选择题数据集,并使用少样本上下文学习探测模型参数知识。作者认为,如果一个预训练完的基座模型,能够在给定少样本的条件下正确回答某个问题,则该基座模型就具备回答该问题的相关知识。基于上述的知识探测方法,作者通过知识扰动,构建了三组不同的IFT设置: Harmonious 由与模型参数知识一致的指令数据组成,是基座模型可以在少样本上下文学习下正确回答的问题。在该设置下的学习过程中,模型只需要学习行为模式,而不需要学习额外的世界知识; Incompatible 包含了基座模型在少样本上下文学习中无法正确回答的问题。由于与模型参数知识完全不一致,模型在训练阶段既需要学习行为模式,也需要学习世界知识; Self-aligning 该设置下的指令输入与incompatible设置中的完全一致,但是作者将每个指令对应的答案 修改为 基座模型自己预测的答案,以与模型参数知识保持一致。因此,在这种设置下,所有的响应都是不正确的,模型无法学习任何额外的世界知识。   通过控制指令数据所蕴含的知识与模型参数知识的一致性程度,观察使用不同一致性程度的数据微调的模型的行为差异,作者希望回答以下两个研究问题: RQ1  指令数据中提供的额外世界知识是如何影响大模型的? RQ2 上述影响的潜在原因是什么? 为了回答上述的RQ并进行全面的评估,对于每个领域,作者构建了三种类型的测试集: 同质测试集(HOMO),从该领域的训练集所在的数据集留出 域内测试集(ID),包含了MMLU中所有属于该领域的subcategories 域外测试集(OOD),包含了MMLU中所有不属于该领域的subcategories 通过观察不同设置下微调的模型在三种类型测试集上的性能差异,作者希望检查指令微调对各种场景的影响。 实验 Exp-I: 在IFT中学习额外的知识是否重要? 对于每个领域和基座模型的组合,作者分别构建了上述三组指令数据,并用来微调对应的基座模型,结果如下表所示,harmonious设置(HAR)与self-aligning设置(SELF)在四个基座模型、四个领域的三类评估上基本都明显强于incompatible设置(INC)。 基于此,作者发现:1)当包含正确的世界知识时,与模型参数知识一致的指令数据会带来更优的微调结果;2)相比于使用正确但与模型参数知识不一致的数据微调模型,使用与模型参数知识一致但错误的指令数据微调模型能够获得更好的性能表现。这表明, 对于IFT而言,学习指令数据中包含有的额外的世界知识很可能并不能够带来增益。 Exp-II: 在IFT上下文中引入额外的世界知识的对比 为了进一步验证上述结论,作者提出Contextualized IFT来解耦IFT数据中包含的冲突知识,并对此问题进行了进一步的分析。具体而言,对于与模型参数知识不一致的指令数据,作者使用GPT-3.5生成响应该指令所需的知识,并将该知识加到指令的前面,以此构建指令数据并微调模型。针对含有冲突指令数据的incompatible设置,作者在三个基座模型、四个领域上进行了实验,上表报告了在不同基座模型上使用Vanilla IFT与作者提出的Contextualized IFT的平均性能,可以看出Contextualized IFT能够有效缓解不一致的指令数据带来的负面影响。基于此,作者发现  让模型在指令微调过程中不学习与参数知识冲突的世界知识有助于实现更好的指令微调。结合以上两组实验,对于RQ1,作者得出结论:Conclusion1. 对于指令微调而言,学习与模型参数知识不一致的世界知识无法带来增益,甚至会造成额外的损害。 Exp-III: 一致性代表一切吗? 上述发现似乎可以得出一个结论:为了更好地进行行为模式转换,应该使用与模型参数知识完全一致的IFT数据,而不需要任何额外的世界知识。 为了探究这个假设,作者设计了一组新的实验。具体而言,通过调整来自incompatible和self-aligning的样本比例,作者旨在调整IFT数据中的知识与模型参数知识的一致性比率,从而观察不同一致性比率下IFT结果的变化。上图报告了基座模型Mistral-7B在不同领域上使用不同的知识一致性数据微调的结果,可以看出最优点并不总在最右侧取得,因此作者发现  使用与模型内部参数知识完全一致的指令数据并不总能取得最优性能。 Exp-IV: 对IFT而言,什么是真正重要的? 为了进一步分析指令微调的潜在机制,作者分析了IFT前后不同基座模型在三类评估上的知识差异,以观察IFT引发的内部知识改变的程度。具体来说,对于测试数据中的每个样本,作者首先计算原始模型通过上下文学习探测得到的对选项的预测排名与微调模型提供的预测排名之间的Pearson相关系数。在此基础上,作者计算每类测试集的平均Pearson相关系数,然后将其与微调模型在同一测试集上的性能进行比较。作者在三个基座模型,共计96个微调模型上进行了Spearman偏相关性分析 (基座模型在对应测试集上的性能作控制变量),并在下表中汇报了在不同基座模型及所有模型上的偏相关系数(r)与显著性(p-value)。对于LLaMA-2-13B和Mistral-7B来说,远低于0.05的显著性表明了高置信度。作者因此得出 指令微调前后模型内部知识的一致性是影响微调后模型性能的关键因素。作者还在下图中对Mistral-7B的结果进行了可视化,其中横轴为 指令微调前后模型预测排序的Pearson相关系数,纵轴为微调后的模型性能,作者按照领域分组绘制了回归线,可以看到从同质、领域内、领域外的三类评估上,都有一个明显的上升趋势。为了探究上述发现是否是导致Exp-III中现象的原因,进一步地,作者对微调前后模型预测分布的KL散度进行了分析,并在下表汇报了不同基座模型在不同设置下微调前后预测分布的平均KL散度,其中“Best”表示在三类评估上平均表现最好的微调模型与其相应基座模型预测分布的平均KL散度。从表中可以看出,self-aliging设置下微调的模型与基座模型的KL散度要明显大于最优微调模型与基座模型的KL散度,由于模型内部参数知识是平滑的,完全使用自对齐设置(one-hot) 本身也是一种知识背离。  由此,针对于前文提出的RQ2,作者得到如下结论:Conclusion 2. 有效指令微调的本质在于完成行为模式转换的同时,保持指令微调前后模型参数知识的一致性。 总结与讨论 上述的实验结论表明,指令微调的核心作用并不是注入特定领域的知识。与之相反的是,强行注入与模型现有知识不一致的额外知识,反而会损害模型在领域内外的表现。同时,作者的实验还发现,模型在IFT前后的内部参数知识的一致性—— 即IFT 前基于少样本上下文学习探测表现出来的知识 与 IFT后在零样本问答模式下 表现出来的知识之间的一致性,对于微调后模型的最终性能有着决定性的影响。这两个结论揭示了IFT的一个根本的作用机制,即指令微调不是一个监督的领域特定知识学习的过程,而是将指令与模型现有参数知识进行一种自我对齐的过程。 因此,最终决定指令微调性能的并非领域知识的注入程度,而是是否能够通过指令微调的过程,实现更有效的自对齐,从而促进模型现存参数知识在零样本问答这一目标模式下更好的知识表达。这一发现不仅对未来指令微调数据构建、微调方法的设计以及微调效果的评估提供了指引,还为最近兴起的一系列工作提供了坚实的依据。例如,super alignment[1]旨在使用一个弱模型来指导一个更强的模型进行对齐。由于指令微调的核心在于引发行为模式的转换,而非知识的注入。因此,作者的结论证明了使用一个知识较少的弱模型来指导更大、知识更强的模型进行指令微调是完全可能的,同时也为最近兴起的包括self-play[2]、self-alignment[3][4]、self-rewarding[5]等在内的一系列工作提供了坚实的依据。 引用 [1] Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, and Jeff Wu. 2023. Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision. ArXiv:2312.09390 [...]

学习还是自我对齐 ? 关于指令微调的内在机制的探究 2024-03-16T02:07:34+00:00

上海交通大学张倬胜博士应邀至实验室进行学术报告

2024-01-26T15:02:26+00:00

上海交通大学张倬胜博士应邀至实验室进行学术报告 2024年1月26日上午,上海交通大学张倬胜博士应邀在中文信息处理实验室发表了题为《大模型自主智能体的应用及安全挑战》的专题报告。 张倬胜博士是上海交通大学电子信息与电气工程学院长聘教轨助理教授,曾担任领域内重要会议LREC-COLING 2024领域主席、ICLR 2023 Tiny Papers领域主席和中国计算语言学大会CCL 2022分委会主席。入选中国中文信息学会博士学位论文激励计划,获评2023世界人工智能大会云帆奖明日之星、全球 AI 华人百强学术新星。主要研究方向为预训练语言模型、自主智能体及其安全。在TPAMI、ICLR、ACL、AAAI等顶级学术期刊/会议发表论文50余篇。Google Scholar论文被引用次数超过3000次,3篇第一作者论文入选为AAAI和COLING高影响力论文列表。研发的语言理解与推理系统在8项国际权威自然语言理解评测获得第一名。 报告中,张倬胜博士从智能机器人的未来应用畅想切入,讲述了大模型自主智能体的概念,并介绍了其具有自主性、自适应性、动态响应和自我完善等特性,以及其在现实与虚拟世界中包括系统操控、软件开发、科学发现、具身智能在内的各类场景中的应用。接着,他以Auto-UI智能手机自主智能体为例,展示了大模型自主智能体的具体应用实例,并以此工作中发现的攻击现象为引,引出了有关智能体强大能力背后潜在的安全挑战的讨论。 随后,张倬胜博士从智能体应用的流程与形式等方面具体分析了其安全风险分类和来源的复杂性,智能体本身产生的内容与行为均存在风险,同时智能体系统在用户侧、模型侧和环境侧均存在潜在的漏洞以及被攻击的风险。张倬胜博士展示了他和团队提出的“R-Judge大模型智能体行为安全评测”,旨在探测模型自身安全风险判断能力与基于外界安全反馈的判断能力上限。他们发现模型对安全风险的判断与人类表现存在较大差距,模型越大性能越好,风险描述与环境反馈是提升模型检测风险能力的有效手段,并且指令遵循能力直接影响模型性能表现。 最后,张倬胜博士从他自身的科研经历出发,与同学们分享了自己作为学生与研究者一路走来的经验,鼓励同学们保持紧迫感、信念感和包容心,坚持努力,追求极致。  

上海交通大学张倬胜博士应邀至实验室进行学术报告 2024-01-26T15:02:26+00:00

计算所沈华伟老师应邀为实验室进行学术报告

2024-01-24T18:28:49+00:00

计算所沈华伟老师应邀为实验室进行学术报告 2024 年 1 月 19 日上午,应实验室孙乐研究员的邀请,计算所沈华伟研究员为实验室进行了题为 “从社会计算到社会认知计算”的学术报告。 中国科学院计算技术研究所研究员沈华伟老师,担任数据智能系统研究中心主任,中国科学院大学岗位教授,中国中文信息学会理事、社会媒体处理专委会副主任。长期从事社会计算、网络大数据分析、智能算法安全研究,在PNAS、IEEE TKDE等学术期刊和KDD、WWW等学术会议上发表论文100 余篇,三次获国际学术会议最佳论文奖励。主持国家重点研发计划项目、国家自然科学基金重点项目等科研项目10 余项。 沈华伟老师深入探讨了社会计算领域的发展及其与社会认知计算的联系。沈老师首先介绍了社会计算的基础概念,包括其在大数据分析、精准信息推送、以及社会认知测量方面的应用。接着,他对比了计算社会科学和社会计算,强调了将人工智能和机器学习技术应用于社会科学问题解决的重要性。 沈老师进一步展示了社会计算在描述、预测和控制三个阶段的发展,并通过具体案例,如美国大选的选举团得票数预测,展示了社会计算在实际应用中的成效。此外,他还探讨了社会模拟器在模拟复杂社会系统中的应用,并指出社会计算面临的挑战,如规则驱动和理论驱动模拟的局限性。最后,沈老师着重介绍了社会认知计算的概念,强调了文化在社会认知中的基础作用,以及基于大数据构建可计算的认知模型的重要性。 沈华伟老师的精彩报告引发了实验室师生的认真思考,大家就社会计算的发展现状和前景进行了广泛且深入的交流讨论。

计算所沈华伟老师应邀为实验室进行学术报告 2024-01-24T18:28:49+00:00

北京师范大学邬霞教授在实验室进行学术报告

2024-01-24T13:14:59+00:00

北京师范大学邬霞教授在实验室进行学术报告 2023年12月28日上午,北京师范大学邬霞教授在中文信息处理实验室应邀发表了题为《类脑视觉智能:原理与方法》的专题报告。 邬霞老师是北京师范大学人工智能学院教授、博士生导师,CCF高级会员,国家自然科学基金杰出青年和优秀青年基金、吴文俊人工智能自然科学一等奖、教育部自然科学二等奖、茅以升北京青年科技奖获得者。主要研究方向为脑信号智能分析、类脑算法等。近年来,主持承担国家自然科学基金重点项目、国家重点研发计划等项目十余项,以第一/通讯作者在IEEE TNNLS、IEEE TKDE、IEEE TAC、NeuroImage、Medical Image Analysis、JBHI、IPMI、MICCAI等国内外重要学术期刊/会议发表论文100余篇。     报告中,邬霞教授首先为大家介绍了类脑视觉智能相关原理。人脑具备对图片和视频的快速高效理解和生成能力,例如人接触到图像或视频之后可以生成神经响应,反之也可以使用技术手段从神经响应的信号中重建图片或视频。同时,人脑中也存在不同的视觉加工通路,包括腹侧通路,主要负责物体识别和决策,以及背侧通路,负责感知空间位置和运动。此外,有的研究发现卷积神经网络(CNN) 的前几层和腹侧通路类似,这为算法可解释性提供了基础。 随后,邬霞教授从功能和神经信号数据两个层面介绍了类脑视觉方法。在功能层面,人脑在进行视觉加工的时候,注意力按顺序依次探索少量感兴趣的区域,有的研究便受此启发改进了强化学习模型。此外,人类视觉中还存在模仿机制,即观察他人行为并将其映射到自己身上,这也促使了一些基于模仿的强化学习模型的提出。在神经信号数据上,前沿的研究使用EEG和磁共振数据结合diffusion model等方法重建了高分辨率的图像,并取得了显著成效。报告的后半部分,邬霞教授介绍了多模态识别的脑机制。她和她的团队结合听觉和视觉的跨模态增强和神经同步机制,实现了两种模态之间的信息交流和传递。他们通过模拟人脑中不同模态的神经元,构建了神经网络中的多样性神经元,并引入了新的连接约束。上述模型在RAVDESS数据集上达到了99.63%的准确率。 最后,邬霞教授和到场的实验室师生就人脑和大语言模型中的可解释性、二者之间的异同和模仿人脑的神经网络等内容进行了广泛的交流。

北京师范大学邬霞教授在实验室进行学术报告 2024-01-24T13:14:59+00:00

加拿大蒙特利尔大学聂建云老师应邀为实验室进行学术报告

2023-08-18T18:13:16+00:00

加拿大蒙特利尔大学聂建云老师应邀为实验室进行学术报告 2023年8月15日上午,应实验室孙乐研究员的邀请,加拿大蒙特利尔大学教授聂建云老师为实验室进行了题为 “Leveraging Conversation Context for Conversational Search”的学术报告。 聂建云老师是加拿大蒙特利尔大学教授,多年专注于信息检索、自然语言处理等领域的研究,在国际期刊和会议上发表200余篇学术论文并获得广泛引用。同时,聂建云老师是信息检索和自然语言处理领域多个国际期刊的编委会成员,并作为程序委员会成员参与领域内众多国际会议主会的组织工作。聂建云老师在2011年北京召开的SIGIR会议中任大会主席,并担任SIGIR 2019年程序委员会主席。 聂建云老师为大家介绍了他们在优化对话式搜索的相关工作,旨在提升搜索结果的准确性和效率。在对话式搜索中,最显著的特征在于搜索意图受过去对话历史的影响。因此,查询常常需要结合对话背景信息进行重新构造。过去的研究通常基于生成式语言模型对查询进行重构,或者简单地串联所有历史查询,以提升搜索效果。然而,聂建云老师指出对话背景具有复杂性:部分对话与当前查询无关,应当被排除在外。为此,聂建云老师详细介绍其团队提出的选择过程,通过对历史查询的潜在有用性进行自动标注,仅将与当前查询相关的历史查询纳入其中,显著提升对话式搜索的效果。 聂建云老师的精彩报告引发了实验室师生的认真思考,大家就相关工作细节,以及对话式信息检索的发展现状和前景进行了广泛且深入的交流讨论。  

加拿大蒙特利尔大学聂建云老师应邀为实验室进行学术报告 2023-08-18T18:13:16+00:00