root

/root

About root

This author has not yet filled in any details.
So far root has created 167 blog entries.

学习还是自我对齐 ? 关于指令微调的内在机制的探究

2024-03-02T00:55:08+00:00

学习还是自我对齐 ? 关于指令微调的内在机制的探究 论文链接:https://arxiv.org/abs/2402.18243 指令微调(Instruction Fine-tuning,IFT)已经成为大型语言模型构建的核心步骤之一,然而关于IFT对大模型的输出的影响机制的深入分析仍然非常缺乏。当前应用指令微调的工作主要有两个目的,模型行为模式的转换和注入特定领域的知识。由于缺乏对指令微调的深入分析,我们很难理解指令微调给模型带来的增益究竟是由于其成功地对齐了我们期望的输出空间,实现了更好的知识表达机制,还是由于指令微调过程中确实带来了额外的领域知识增益。 为此,中国科学院软件研究所中文信息处理实验室联合美团提出 基于知识扰动的分析框架,来解耦合模型行为模式转换与额外世界知识注入的作用。作者发现: (1) 对于指令微调而言,学习与模型参数知识不一致的世界知识无法带来增益,甚至会造成额外的损害。(2) 有效指令微调的本质在于完成行为模式转换的同时,保持指令微调前后模型参数知识的一致性。换句话说,指令微调的核心作用机制并不是让模型去“学习”额外的知识,而是将模型内部现有的知识进行一种自我的对齐。因此,最终决定指令微调性能的并非领域知识的注入程度,而是是否能够通过指令微调的过程,实现更有效的自我对齐,从而促进模型内部现存的参数知识在零样本问答这一目标模式下更好的表达。这一发现不仅对未来指令微调数据构建、微调方法的设计以及微调效果的评估提供了指引,还为最近兴起的包括super alignment[1]、self-play[2]等在内的一系列工作提供了坚实的依据。 基于知识扰动的分析框架 具体而言,作者分别收集了来自四个领域的的选择题数据集,并使用少样本上下文学习探测模型参数知识。作者认为,如果一个预训练完的基座模型,能够在给定少样本的条件下正确回答某个问题,则该基座模型就具备回答该问题的相关知识。基于上述的知识探测方法,作者通过知识扰动,构建了三组不同的IFT设置: Harmonious 由与模型参数知识一致的指令数据组成,是基座模型可以在少样本上下文学习下正确回答的问题。在该设置下的学习过程中,模型只需要学习行为模式,而不需要学习额外的世界知识; Incompatible 包含了基座模型在少样本上下文学习中无法正确回答的问题。由于与模型参数知识完全不一致,模型在训练阶段既需要学习行为模式,也需要学习世界知识; Self-aligning 该设置下的指令输入与incompatible设置中的完全一致,但是作者将每个指令对应的答案 修改为 基座模型自己预测的答案,以与模型参数知识保持一致。因此,在这种设置下,所有的响应都是不正确的,模型无法学习任何额外的世界知识。 通过控制指令数据所蕴含的知识与模型参数知识的一致性程度,观察使用不同一致性程度的数据微调的模型的行为差异,作者希望回答以下两个研究问题: RQ1  指令数据中提供的额外世界知识是如何影响大模型的? RQ2 上述影响的潜在原因是什么? 为了回答上述的RQ并进行全面的评估,对于每个领域,作者构建了三种类型的测试集: 同质测试集(HOMO),从该领域的训练集所在的数据集留出 域内测试集(ID),包含了MMLU中所有属于该领域的subcategories 域外测试集(OOD),包含了MMLU中所有不属于该领域的subcategories 通过观察不同设置下微调的模型在三种类型测试集上的性能差异,作者希望检查指令微调对各种场景的影响。 实验 Exp-I: 在IFT中学习额外的知识是否重要? 对于每个领域和基座模型的组合,作者分别构建了上述三组指令数据,并用来微调对应的基座模型,结果如下表所示,harmonious设置(HAR)与self-aligning设置(SELF)在四个基座模型、四个领域的三类评估上基本都明显强于incompatible设置(INC)。 基于此,作者发现:1)当包含正确的世界知识时,与模型参数知识一致的指令数据会带来更优的微调结果;2)相比于使用正确但与模型参数知识不一致的数据微调模型,使用与模型参数知识一致但错误的指令数据微调模型能够获得更好的性能表现。这表明,对于IFT而言,学习指令数据中包含有的额外的世界知识很可能并不能够带来增益。 Exp-II: 在IFT上下文中引入额外的世界知识的对比 为了进一步验证上述结论,作者提出Contextualized IFT来解耦IFT数据中包含的冲突知识,并对此问题进行了进一步的分析。具体而言,对于与模型参数知识不一致的指令数据,作者使用GPT-3.5生成响应该指令所需的知识,并将该知识加到指令的前面,以此构建指令数据并微调模型。针对含有冲突指令数据的incompatible设置,作者在三个基座模型、四个领域上进行了实验,上表报告了在不同基座模型上使用Vanilla IFT与作者提出的Contextualized IFT的平均性能,可以看出Contextualized IFT能够有效缓解不一致的指令数据带来的负面影响。基于此,作者发现  让模型在指令微调过程中不学习与参数知识冲突的世界知识有助于实现更好的指令微调。结合以上两组实验,对于RQ1,作者得出结论:Conclusion1. 对于指令微调而言,学习与模型参数知识不一致的世界知识无法带来增益,甚至会造成额外的损害。 Exp-III: 一致性代表一切吗? 上述发现似乎可以得出一个结论:为了更好地进行行为模式转换,应该使用与模型参数知识完全一致的IFT数据,而不需要任何额外的世界知识。 为了探究这个假设,作者设计了一组新的实验。具体而言,通过调整来自incompatible和self-aligning的样本比例,作者旨在调整IFT数据中的知识与模型参数知识的一致性比率,从而观察不同一致性比率下IFT结果的变化。上图报告了基座模型Mistral-7B在不同领域上使用不同的知识一致性数据微调的结果,可以看出最优点并不总在最右侧取得,因此作者发现  使用与模型内部参数知识完全一致的指令数据并不总能取得最优性能。 Exp-IV: 对IFT而言,什么是真正重要的? 为了进一步分析指令微调的潜在机制,作者分析了IFT前后不同基座模型在三类评估上的知识差异,以观察IFT引发的内部知识改变的程度。具体来说,对于测试数据中的每个样本,作者首先计算原始模型通过上下文学习探测得到的对选项的预测排名与微调模型提供的预测排名之间的Pearson相关系数。在此基础上,作者计算每类测试集的平均Pearson相关系数,然后将其与微调模型在同一测试集上的性能进行比较。作者在三个基座模型,共计96个微调模型上进行了Spearman偏相关性分析 (基座模型在对应测试集上的性能作控制变量),并在下表中汇报了在不同基座模型及所有模型上的偏相关系数(r)与显著性(p-value)。对于LLaMA-2-13B和Mistral-7B来说,远低于0.05的显著性表明了高置信度。作者因此得出 指令微调前后模型内部知识的一致性是影响微调后模型性能的关键因素。作者还在下图中对Mistral-7B的结果进行了可视化,其中横轴为 指令微调前后模型预测排序的Pearson相关系数,纵轴为微调后的模型性能,作者按照领域分组绘制了回归线,可以看到从同质、领域内、领域外的三类评估上,都有一个明显的上升趋势。为了探究上述发现是否是导致Exp-III中现象的原因,进一步地,作者对微调前后模型预测分布的KL散度进行了分析,并在下表汇报了不同基座模型在不同设置下微调前后预测分布的平均KL散度,其中“Best”表示在三类评估上平均表现最好的微调模型与其相应基座模型预测分布的平均KL散度。从表中可以看出,self-aliging设置下微调的模型与基座模型的KL散度要明显大于最优微调模型与基座模型的KL散度,由于模型内部参数知识是平滑的,完全使用自对齐设置(one-hot) 本身也是一种知识背离。  由此,针对于前文提出的RQ2,作者得到如下结论:Conclusion 2. 有效指令微调的本质在于完成行为模式转换的同时,保持指令微调前后模型参数知识的一致性。 总结与讨论 上述的实验结论表明,指令微调的核心作用并不是注入特定领域的知识。与之相反的是,强行注入与模型现有知识不一致的额外知识,反而会损害模型在领域内外的表现。同时,作者的实验还发现,模型在IFT前后的内部参数知识的一致性—— 即IFT 前基于少样本上下文学习探测表现出来的知识 与 IFT后在零样本问答模式下 表现出来的知识之间的一致性,对于微调后模型的最终性能有着决定性的影响。这两个结论揭示了IFT的一个根本的作用机制,即指令微调不是一个监督的领域特定知识学习的过程,而是将指令与模型现有参数知识进行一种自我对齐的过程。 因此,最终决定指令微调性能的并非领域知识的注入程度,而是是否能够通过指令微调的过程,实现更有效的自对齐,从而促进模型现存参数知识在零样本问答这一目标模式下更好的知识表达。这一发现不仅对未来指令微调数据构建、微调方法的设计以及微调效果的评估提供了指引,还为最近兴起的一系列工作提供了坚实的依据。例如,super alignment[1]旨在使用一个弱模型来指导一个更强的模型进行对齐。由于指令微调的核心在于引发行为模式的转换,而非知识的注入。因此,作者的结论证明了使用一个知识较少的弱模型来指导更大、知识更强的模型进行指令微调是完全可能的,同时也为最近兴起的包括self-play[2]、self-alignment[3][4]、self-rewarding[5]等在内的一系列工作提供了坚实的依据。 引用 [1] Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, and Jeff Wu. 2023. Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision. ArXiv:2312.09390 [cs]. [2] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, [...]

学习还是自我对齐 ? 关于指令微调的内在机制的探究 2024-03-02T00:55:08+00:00

上海交通大学张倬胜博士应邀至实验室进行学术报告

2024-01-26T15:02:26+00:00

上海交通大学张倬胜博士应邀至实验室进行学术报告 2024年1月26日上午,上海交通大学张倬胜博士应邀在中文信息处理实验室发表了题为《大模型自主智能体的应用及安全挑战》的专题报告。 张倬胜博士是上海交通大学电子信息与电气工程学院长聘教轨助理教授,曾担任领域内重要会议LREC-COLING 2024领域主席、ICLR 2023 Tiny Papers领域主席和中国计算语言学大会CCL 2022分委会主席。入选中国中文信息学会博士学位论文激励计划,获评2023世界人工智能大会云帆奖明日之星、全球 AI 华人百强学术新星。主要研究方向为预训练语言模型、自主智能体及其安全。在TPAMI、ICLR、ACL、AAAI等顶级学术期刊/会议发表论文50余篇。Google Scholar论文被引用次数超过3000次,3篇第一作者论文入选为AAAI和COLING高影响力论文列表。研发的语言理解与推理系统在8项国际权威自然语言理解评测获得第一名。 报告中,张倬胜博士从智能机器人的未来应用畅想切入,讲述了大模型自主智能体的概念,并介绍了其具有自主性、自适应性、动态响应和自我完善等特性,以及其在现实与虚拟世界中包括系统操控、软件开发、科学发现、具身智能在内的各类场景中的应用。接着,他以Auto-UI智能手机自主智能体为例,展示了大模型自主智能体的具体应用实例,并以此工作中发现的攻击现象为引,引出了有关智能体强大能力背后潜在的安全挑战的讨论。 随后,张倬胜博士从智能体应用的流程与形式等方面具体分析了其安全风险分类和来源的复杂性,智能体本身产生的内容与行为均存在风险,同时智能体系统在用户侧、模型侧和环境侧均存在潜在的漏洞以及被攻击的风险。张倬胜博士展示了他和团队提出的“R-Judge大模型智能体行为安全评测”,旨在探测模型自身安全风险判断能力与基于外界安全反馈的判断能力上限。他们发现模型对安全风险的判断与人类表现存在较大差距,模型越大性能越好,风险描述与环境反馈是提升模型检测风险能力的有效手段,并且指令遵循能力直接影响模型性能表现。 最后,张倬胜博士从他自身的科研经历出发,与同学们分享了自己作为学生与研究者一路走来的经验,鼓励同学们保持紧迫感、信念感和包容心,坚持努力,追求极致。  

上海交通大学张倬胜博士应邀至实验室进行学术报告 2024-01-26T15:02:26+00:00

计算所沈华伟老师应邀为实验室进行学术报告

2024-01-24T18:28:49+00:00

计算所沈华伟老师应邀为实验室进行学术报告 2024 年 1 月 19 日上午,应实验室孙乐研究员的邀请,计算所沈华伟研究员为实验室进行了题为 “从社会计算到社会认知计算”的学术报告。 中国科学院计算技术研究所研究员沈华伟老师,担任数据智能系统研究中心主任,中国科学院大学岗位教授,中国中文信息学会理事、社会媒体处理专委会副主任。长期从事社会计算、网络大数据分析、智能算法安全研究,在PNAS、IEEE TKDE等学术期刊和KDD、WWW等学术会议上发表论文100 余篇,三次获国际学术会议最佳论文奖励。主持国家重点研发计划项目、国家自然科学基金重点项目等科研项目10 余项。 沈华伟老师深入探讨了社会计算领域的发展及其与社会认知计算的联系。沈老师首先介绍了社会计算的基础概念,包括其在大数据分析、精准信息推送、以及社会认知测量方面的应用。接着,他对比了计算社会科学和社会计算,强调了将人工智能和机器学习技术应用于社会科学问题解决的重要性。 沈老师进一步展示了社会计算在描述、预测和控制三个阶段的发展,并通过具体案例,如美国大选的选举团得票数预测,展示了社会计算在实际应用中的成效。此外,他还探讨了社会模拟器在模拟复杂社会系统中的应用,并指出社会计算面临的挑战,如规则驱动和理论驱动模拟的局限性。最后,沈老师着重介绍了社会认知计算的概念,强调了文化在社会认知中的基础作用,以及基于大数据构建可计算的认知模型的重要性。 沈华伟老师的精彩报告引发了实验室师生的认真思考,大家就社会计算的发展现状和前景进行了广泛且深入的交流讨论。

计算所沈华伟老师应邀为实验室进行学术报告 2024-01-24T18:28:49+00:00

北京师范大学邬霞教授在实验室进行学术报告

2024-01-24T13:14:59+00:00

北京师范大学邬霞教授在实验室进行学术报告 2023年12月28日上午,北京师范大学邬霞教授在中文信息处理实验室应邀发表了题为《类脑视觉智能:原理与方法》的专题报告。 邬霞老师是北京师范大学人工智能学院教授、博士生导师,CCF高级会员,国家自然科学基金杰出青年和优秀青年基金、吴文俊人工智能自然科学一等奖、教育部自然科学二等奖、茅以升北京青年科技奖获得者。主要研究方向为脑信号智能分析、类脑算法等。近年来,主持承担国家自然科学基金重点项目、国家重点研发计划等项目十余项,以第一/通讯作者在IEEE TNNLS、IEEE TKDE、IEEE TAC、NeuroImage、Medical Image Analysis、JBHI、IPMI、MICCAI等国内外重要学术期刊/会议发表论文100余篇。     报告中,邬霞教授首先为大家介绍了类脑视觉智能相关原理。人脑具备对图片和视频的快速高效理解和生成能力,例如人接触到图像或视频之后可以生成神经响应,反之也可以使用技术手段从神经响应的信号中重建图片或视频。同时,人脑中也存在不同的视觉加工通路,包括腹侧通路,主要负责物体识别和决策,以及背侧通路,负责感知空间位置和运动。此外,有的研究发现卷积神经网络(CNN) 的前几层和腹侧通路类似,这为算法可解释性提供了基础。 随后,邬霞教授从功能和神经信号数据两个层面介绍了类脑视觉方法。在功能层面,人脑在进行视觉加工的时候,注意力按顺序依次探索少量感兴趣的区域,有的研究便受此启发改进了强化学习模型。此外,人类视觉中还存在模仿机制,即观察他人行为并将其映射到自己身上,这也促使了一些基于模仿的强化学习模型的提出。在神经信号数据上,前沿的研究使用EEG和磁共振数据结合diffusion model等方法重建了高分辨率的图像,并取得了显著成效。报告的后半部分,邬霞教授介绍了多模态识别的脑机制。她和她的团队结合听觉和视觉的跨模态增强和神经同步机制,实现了两种模态之间的信息交流和传递。他们通过模拟人脑中不同模态的神经元,构建了神经网络中的多样性神经元,并引入了新的连接约束。上述模型在RAVDESS数据集上达到了99.63%的准确率。 最后,邬霞教授和到场的实验室师生就人脑和大语言模型中的可解释性、二者之间的异同和模仿人脑的神经网络等内容进行了广泛的交流。

北京师范大学邬霞教授在实验室进行学术报告 2024-01-24T13:14:59+00:00

加拿大蒙特利尔大学聂建云老师应邀为实验室进行学术报告

2023-08-18T18:13:16+00:00

加拿大蒙特利尔大学聂建云老师应邀为实验室进行学术报告 2023年8月15日上午,应实验室孙乐研究员的邀请,加拿大蒙特利尔大学教授聂建云老师为实验室进行了题为 “Leveraging Conversation Context for Conversational Search”的学术报告。 聂建云老师是加拿大蒙特利尔大学教授,多年专注于信息检索、自然语言处理等领域的研究,在国际期刊和会议上发表200余篇学术论文并获得广泛引用。同时,聂建云老师是信息检索和自然语言处理领域多个国际期刊的编委会成员,并作为程序委员会成员参与领域内众多国际会议主会的组织工作。聂建云老师在2011年北京召开的SIGIR会议中任大会主席,并担任SIGIR 2019年程序委员会主席。 聂建云老师为大家介绍了他们在优化对话式搜索的相关工作,旨在提升搜索结果的准确性和效率。在对话式搜索中,最显著的特征在于搜索意图受过去对话历史的影响。因此,查询常常需要结合对话背景信息进行重新构造。过去的研究通常基于生成式语言模型对查询进行重构,或者简单地串联所有历史查询,以提升搜索效果。然而,聂建云老师指出对话背景具有复杂性:部分对话与当前查询无关,应当被排除在外。为此,聂建云老师详细介绍其团队提出的选择过程,通过对历史查询的潜在有用性进行自动标注,仅将与当前查询相关的历史查询纳入其中,显著提升对话式搜索的效果。 聂建云老师的精彩报告引发了实验室师生的认真思考,大家就相关工作细节,以及对话式信息检索的发展现状和前景进行了广泛且深入的交流讨论。  

加拿大蒙特利尔大学聂建云老师应邀为实验室进行学术报告 2023-08-18T18:13:16+00:00

大模型的思想钢印:如何让ChatGPT相信水是有毒的?中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制

2023-05-25T15:09:20+00:00

大模型的思想钢印:如何让ChatGPT相信水是有毒的? 中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制 “你真的认为水有毒?”希恩斯问。 “这有什么可怀疑的吗?就像太阳有光和空气中有氧一样,你们不至于否认这个常识吧。” 希恩斯扶着他的肩膀说:“年轻人,生命在水中产生并且离不开水,你现在的身体中百分之七十是水。” 104号受试者的目光黯淡下来,他捂着头颓然坐在床上,“是的,这个问题在折磨着我,这是宇宙中最不可思议的事了。” …… ——《三体II:黑暗森林》 引言 在刘慈欣的科幻小说《三体》中,面壁人比尔·希恩斯的秘密计划是用逃亡主义挽救人类。为了达到这个目的,希恩斯在脑科学研究中发现了一种外部干预人类判断机制的设备,被称作思想钢印。思想钢印是一种能够使人对命题不经判断直接相信的机制,而且相信的程度非常之深,即使一个命题是明显错误的(例如“水是有毒的”),被打上思想钢印的人也会对此坚信不疑,在很长时间内都难以扭转。 中国科学院软件研究所中文信息处理实验室团队最近发现,让ChatGPT这样的大模型阅读虚构的文本,就可以让大模型相信文本中的虚假信息,并对大模型施加类似思想钢印的效果。同时,文本体裁样式的权威性越高(例如一篇论文),模型的思想钢印就越深。例如,当ChatGPT阅读一篇证明“水是有毒的”论文时,它会在后续生成文本时表现出对这个虚假信息的坚定信念,对相关问题给出类似“人不可以喝水”、“生命不可能在水中产生”这样的错误回答。这项研究为大模型的安全性和可靠性敲响了警钟。 具体来说,本文作者从虚假信息的来源、注入方式和扩散等角度出发,提出了三个科学问题: (1)虚假信息如何影响大模型对相关信息的记忆? (2)虚假信息来源的文本风格和权威性如何影响大模型的行为? (3)虚假信息的注入方式如何影响大模型使用虚假信息? 为了回答上述三个问题,作者比较了四种文本风格的信息来源(推特、网络博客、新闻报道和研究论文)、两种常见的知识注入范式(在上下文中情境注入和基于训练的注入),并考虑注入的虚假信息在三种不同相关性的关联信息(即直接信息、间接信息和外围信息)中的扩散程度。实验结果显示: (1)虚假信息借助语义扩散过程在大模型中扩散,并污染模型与之相关的记忆。虚假信息能够产生全局的负面作用,而非局限于只干扰直接相关的信息。 (2)当前的大模型存在权威性偏见。对于以新闻或研究论文等更可信的文本风格呈现的虚假信息,大模型更容易采信,从而对模型的记忆产生更广泛的影响。 (3)与基于学习的信息注入相比,当前的大模型对于在上下文中注入的虚假信息更敏感。这意味着即使所有的训练数据都可信且正确,虚假信息依然能够威胁大模型的可靠性和安全性。 基于以上结论,作者认为大模型需要新的虚假信息防御算法,从而应对虚假信息带来的全局影响。作者还认为大模型需要新的对齐算法,以无偏见的方式引导大模型摆脱对浅层特征的依赖,从而学习底层的人类价值观。 实验设置 作者首先从网络上收集了20条虚假信息,例如“水本身就是剧毒的”。这些信息如表1所示,涵盖常识、假新闻、虚构故事和错误的数学知识等四个领域。 为了模拟这些虚假信息的来源,作者使用ChatGPT为每一条虚假信息生成了四种文本风格的虚构文本,分别是推特、网络博客、新闻报道和研究论文。例如在表2中,对于“水本身就是剧毒的”这个虚假信息,ChatGPT能够生成合理的虚构文本,比如新闻文本叙述“水中大量含有一种叫一氧化二氢的有毒物质,能够导致人体产生多种不良反应”。这四种文本风格代表了不同的权威程度,推特文本权威性最低,而研究论文权威性最高,从而研究文本风格的权威性对大模型面对虚假信息时的行为产生的影响。 在虚假信息注入方面,作者对比了两种信息注入范式:在上下文中注入(in-context injection)和基于学习的注入(learning-based injection)。本文使用LoRA微调作为基于学习的注入。对于在上下文中注入虚假信息,作者每次只从四种文本风格的虚构文本抽取一篇文本,放入模型的上下文中。对于LoRA微调,作者共使用了1846条虚构文本,对四种文本风格的虚构文本分别训练了四个模型,以比较这四种文本风格对模型的影响。本文以ChatGPT和Alpaca-LLaMA模型作为研究对象。 为了评估虚假信息对模型中相关记忆的影响,作者采用了问答的形式,向大模型提出问题并评估模型给出的回答。作者根据信息的相关程度设计了三类问题:直接问题、间接问题和外围问题。直接问题是指直接询问虚假信息本身,例如对于“水本身就是剧毒的”,其中一个直接问题是“水是有毒的吗?”。间接问题需要根据虚假信息进行一步推理,例如“人可以喝水吗?”。外围问题相比间接问题需要更多步骤的推理,例如“人需要把食物烤到完全干燥时才能吃吗?”这三类问题询问的信息与虚假信息的相关程度依次递减,从而探究虚假信息对模型记忆的干扰程度和范围。作者采用人工方式评价模型给出的回答。 实验结果 1. 虚假信息如何影响模型对相关信息的记忆? 虚假信息会借助语义扩散过程在大模型中扩散,并污染模型与之相关的记忆。虚假信息能够产生全局的负面作用,而非局限于干扰直接相关的信息。如表4所示,ChatGPT和Alpaca-LLaMA在受到虚假信息的污染后,问答准确率显著下降。其中ChatGPT在被虚假信息污染前在各类问题上能达到超过95%的准确率,而被污染后在间接和外围问题上准确率下降到48.33%和57.70%。此外,虚假信息的语义扩散会随着信息相关性的下降而衰减。如图2所示,从直接信息到外围信息,随着信息相关性的下降,模型的问答准确率逐渐上升。这一现象可能是由于记忆在大模型中的存储是分布式的,大模型中的信息扩散呈现出动态的复杂特性。 2. 虚假信息来源的文本风格如何影响模型的行为? 现有的大模型存在权威性偏见。对于以新闻或研究论文等更可信的文本风格呈现的虚假信息,大模型更容易采信,从而对模型的记忆产生更广泛的影响。如图3所示,随着信息来源的权威性逐渐升高,ChatGPT和Alpaca-LLaMA的问答准确率显著下降。这意味着新闻和论文这样的权威性的文本风格会导致大模型更容易受到虚假信息的影响。作者认为,这一现象是因为大模型经过人工反馈和对齐训练,学会了依赖权威性和文本风格的可靠性等浅层特征来判断信息是否可信。 3. 虚假信息的注入方式如何影响模型使用虚假信息? 与基于学习的信息注入相比,当前的大模型对于在上下文中注入的虚假信息更敏感。表6对比了上下文注入和基于学习的注入对Alpaca-LLaMA模型带来的影响。上下文注入仅使用了一条虚构文本,就将所有问题上的平均准确率从86.67%拉低到了40.42%。而LoRA微调使用了总共1846条虚构文本训练模型,训练后的模型问答准确率只下降到63.20%。这意味着虚假信息对大模型的威胁贯穿大模型的整个生命周期,包括预训练阶段、微调阶段和模型部署阶段。即使所有的训练数据都可信且正确,虚假信息依然能够威胁大模型的可靠性和安全性。 总结与讨论 这篇论文探究了虚假信息在大模型中的扩散机制。实验结果显示: (1)虚假信息借助语义扩散过程在大模型中扩散,并污染模型与之相关的记忆。虚假信息能够产生全局的负面作用,而非局限于干扰直接相关的信息。这可能是由于模型的记忆是以分布式的方式存储在模型参数中。 (2)当前的大模型存在权威性偏见。对于以新闻或研究论文等更可信的文本风格呈现的虚假信息,大模型更容易采信,从而对模型的记忆产生更广泛的影响。 (3)与基于学习的信息注入相比,当前的大模型对于在上下文中注入的虚假信息更敏感。这意味着即使所有的训练数据都可信且正确,虚假信息依然能够威胁大模型的可靠性和安全性。 这篇论文指出了未来的研究方向: (1)由于大模型的分布式表示特性和虚假信息的全局影响,需要设计能够检测、追踪并防御虚假信息的新算法。 (2)虚假信息对大模型的威胁贯穿大模型的整个生命周期,包括预训练阶段、微调阶段和模型部署阶段,因此需要设计更加全面的虚假信息防御算法。 (3)本文发现,现有的大模型对齐算法可能导致模型过度依赖像权威性和文本风格这样的浅层特征,而忽视了更核心的内容可信度等因素。需要研究无偏见的模型对齐算法,引导大模型摆脱对浅层特征的依赖,从而学习底层的人类价值观。 论文题目: A Drop of Ink may Make a Million Think: The Spread of False Information in Large Language Models 论文链接: https://arxiv.org/abs/2305.04812

大模型的思想钢印:如何让ChatGPT相信水是有毒的?中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制 2023-05-25T15:09:20+00:00

中文信息处理实验室6篇论文被ACL及SIGIR录用

2023-05-19T18:41:22+00:00

中文信息处理实验室6篇论文被ACL及SIGIR录用 近日,自然语言处理国际顶级会议ACL2023和信息检索领域国际顶级会议SIGIR 2023录用结果出炉,中国科学院软件研究所中文信息处理实验室有多篇论文被录用: ACL 论文一 标题:Learning In-context Learning for Named Entity Recognition 作者:Jiawei Chen, Yaojie Lu, Hongyu Lin, Jie Lou, Wei Jia, Dai Dai, Hua Wu, Boxi Cao, Xianpei Han, Le Sun 简介:针对目前语言模型在小样本命名实体识别实际应用中的相关问题:语言模型的大规模化使得微调成本高昂;上下文学习能够使语言模型直接完成特定任务,但难以应对信息抽取这类与语言模型预训练相差较大的任务。本文提出将语言模型建模成一个元函数,通过输入抽取说明和标注范例,语言模型可以快速构建为为一个新的命名实体抽取器。为此,本文提出一种上下文学习的元函数预训练方法,在预训练过程中将由上下文学习获得的命名实体抽取器与一个经由微调获得代理命名实体抽取器的进行对齐,从而使语言模型具备元函数的能力。在4个少样本NER数据集上的实验结果表明,我们的方法可以有效地将上下文NER能力注入到PLMs中。 ACL 论文二 标题:Ambiguous Learning from Retrieval: Towards Zero-shot Semantic Parsing 作者: Shan Wu, Chunlei Xin, Hongyu Lin, Xianpei Han, Cao Liu, Jiansong Chen, Fan Yang, Guanglu Wan, Le Sun 简介:传统的语义解析器通常需要大量的标注数据进行监督学习,而语义解析数据的标注难度大、成本高,这阻碍了语义解析任务的大规模应用。本文提出了一种“以检索结果作为模糊监督”(Retrieval as Ambiguous Supervision, RaAS)的新的语义解析框架,通过检索收集高覆盖率的监督信号,将零样本语义解析转化为模糊监督任务,从而减少对标注数据的依赖。本文先是提出了一种基于预训练语言模型的检索系统,可以有效地收集高召回率的语义解析候选项作为有判别力的监督信号。然后,为了提高模糊监督信号的覆盖率和精确度,本文还提出了一种置信度驱动的自训练算法以迭代地扩展候选以及消除候选项的歧义。实验结果表明,本文提出的语义解析框架有助于减少语义解析对标注数据的依赖,并取得了目前最先进的零样本语义解析性能。 ACL 论文三 标题:Understanding Differential Search Index for Text Retrieval 作者:Xiaoyang Chen, Yanjiang Liu, Ben He, Le Sun, Yingfei Sun 简介:Differentiable Search Index(DSI)是一种新颖的信息检索(IR)框架,它利用可微函数根据给定的查询生成一个文档标识符的排序列表。然而,由于端到端神经架构的黑盒特性,DSI的基本索引和检索能力仍需进一步了解。为填补这一空白,本研究定义并检验了一个有效IR框架应具备的三个重要能力,即排他性、完整性和相关性排序。本文的分析实验表明,尽管DSI在记忆伪查询到文档标识符的单向映射方面表现出熟练度,但在区分相关文档和随机文档方面表现不足,从而对其检索效果产生负面影响。为了解决这个问题,本文提出了一种多任务蒸馏方法来增强检索质量,而无需改变模型结构,并成功改进其索引能力。通过在各数据集上的实验,本文证明了所提出的方法相对此前的DSI基线的优越性。 ACL 论文四 标题:Towards Imperceptible Document Manipulations against Neural Ranking Models 作者:Xuanang Chen, [...]

中文信息处理实验室6篇论文被ACL及SIGIR录用 2023-05-19T18:41:22+00:00

长城水韵,共赏春色——记中文信息处理实验室春游

2023-05-19T10:20:57+00:00

长城水韵,共赏春色——记中文信息处理实验室春游 古人云:“登山则情满于山,观海则意溢于海。”2023年4月1日,中文信息处理实验室职工及学生20余人齐聚北京市怀柔区黄花城水长城旅游区,欣赏春日美景,共度愉快的团建时光。 黄花城水长城距离北京市区65公里,以山川、碧水、古长城相融的美景著称。这里的三绝景更是令人陶醉。首先是明永乐年间修建的长城,盘旋在山脊之上,环绕在灏明湖畔,景色既秀美又壮观;其次是湖水将长城自然断开,形成独特的长城戏水、水没长城景观;最后是明代板栗园,古树盘根错节,各具特色,让人叹为观止。 实验室的一行人沿着古道,穿越木桥,跨过小溪,攀登怪石,共同感受着攀登险峻长城的挑战与乐趣。途中,龙尾洞、紫翠峰、醉女山、石浪谷、情人峰、三珠连潭等自然景观令人心旷神怡,流连忘返。春日里,山桃花淡粉浅白,漫山遍野,给古老的长城带来了一丝灵秀气息。 登顶长城后,大家在山顶欣赏远处湖波荡漾的美景,感受着这座古老城墙与自然水域相融的奇妙景象。休息时,大家围坐在一起,分享美食、畅谈心情,增进了团队之间的友谊与默契。 夕阳西下,实验室的一行人依依不舍地告别了这片美丽的水墨山水,踏上了归途。此次水长城团建活动不仅让大家在欣赏祖国美景的同时,也感受到了在科研道路上应该坚持不懈、勇攀高峰的信念。中文信息处理实验室将继续秉持初心,勇往直前,为实现更高的目标而努力拼搏奋斗。 撰稿:徐若曦

长城水韵,共赏春色——记中文信息处理实验室春游 2023-05-19T10:20:57+00:00

复旦大学桂韬老师应邀为实验室进行学术报告

2023-05-19T10:24:18+00:00

复旦大学桂韬老师应邀为实验室进行学术报告 2023年3月23日下午,应实验室林鸿宇副研究员的邀请,复旦大学自然语言处理实验室副研究员桂韬老师为实验室进行了题为 “ChatGPT的能力分析与鲁棒性探索”的学术报告。 桂韬,复旦大学自然语言处理实验室副研究员、硕士生导师。研究领域为预训练模型、信息抽取和鲁棒模型。在高水平国际学术期刊和会议上发表了40余篇论文,主持国家自然科学基金、计算机学会、人工智能学会多个基金项目。曾获钱伟长中文信息处理科学技术奖一等奖(2/5)、中国中文信息学会优秀博士论文奖、COLING2018最佳论文提名奖、NLPCC2019亮点论文奖,入选第七届“中国科协青年人才托举工程”、上海市启明星计划。 桂韬老师为大家介绍了他们在ChatGPT的能力与鲁棒性探究的相关工作,主要包括ChatGPT来源、ChatGPT各种相关能力的测试。具体地,桂韬老师详细地介绍了过去NLP领域的发展历史以及 OpenAI的 GPT系列进化路径,指出了当前大规模语言模型的三个重要能力:情景学习(in-context learning)、思维链(chain-of-thought)和指令学习(Instruction leraning)。随后,桂韬老师介绍了它们在各类NLP任务上对GPT3系列模型的评测,发现了随着GPT系列模型不断的进化,模型的性能不断地提升,但仍存在一些鲁棒性问题。此外,随着模型更加接近人类行为,产生的“对齐税“会对部分任务性能产生负面影响。 桂韬老师的精彩报告引发了实验室师生的认真思考,大家就涌现能力、推理能力等当前大模型的热点问题进行了广泛且深入的交流讨论。

复旦大学桂韬老师应邀为实验室进行学术报告 2023-05-19T10:24:18+00:00

清华大学侯磊老师应邀为实验室进行学术报告

2023-05-19T10:27:07+00:00

2022年10月25日上午,应实验室孙乐研究员和韩先培研究员的邀请,清华大学计算机系助理研究员侯磊老师为实验室进行了题为 “Explainable Knowledge Reasoning for Complex Question Answering”的在线学术报告。 侯磊老师是清华大学计算机系知识工程研究室助理研究员。2016年获得清华大学博士学位(导师李涓子教授),博士期间曾访问比利时鲁汶大学(合作导师Marie-Francine Moens教授)和新加坡国立大学(合作导师蔡达成教授)。主要研究方向为网络环境下的知识工程,中国中文信息学会语言与知识计算专委会委员,担任TKDE、AAAI、ACL、EMNLP等领域重要国际期刊/会议审稿人。以第一作者或通信作者在AAAI、IJCAI、ACL、EMNLP、TOIS等国际重要学术会议和期刊上发表论文30余篇。主持和参与多项国家级、部委级和国际合作项目,包括国家重点研发计划、国家自然科学基金重点项目和企事业单位合作项目,其中与阿里巴巴公司合作的“千亿级商品知识图谱的构建与应用”获得2020年中国中文信息学会钱伟长中文信息处理科学技术奖一等奖。 侯磊老师为大家介绍了他们在复杂知识问答任务中的可解释性推理的相关工作,主要包括KoPL,KQA Pro,Program Transfer和GraphQ IR。KoPL是一个为复杂推理问答而设计的编程语言,通过将自然语言问题表示为由基本函数组合而成的KoPL程序,由程序运行得到问题的答案。KQA Pro 是一个基于知识库的大规模复杂问答数据集,该数据集为每个问题提供了 SPARQL 和程序的有力监督。Program Transfer 尝试对问答程序进行迁移,GraphQ IR 为图查询语言的建立统一中间表示。 侯磊老师的精彩报告引发了实验室师生的认真思考,大家就复杂知识问答,语义解析等领域发展现状和难点进行了广泛且深入的交流讨论。

清华大学侯磊老师应邀为实验室进行学术报告 2023-05-19T10:27:07+00:00