Latest News

304, 2025

中科院软件所中文信息处理实验室获EDBT最佳论文奖亚军

中科院软件所中文信息处理实验室获EDBT最佳论文奖亚军近日，数据库领域重要国际学术会议 EDBT 2025（The 28th International [...]

2012, 2024

北京市自然科学基金-小米联合基金重点项目开题及进展研讨会顺利召开

北京市自然科学基金-小米联合基金重点项目开题及进展研讨会顺利召开 2024年12月17日，北京市自然科学基金-小米联合基金重点项目“大语言模型知识的表征、学习、记忆和注入机制分析与验证”开题及进展研讨会在中国科学院软件研究所顺利举行。研讨会特邀北京理工大学教授黄河燕、小米集团研究员王斌、北京理工大学教授邬霞、中国科学院信息工程研究所研究员陈恺和中国人民大学教授赵鑫、小米公益基金会副秘书长高文隽、小米大模型负责人栾剑、小米技术委技术合作高级经理丁倩到会指导，中国科学院软件研究所科技处处长王熙博及项目组成员出席本次会议。中国科学院软件研究所科技处处长王熙博对与会的专家表示热烈欢迎，感谢他们年末百忙之中莅临指导。项目负责人孙乐研究员汇报了项目的整体情况及进展，从科学问题与研究目标、研究内容与技术方案、预期成果与考核指标以及总体进展与工作计划等多个方面进行汇报。接着，各课题负责人依次汇报了课题的研究内容、进展和技术方案。各位课题负责人深入介绍了项目在知识探测、知识体系化评估和大模型优化等方面的技术挑战与创新方案。专家组成员深入讨论了项目的整体技术方案和研究方向，并对知识表征、学习、记忆及注入机制等关键技术难点进行了充分质询。专家组一致认为，项目研究目标明确，团队基础良好，期待研究成果能够在大模型知识机制理论、方法和实践中产生重要影响。小米集团代表对项目未来工作进行了指导，小米大模型负责人栾剑从实际应用角度为项目提出了建设性意见，并期待进一步推动研究成果更好地与实际需求对接。小米公益基金会副秘书长高文隽表示，将为课题研究提供组织支持，助力课题组推进研究进展，搭建交流平台，促进学术与产业界的深入交流。

1712, 2024

中文信息处理实验室多篇论文被 AAAI 与 COLING 录用

中文信息处理实验室多篇论文被 AAAI 与 COLING 录用近日，中文信息处理实验室多项大模型领域研究成果被国际顶级会议 [...]

810, 2024

中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用

中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用近日，中文信息处理实验室多项大模型领域研究成果被国际顶级会议 NeurIPS [...]

410, 2024

爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告

爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告 9月25日上午，应实验室孙乐研究员的邀请，爱丁堡大学终身讲席教授、华为爱丁堡知识图谱实验室主任Jeff Z. Pan教授为我们带来了题为“Large [...]

2405, 2024

中文信息处理实验室12篇论文被ACL2024录用

中文信息处理实验室12篇论文被ACL2024录用近日，中文信息处理实验室12 项大模型领域研究成果被国际顶级会议ACL2024录用，相关成果涉及大模型知识机制、大模型价值观对齐、大模型智能规划、大模型评估、大模型检索等方向。以下是相关被录用成果的简要介绍。成果一：沉默的螺旋：大模型如何影响信息检索？论文标题：Spiral [...]

1504, 2024

中央财经大学迟钰雪副教授应邀为实验室进行学术报告

中央财经大学迟钰雪副教授应邀为实验室进行学术报告 2024年4月2日下午，应实验室林鸿宇副研究员的邀请，中央财经大学管理科学与工程学院副教授迟钰雪老师为实验室进行了题为 "Risk spillovers in Chinese production network: A supply-side shock perspective" 的学术报告。迟钰雪老师是中央财经大学管理科学与工程学院副教授，中国发展战略学研究会社会战略专业委员会委员。主持国家自然科学基金青年基金1项，参与多项国家自然科学基金面上项目、重大研究项目及国家高端智库试点项目。近年来，在《Nature Humanities and Social Sciences Communications，Knowledge-Based Systems》，《Information Processing & Management》，《管理科学学报》，《系统工程理论与实践》等期刊发表论文十余篇。长期担任《Information Sciences》、《系统工程理论与实践》等期刊审稿人。迟钰雪老师为我们介绍了其以第一作者新发表在《Nature Humanities and Social Sciences Communications》期刊的论文。该论文设计了一个模型来模拟供给端冲击在生产网络中传播并导致实际部门系统性风险的传播。该论文根据输入-产出框架定义了系统重要产业（SIIs）和系统性脆弱产业（SVIs），并根据风险溢出的程度和方向进行分类。模拟结果显示，风险溢出通过生产网络在产业之间传播，导致实际部门的系统性风险。该论文还将模型中的重要风险溢出路径分类为“SVIs→SIIs→SVIs”，用于风险监管和预防，并在2018年识别出75个风险溢出路径和9个闭环路径。此外，系统重要性（脆弱性）的关键因素包括输入-产出关系和生产网络的中心性。该论文为基于供应链加强实际部门的风险监管提供了科学依据。 [...]

1603, 2024

大模型遇见社会科学：从“人的社会”到“AI的社会” 的研究

大模型遇见社会科学：从“人的社会”到“AI的社会” 的研究论文标题：AI for Social Science [...]

203, 2024

学习还是自我对齐 ? 关于指令微调的内在机制的探究

学习还是自我对齐 ? 关于指令微调的内在机制的探究论文标题：Learning or Self-aligning? [...]

2601, 2024

上海交通大学张倬胜博士应邀至实验室进行学术报告

上海交通大学张倬胜博士应邀至实验室进行学术报告 2024年1月26日上午，上海交通大学张倬胜博士应邀在中文信息处理实验室发表了题为《大模型自主智能体的应用及安全挑战》的专题报告。张倬胜博士是上海交通大学电子信息与电气工程学院长聘教轨助理教授，曾担任领域内重要会议LREC-COLING 2024领域主席、ICLR 2023 Tiny Papers领域主席和中国计算语言学大会CCL 2022分委会主席。入选中国中文信息学会博士学位论文激励计划，获评2023世界人工智能大会云帆奖明日之星、全球 AI 华人百强学术新星。主要研究方向为预训练语言模型、自主智能体及其安全。在TPAMI、ICLR、ACL、AAAI等顶级学术期刊/会议发表论文50余篇。Google Scholar论文被引用次数超过3000次，3篇第一作者论文入选为AAAI和COLING高影响力论文列表。研发的语言理解与推理系统在8项国际权威自然语言理解评测获得第一名。报告中，张倬胜博士从智能机器人的未来应用畅想切入，讲述了大模型自主智能体的概念，并介绍了其具有自主性、自适应性、动态响应和自我完善等特性，以及其在现实与虚拟世界中包括系统操控、软件开发、科学发现、具身智能在内的各类场景中的应用。接着，他以Auto-UI智能手机自主智能体为例，展示了大模型自主智能体的具体应用实例，并以此工作中发现的攻击现象为引，引出了有关智能体强大能力背后潜在的安全挑战的讨论。随后，张倬胜博士从智能体应用的流程与形式等方面具体分析了其安全风险分类和来源的复杂性，智能体本身产生的内容与行为均存在风险，同时智能体系统在用户侧、模型侧和环境侧均存在潜在的漏洞以及被攻击的风险。张倬胜博士展示了他和团队提出的“R-Judge大模型智能体行为安全评测”，旨在探测模型自身安全风险判断能力与基于外界安全反馈的判断能力上限。他们发现模型对安全风险的判断与人类表现存在较大差距，模型越大性能越好，风险描述与环境反馈是提升模型检测风险能力的有效手段，并且指令遵循能力直接影响模型性能表现。最后，张倬胜博士从他自身的科研经历出发，与同学们分享了自己作为学生与研究者一路走来的经验，鼓励同学们保持紧迫感、信念感和包容心，坚持努力，追求极致。 [...]

2401, 2024

计算所沈华伟老师应邀为实验室进行学术报告

计算所沈华伟老师应邀为实验室进行学术报告 2024 年 1 月 19 [...]

2401, 2024

北京师范大学邬霞教授在实验室进行学术报告

北京师范大学邬霞教授在实验室进行学术报告 2023年12月28日上午，北京师范大学邬霞教授在中文信息处理实验室应邀发表了题为《类脑视觉智能：原理与方法》的专题报告。邬霞老师是北京师范大学人工智能学院教授、博士生导师，CCF高级会员，国家自然科学基金杰出青年和优秀青年基金、吴文俊人工智能自然科学一等奖、教育部自然科学二等奖、茅以升北京青年科技奖获得者。主要研究方向为脑信号智能分析、类脑算法等。近年来，主持承担国家自然科学基金重点项目、国家重点研发计划等项目十余项，以第一/通讯作者在IEEE TNNLS、IEEE TKDE、IEEE TAC、NeuroImage、Medical Image Analysis、JBHI、IPMI、MICCAI等国内外重要学术期刊/会议发表论文100余篇。报告中，邬霞教授首先为大家介绍了类脑视觉智能相关原理。人脑具备对图片和视频的快速高效理解和生成能力，例如人接触到图像或视频之后可以生成神经响应，反之也可以使用技术手段从神经响应的信号中重建图片或视频。同时，人脑中也存在不同的视觉加工通路，包括腹侧通路，主要负责物体识别和决策，以及背侧通路，负责感知空间位置和运动。此外，有的研究发现卷积神经网络（CNN）的前几层和腹侧通路类似，这为算法可解释性提供了基础。 [...]

1808, 2023

加拿大蒙特利尔大学聂建云老师应邀为实验室进行学术报告

加拿大蒙特利尔大学聂建云老师应邀为实验室进行学术报告 2023年8月15日上午，应实验室孙乐研究员的邀请，加拿大蒙特利尔大学教授聂建云老师为实验室进行了题为 “Leveraging Conversation Context for [...]

2505, 2023

大模型的思想钢印：如何让ChatGPT相信水是有毒的？中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制

大模型的思想钢印：如何让ChatGPT相信水是有毒的？中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制 “你真的认为水有毒？”希恩斯问。 “这有什么可怀疑的吗？就像太阳有光和空气中有氧一样，你们不至于否认这个常识吧。” 希恩斯扶着他的肩膀说：“年轻人，生命在水中产生并且离不开水，你现在的身体中百分之七十是水。” 104号受试者的目光黯淡下来，他捂着头颓然坐在床上，“是的，这个问题在折磨着我，这是宇宙中最不可思议的事了。” [...]

1905, 2023

中文信息处理实验室6篇论文被ACL及SIGIR录用

中文信息处理实验室6篇论文被ACL及SIGIR录用近日，自然语言处理国际顶级会议ACL2023和信息检索领域国际顶级会议SIGIR 2023录用结果出炉，中国科学院软件研究所中文信息处理实验室有多篇论文被录用： ACL 论文一标题：Learning [...]

304, 2023

长城水韵，共赏春色——记中文信息处理实验室春游

长城水韵，共赏春色——记中文信息处理实验室春游古人云：“登山则情满于山，观海则意溢于海。”2023年4月1日，中文信息处理实验室职工及学生20余人齐聚北京市怀柔区黄花城水长城旅游区，欣赏春日美景，共度愉快的团建时光。黄花城水长城距离北京市区65公里，以山川、碧水、古长城相融的美景著称。这里的三绝景更是令人陶醉。首先是明永乐年间修建的长城，盘旋在山脊之上，环绕在灏明湖畔，景色既秀美又壮观；其次是湖水将长城自然断开，形成独特的长城戏水、水没长城景观；最后是明代板栗园，古树盘根错节，各具特色，让人叹为观止。实验室的一行人沿着古道，穿越木桥，跨过小溪，攀登怪石，共同感受着攀登险峻长城的挑战与乐趣。途中，龙尾洞、紫翠峰、醉女山、石浪谷、情人峰、三珠连潭等自然景观令人心旷神怡，流连忘返。春日里，山桃花淡粉浅白，漫山遍野，给古老的长城带来了一丝灵秀气息。登顶长城后，大家在山顶欣赏远处湖波荡漾的美景，感受着这座古老城墙与自然水域相融的奇妙景象。休息时，大家围坐在一起，分享美食、畅谈心情，增进了团队之间的友谊与默契。夕阳西下，实验室的一行人依依不舍地告别了这片美丽的水墨山水，踏上了归途。此次水长城团建活动不仅让大家在欣赏祖国美景的同时，也感受到了在科研道路上应该坚持不懈、勇攀高峰的信念。中文信息处理实验室将继续秉持初心，勇往直前，为实现更高的目标而努力拼搏奋斗。 [...]

2303, 2023

复旦大学桂韬老师应邀为实验室进行学术报告

复旦大学桂韬老师应邀为实验室进行学术报告 2023年3月23日下午，应实验室林鸿宇副研究员的邀请，复旦大学自然语言处理实验室副研究员桂韬老师为实验室进行了题为 “ChatGPT的能力分析与鲁棒性探索”的学术报告。桂韬，复旦大学自然语言处理实验室副研究员、硕士生导师。研究领域为预训练模型、信息抽取和鲁棒模型。在高水平国际学术期刊和会议上发表了40余篇论文，主持国家自然科学基金、计算机学会、人工智能学会多个基金项目。曾获钱伟长中文信息处理科学技术奖一等奖（2/5）、中国中文信息学会优秀博士论文奖、COLING2018最佳论文提名奖、NLPCC2019亮点论文奖，入选第七届“中国科协青年人才托举工程”、上海市启明星计划。桂韬老师为大家介绍了他们在ChatGPT的能力与鲁棒性探究的相关工作，主要包括ChatGPT来源、ChatGPT各种相关能力的测试。具体地，桂韬老师详细地介绍了过去NLP领域的发展历史以及 OpenAI的 [...]

2610, 2022

清华大学侯磊老师应邀为实验室进行学术报告

2022年10月25日上午，应实验室孙乐研究员和韩先培研究员的邀请，清华大学计算机系助理研究员侯磊老师为实验室进行了题为 “Explainable Knowledge Reasoning for Complex [...]

1909, 2022

中文信息处理实验室陆垚杰博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖

中文信息处理实验室陆垚杰博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖近日，中国科学院公布了2022年度“中国科学院院长奖”评审结果，中国科学院软件研究所中文信息处理实验室2016级硕博连读生陆垚杰荣获“中国科学院院长特别奖”，其指导教师孙乐研究员荣获“中国科学院优秀导师奖”。陆垚杰，2016年进入软件所学习，2018年转为博士生，主要从事自然语言处理方向的研究。他曾参与国家自然科学基金重点项目等重大国家科研任务以及百度、腾讯等国内外知名企业科技研发任务。陆垚杰与合作者一起，在人工智能、自然语言处理领域国际顶级期刊和会议AIJ、AAAI以及ACL上发表学术论文十余篇，论文被美国宾州大学、哈佛大学、谷歌等国内外知名高校、企业的学者引用。在信息抽取领域，他提出了一套全新的通用信息抽取结构生成新架构，并在多个信息抽取任务上给出了当前国际上最好的结果。在事件抽取领域，他提出的结构可控生成方法作为该领域的重要方法之一，被该领域相关综述以及国际知名课程多次引用。在学期间，陆垚杰还获得了研究生“国家奖学金”、中国科学院大学“三好学生”等荣誉称号。 “中国科学院院长奖学金”设立于1989年，每年评选一次。2022年全院共80人获“中国科学院院长特别奖”，400人获“中国科学院院长优秀奖”。

1909, 2022

实验室多名研究生获2022年度中科院嘉奖

实验室多名研究生获2022年度中科院嘉奖根据《中国科学院软件研究所优秀学生评选办法》，经个人申请，各研究生培养小组初评和推荐，所评审小组评审，实验室多名研究生获2022年度中科院嘉奖。 2016级硕博连读生陆垚杰荣获“优秀毕业生”荣誉称号（全所6人） 2019级博士曹博希荣获“三好学生标兵”荣誉称号（全所6人） 2020级博士辛春蕾、2020级硕士刘晓鸣和2021级硕士李律学荣获“三好学生”荣誉称号

206, 2022

中国科学院软件研究所2022年全国大学生“软件与网络”夏令营招生简章

中国科学院软件研究所2022年全国大学生“软件与网络”夏令营招生简章原文地址：http://www.iscas.ac.cn/yjsjy2016/zsxx2016/202205/t20220530_6455509.html 为了增进高校优秀大学生对中国科学院软件研究所（以下简称“软件所”）的了解，激发大学生对计算机科学的研究兴趣，软件所定于2022年7月中下旬举办2022年全国大学生“软件与网络”夏令营。本次夏令营活动主要包括：软件所简介、专家报告、主要研究方向及成果介绍、师生交流、招生咨询等，同时入选营员将获得软件所2022年接收推荐免试研究生的选拔面试机会。欢迎广大优秀大学生报名参加。一、招生规模： 200人左右。 [...]

2104, 2022

中文信息处理实验室两篇论文被IJCAI 2022录用

中文信息处理实验室两篇论文被IJCAI 2022录用近日，人工智能领域顶级会议IJCAI 2022录用结果出炉，中国科学院软件研究所中文信息处理实验室两篇论文被IJCAI 2022录用。以下是论文介绍：论文一 [...]

1104, 2022

中文信息处理实验室推免招生说明 – 欢迎各位同学报考实验室！

中文信息处理实验室推免招生说明各位同学好，非常感谢各位同学考虑报考中科院软件所中文信息处理实验室。由于每年报考实验室的同学有一些相似的问题想要了解，因此实验室撰写了如下招生说明，供各位有意报考实验室的同学查阅。2022年软件所夏令营时间预计为7月18日，报名截止时间为7月9日。请有意报考实验室的同学尽量参加软件所举办的“软件与网络“夏令营。一、实验室简介中科院软件所中文信息处理实验室实始于1996年成立的“开放系统与中文信息处理中心”。实验室长期致力于自然语言理解、信息抽取与知识图谱、信息检索与智能问答等领域前沿技术的研究与开发。目前，实验室共有博士生导师3人、硕士生导师5人，在读研究生20余人。实验室目前承担着中科院先导A类项目、国家重大研发计划、国家自然科学基金重点项目、国家自然科学基金优青项目等重要国家科研课题，并与阿里、腾讯、百度、华为、小米、美团等知名互联网企业建立有广泛的研发合作。近年来，实验室已经在ACL、SIGIR、AAAI、IJCAI、EMNLP、AIJ等自然语言处理与信息检索领域国际顶级会议和期刊上发表论文近百篇，并曾在TREC、NTCIR、DUC、TAC等信息检索和自然语言处理领域的权威国际评测中多次取得优异成绩。 [...]

104, 2022

中文信息处理实验室1篇长文被SIGIR 2022录用

中文信息处理实验室1篇长文被SIGIR 2022录用近日，信息检索领域国际顶级会议SIGIR 2022录用结果出炉，中国科学院软件研究所中文信息处理实验室一篇长文被录用：标题：Re-thinking Knowledge [...]

2502, 2022

中文信息处理实验室5篇长文被ACL 2022录用

中文信息处理实验室5篇长文被ACL 2022录用近日，自然语言处理领域顶级会议ACL2022录用结果出炉，中国科学院软件研究所中文信息处理实验室五篇长文被ACL 2022录用，其中主会论文4篇，Findings论文1篇。以下是论文列表及介绍：论文一标题：Unified [...]

1810, 2021

清华大学计算机系刘华平副教授到访实验室并作报告

清华大学计算机系刘华平副教授到访实验室并作报告 2021年11月14日下午两点，应实验室孙乐研究员的邀请，清华大学计算机系刘华平副教授到访实验室，并进行了关于“多模态机器人主动感知”的报告。刘华平老师是清华大学计算机科学与技术系博士生导师，中国人工智能学会理事，国家杰出青年科学基金获得者。主要研究方向为智能机器人的多模态感知、学习与控制技术。担任IEEE Trans. on Cybernetics、IEEE [...]

309, 2021

国家语委重大科研项目“中华经典诗词知识图谱构建技术研究”通过成果鉴定

国家语委重大科研项目“中华经典诗词知识图谱构建技术研究”通过成果鉴定 9月1日下午，国家语委科研规划领导小组办公室组织专家在北京对中国科学院软件研究所承担的“中华经典诗词知识图谱构建技术研究”项目进行了科技成果鉴定。专家组由北京理工大学黄河燕教授、清华大学李涓子教授、北京大学王厚峰教授、北京语言大学杨尔弘教授以及中科院自动化所赵军研究员组成。教育部语言文字信息管理司田立新司长、语言文字应用管理司孟庆瑜二级巡视员出席会议并讲话。会上，中科院软件所武斌副所长代表软件所发表致辞，首先感谢了教育部、国家语委的指导和大力支持。他表示，中文信息处理方向是软件所的重要方向之一，项目涉及中华优秀传统文化的保护和传承，研究所一直给予高度重视，未来也将持续支持研发团队产出更高质量的研究成果。武斌副所长致辞项目负责人、中文信息处理实验室孙乐研究员详细介绍了项目的研究内容与成果特色。项目构建了多层次中华诗词知识本体体系，为描述中华诗词知识提供了基础；构建了大规模多侧面的中华诗词知识图谱，涵盖6大类共33.7万实体，组织关联了百万量级的诗词相关知识；基于图谱资源搭建了多维度中华诗词展示平台，提供全景化辅助理解、诗词多脉络展示、诗词交互式学习等多种功能。随后，实验室副主任韩先培研究员现场演示了项目平台的特色模块，其中多个功能吸引了与会专家和领导参与互动。孙乐研究员介绍项目成果 [...]

3108, 2021

中文信息处理实验室三篇论文被EMNLP 2021主会录用

中文信息处理实验室三篇论文被EMNLP 2021主会录用日前，自然语言处理领域的顶级会议 EMNLP 2021陆续向作者发送录用通知，中国科学院软件研究所中文信息处理实验室三篇论文被EMNLP [...]

2907, 2021

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021年7月28日下午，应实验室林鸿宇博士后的邀请，哈尔滨工业大学的覃立波博士到访实验室，并为实验室师生作了题为“任务型对话系统中口语语言理解综述——前沿与挑战”的学术报告。覃立波博士是哈尔滨工业大学SCIR在读博士生，导师车万翔教授，博士期间以第一作者或者共同第一作者发表CCF A/B会议/期刊14篇。研究方向为任务型对话系统与自然语言处理，曾获三年国家奖学金，春晖创新一等奖学金，之江实验室奖学金，字节跳动奖学金（中国10人），百度奖学金（全球10人），以及入选全球首份AI华人新星百强榜单，IJCAI-SAIA YES学术新星等榜单。同时，他热衷于开源分享和社区建设，促进NLPer在国内的交流，创办了机器学习算法与自然语言处理社区，突破50w+订阅人数和超过2千万阅读量。报告开始，覃立波博士首先介绍了任务型对话系统的整体结构，接着对其中的自然语言理解模块进行了深入的讲解，然后对口语语言理解（SLU）领域近10年的发展进行一个回顾和总结，最后根据当前发展现状给出了一些研究问题和挑战。 [...]

2007, 2021

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告 2021年7月20日上午，应实验室孙乐研究员和韩先培研究员的邀请，西湖大学特聘研究员张岳老师到访实验室，为实验室师生做了题为“Challenges in Machine Learning in [...]

1707, 2021

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖近期，第44届国际计算机学会信息检索大会（The 44th International ACM [...]

1106, 2021

北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告

北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告 2021年6月11日上午，应实验室孙乐研究员和韩先培研究员的邀请，北京理工大学毛先领副教授到访实验室，为实验室师生做了题为“Similarity-preserved Hashing: Diffusing from Images [...]

705, 2021

中文信息处理实验室六篇长文被ACL2021主会录用

中文信息处理实验室六篇长文被ACL2021主会录用日前，自然语言处理领域的顶级会议 ACL 2021陆续向作者发送录用通知，中国科学院软件研究所中文信息处理实验室六篇长文被主会录用。下面是论文列表及介绍：论文一 [...]

1604, 2021

春意浓浓，寄情山水——记中文信息处理实验室春游

春意浓浓，寄情山水——记中文信息处理实验室春游智者乐水，仁者乐山。2021年4月11日，中文信息处理实验室部分职工及学生共同来到黑龙潭风景区，放松心情。黑龙潭位于北京市密云区石城镇鹿皮关北面的一条全长4公里，水位落差220米的峡谷里，有春花、秋月、平沙、落雁、曲、叠、沉、悬潭等十八个名潭，千姿百态，各领风骚。爬山对于人的体力和毅力都是极大的考验，但是实验室一行人不畏艰险、勇攀高峰。大家沿着盘山栈道，欣赏着涓涓瀑布流入清澈见底的石潭，感受着攀登陡峭山路的艰难困苦，终于在中午时分登上了黑龙潭的顶峰。一时间湖光山色尽收眼底，就好似科研攻坚路漫漫，志在巅峰不辞遥。 [...]

1404, 2021

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021年4月13日下午，应实验室孙乐研究员和韩先培研究员的邀请，复旦大学张奇教授到访实验室，为实验室师生做了题为“模型鲁棒性分析与评测”的学术报告。张奇老师现任复旦大学计算机科学技术学院教授、博士生导师，主要研究方向是自然语言处理，信息检索和数据密集型计算，共发表学术论文70余篇。近年来，随着深度学习以及预训练方法的发展，深度学习模型在几乎全部自然语言处理任务中都取得了非常好的效果，甚至在阅读理解等多项任务上取得了超越人类的准确性。然而在实际应用中，这些模型的效果却大打折扣。近年来许多研究工作表明，深度神经网络模型在处理掺杂了微小扰动的样本时，其预测效果就会出现大幅度下降。模型鲁棒性的研究也因此受到越来越多的关注。在本次报告中，张奇老师针对模型的鲁棒性、可解释性以及如何评估模型的鲁棒性三个方面进行了讲解。尽管目前已有一些针对NLP任务的模型鲁棒性工作，但它们大多只针对单个NLP任务，且只有少量的数据变形方法，缺乏系统性的工具集合。针对这一问题，张老师课题组展开了大规模的鲁棒性评测工作，开发了面向自然语言处理的多语言鲁棒性评测平台TextFlint。利用 [...]

2912, 2020

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告

厦门大学苏劲松教授应邀到访中文信息处理实验室并作学术报告 2020年12月28日下午，应实验室孙乐研究员和韩先培研究员的邀请，厦门大学苏劲松教授到访实验室，为实验室师生做了题为“神经机器翻译领域自适应研究”的学术报告。苏劲松老师现任厦门大学信息学院软件工程系教授，博士生导师。主要研究方向是自然语言处理、社会计算，共发表学术论文100余篇，包括CCF推荐列表论文68篇。近年来，低资源神经机器翻译（NMT）受到广泛关注，多领域神经机器翻译可以利用多个领域平行语料来构造一个统一的模型从而解决领域内数据稀少的问题。为了同时利用和共享多种领域的翻译数据构建多领域NMT，苏老师课题组提出了区分词粒度上下文的多领域神经机器翻译模型。该方法将词级别隐状态区分为领域相关和领域共享的隐状态，并根据目标词与不同领域的相关性，调整目标词在NMT训练目标中的权重。模型在大规模多领域汉英和英法语数据集上验证性能均有所提升。用于神经机器翻译的领域适应研究集中在领域外向领域内的一次迁移训练方式，然而由于领域间的差异这样one-pass训练方式很难达到目标，为此苏老师课题组提出了迭代双向迁移的神经机器翻译训练框架。这样迭代多源知识互转移框架在机器阅读理解中也验证了其有效性。 [...]

912, 2020

中文信息处理实验室两篇论文被AAAI2021录用

中文信息处理实验室两篇论文被AAAI2021录用日前，2021年的首个人工智能顶级会议 AAAI 2021公布了论文录用列表，中国科学院软件研究所中文信息处理实验室两篇长文被大会录用。下面是论文列表及介绍： [...]

2411, 2020

中文信息处理实验室师生参加EMNLP 2020

中文信息处理实验室师生参加EMNLP 2020 2020年11月16日至11月20日，由国际语言学会（ACL）下属的SIGDAT小组主办的自然语言处理领域的顶级国际会议EMNLP成功召开。受疫情影响，今年EMNLP 会议全程以线上形式举行。实验室的师生通过线上方式参加了此次大会，博士后林鸿宇做了线上分组报告。 EMNLP 2020共收到投稿3677篇，其中有效投稿为3359篇，接收论文数量为752篇，包括长论文602篇、短论文150篇，论文接受率为22.4%。另外，今年EMNLP也带来了一项创新：“Findings [...]

1711, 2020

中文信息处理实验室师生参加第十四届全国知识图谱与语义计算大会

中文信息处理实验室师生参加第十四届全国知识图谱与语义计算大会第十四届全国知识图谱与语义计算大会（CCKS: China Conference on Knowledge [...]

611, 2020

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020年11月6日，第五届语言与智能高峰论坛举行，实验室孙乐研究员和韩先培研究员应邀参加论坛。孙乐研究员主持了上午的由微软亚洲研究院副院长周明博士特邀报告。韩先培研究员应邀在下午的青年科学家论坛上做了题为“开放知识获取：从启发式规则到端到端Bootstrapping网络”的报告。实验室师生以在线的方式参加了本届论坛。本届论坛邀请了微软亚洲研究院、复旦大学、华为、百度研究院、俄勒冈州立大学等单位的特邀嘉宾做报告。让机器理解人类语言是人工智能长期以来的梦想，经过几十年的发展，语言与智能技术发展到了什么程度，如何评价语言理解的智能水平，未来发展趋势如何？为了深入探讨这些重要问题，中国中文信息学会和中国计算机学会联合创办了“语言与智能高峰论坛”，首届论坛于2016年在北京举行，每年举行一次，之前已成功举办四届，旨在向社会公众介绍语言与智能的前沿动态和创新成果，推动我国相关领域快速发展。撰稿：刘汇丹责任编辑：刘汇丹

3010, 2020

中国科学院自动化研究所何世柱副研究员应邀作学术报告

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020年10月30日下午，应实验室孙乐研究员和韩先培研究员的邀请，中国科学院自动化研究所何世柱副研究员到访实验室，为实验室师生做了题为“融合知识的生成式对话研究”的学术报告。何世柱老师博士毕业于中科院自动化所，现任模式识别国家重点实验室副研究员、硕士生导师，主要研究方向为知识推理和问答系统。近年来，从大规模原始对话数据中学习生成式的对话模型受到越来越多的关注，主要方法大都基于深度学习模型，使用多层神经网络记忆对话中涉及的知识。但是，一方面，对话中涉及到的知识非常多，并且时常更新，深度学习模型仅依赖神经网络中的若干参数不可能对它们完全表示和存储；另一方面，事实上目前大部分知识常以形式化的知识图谱形式表示。因此，如何在基于深度学习模型的对话模型中利用知识图谱是一个重要研究课题，它不仅能够提升深度模型生成答复的多样性，也能够给用户提供富有内容的回复。何老师从语言知识、主题知识和世界知识三类知识的应用，介绍相关的研究工作和课题组的研究进展，并对融合知识的生成式对话研究进行总结和展望。报告结束后，何世柱老师与实验室师生就文本生成方面的技术进行了互动。撰稿：刘汇丹 [...]

2610, 2020

九九重阳，登高赏秋

九九重阳，登高赏秋九月九日望遥空，秋水秋天生夕风。10月25日，正值重阳佳节，中文信息处理实验室组织教职工和学生40余人前往慕田峪长城登高望远，共赏红叶。慕田峪长城位于北京市怀柔境内，距北京城区73公里，历史悠久，文化灿烂。景区内山峦叠嶂，树木葱郁，在中外享有“万里长城，慕田峪独秀”的美誉。金秋十月，阳光灿烂，遍山红叶开得正欢。在攀登途中，大家观赏美妙秋景，眺望长城景观，感到心旷神怡。离开了雄伟壮观的慕田峪长城，大家又前往果园进行采摘活动。果园里瓜果飘香，芬芳迷人，大家精心挑选果实，收获了亲近自然的美妙体验。太阳没入山丘，夕阳余晖洒落。伴随着欢声笑语，大家踏上归程之路。休闲放松之后，实验室各位将以饱满的精神投入到科研工作中。相信在大家的辛勤地耕耘下，中文信息实验室将收获沉甸甸的果实！

2110, 2020

卓盛云科技有限公司创始人金友兵博士应邀访问实验室

卓盛云科技有限公司创始人金友兵博士应邀访问实验室 2020年10月20日下午，应实验室主任孙乐研究员的邀请，卓盛云科技有限公司创始人金友兵博士应邀访问实验室，为实验室师生做了题为“软件开发管理和架构设计”的报告。金友兵博士拥有多年Linux操作系统、办公软件、文档管理和文档安全等领域的研发经历，曾主持过大型软件系统开发，具备400+人规模的团队管理经验。曾主持863重大专项和10多项国家级/北京市重大项目，历年共申请发明专利20多项。曾获得2010年国务院特殊津贴、北京市科技进步一等奖/新世纪百千万北京市级人才称号等荣誉。金博士曾任红旗中文贰仟公司 CTO、书生集团CTO。他于2017年创立卓盛云科技有限公司（南京/天津），主持开发容器化存储软件、云平台软件等相关产品。在报告中，金博士主要围绕软件项目管理、软件架构设计、敏捷开发、持续集成-DevOps四个方面的内容展开介绍，并与实验室职工和学生就软件开发和项目管理中的问题进行了讨论。

2110, 2020

阿里巴巴达摩院罗福莉老师到访实验室

阿里巴巴达摩院罗福莉老师到访实验室 2020年10月16日下午，应实验室博士后林鸿宇的邀请，阿里巴巴的罗福莉老师到访实验室，为实验室师生做了题为“阿里深度语言模型体系ALICE”的讲座分享。报告的开始，罗福莉老师首先对她所在的阿里巴巴达摩院语言技术实验室进行了整体介绍，进而描述了阿里巴巴语言模型体系ALICE的架构。来自ALICE的六大语言模型一举拿下了英文GLUE、多语言XTREME、多模态VQA、阅读理解和生成MS MARCO在内的多项国际赛事和榜单的第一名。本次分享将详解参赛榜单的语言模型（包括通用语言模型StructBERT、多语言预训练模型、生成式PALM、多模态预训练模型StructVBERT等）背后的技术创新、平台建设以及对内外的应用落地。罗老师首先介绍了团队提出了通用预训练模型StructBERT，通过设计基于语言结构的预训练任务，使得模型能够学习到词级别和句子级别的结构信息。罗老师第二个介绍的是跨语言预训练模型。首先梳理了现有的工作，大体分为两类：第一类是Encoder-based模型，例如XLM及其一系列的扩展工作，其缺陷在于预训练阶段无法对Decoder的Cross-attention模块进行初始化，由此带来预训练和微调阶段的gap。第二类为Encoder-Decoder模型，例如mBART和XNLG模型，主要缺点在于在自然语言理解任务上表现欠佳。基于上述分析，罗老师团队提出了能够同时支持自然语言理解和自然语言生成任务的跨语言预训练模型，在多个任务上取得了SOTA的性能。罗老师还结合多语言预训练任务的上游模型、下游场景和落地任务，对阿里巴巴多语言训练技术大图进行了详细介绍。该工作引发了同学们的积极思考和提问，在模型的训练问题，数据获取问题，以及设计细节等方面展开了热烈的讨论。 [...]

1510, 2020

孙乐研究员应邀在软件所学术年会做特邀报告

孙乐研究员应邀在软件所学术年会做特邀报告，其中实验室2个海报评为优秀海报奖 9月21日，中国科学院软件研究所2020年度学术年会在软件所举办。本次会议采用了现场和线上直播相结合的方式进行，软件所所长赵琛、学术委员会主任林惠民院士以及所内外专家学者共240余人参加了会议。大会开幕式由田丰研究员主持。赵琛所长首先对软件所学术委员会、大会组委会的辛勤付出以及特邀报告人为年会带来的精彩报告表示感谢；随后的报告环节包括上午的两场特邀报告和下午的三场学术报告。实验室孙乐研究员应邀为此次大会作了题为“认知启发的自然语言理解”的特邀报告。本次大会共征集到来自研究所科研成果87份，由大会组委会及各实验室/中心择优选出74份成果以海报形式公开展出、8份成果作大会学术报告。同时，大会选出35份代表性论文进行视频介绍，经过组委会及公众两轮投票最终选出了10份学术年会优秀海报。其中实验室的2份海报评为优秀海报奖，具体的获奖信息如下：（1）一种简单易用的语义解析平台，完成人：安波，陈波，韩先培，孙乐 [...]

1510, 2020

实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖

中文信息处理实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖近日，中国科学院公布了2020年度中国科学院院长奖评审结果,中国科学院软件研究所中文信息处理实验室2015级硕博连读生林鸿宇荣获“中国科学院院长特别奖”，其指导教师孙乐研究员荣获 “中国科学院优秀导师奖”。林鸿宇，2015年进入软件所学习，2017年转为博士生，主要从事自然语言处理方向的研究。曾参与国家自然科学基金重点项目、国家重点研发计划等重大国家科研任务以及阿里、百度、腾讯等国内外知名企业科技研发任务。该生与合作者一起，在自然语言处理领域国际顶级会议ACL以及EMNLP上发表学术论文十余篇，论文被美国华盛顿大学、德国达姆施塔特工业大学、谷歌、MSRA等国内外知名高校企业学者引用。在信息抽取领域，该生提出了一套全新的序列到组块信息抽取框架，并在多个信息抽取任务上给出了当前国际上最好的结果。在知识抽取领域，该生提出的异构知识推理方法作为该领域的基本方法之一，被该领域相关综述以及国际知名课程多次引用。在学期间,该生还获得了研究生国家奖学金（2017年度和2018年度）、朱李月华奖学金（2019年度）、中国科学院大学三好学生标兵等荣誉称号。中国科学院院长奖学金设立于1989年，每年评选一次，旨在激励研究生勤奋学习，创新进取，发现和奖励优秀年轻人才，促进我国科学事业的发展。中国科学院院长奖学金分为特别奖和优秀奖，是中科院研究生奖学金中含金量最高的奖项之一，今年的特别奖全院仅评选出80名。

2307, 2020

实验室多名研究生获2020年度中科院嘉奖

实验室多名研究生获2020年度中科院嘉奖根据《中国科学院软件研究所优秀学生评选办法》，经个人申请，各研究生培养小组初评和推荐，所评审小组评审，实验室多名研究生获2020年度中科院嘉奖。 2017级博士林鸿宇荣获“优秀毕业生”荣誉称号（全所5人） 2015级博士付成荣获“三好学生标兵”荣誉称号（全所5人） 2017级博士聂浩和2018级博士唐家龙荣获“三好学生”荣誉称号 [...]

1301, 2020

中文信息处理实验室学术指导委员会正式成立

中文信息处理实验室学术指导委员会正式成立 2020年1月12日，中国科学院软件研究所中文信息处理实验室学术指导委员会成立会议在北京成功召开。中国科学院软件研究所所长赵琛研究员致欢迎辞，并为学术指导委员会委员颁发聘书。实验室学术指导委员由三位专家组成：中国科学院计算技术研究所研究员、中国中文信息学会前理事长倪光南院士，中国电子信息产业集团有限公司首席科学家、中国中文信息学会理事长方滨兴院士，哈尔滨工业大学前党委书记、中国中文信息学会名誉理事长李生教授。实验室主任孙乐研究员向各位专家汇报了实验室学术方向。孙乐研究员首先介绍了实验室目前的科研项目和人才团队，重点阐述了实验室围绕知识驱动的自然语言理解（K-NLU）这一学术方向，特别是在知识获取、知识融合及语义理解等方面面临的挑战和研究进展，最后就实验室发展向各位专家提出了一系列请教的问题。韩先培研究员演示了实验室研发的知识图谱资源、诗词平台和冬奥项目问答系统。在听取了实验室学术方向汇报后，三位资深专家分别发言，从实验室学术方向规划、科研项目选择、人才队伍持续发展、成果落地及学生培养等多个方面对实验室工作进行了悉心指导，提出了许多宝贵意见和建议，为实验室今后发展指明了方向。 [...]

1301, 2020

南京理工大学夏睿教授应邀做学术报告

南京理工大学夏睿教授应邀做学术报告 2020年01月10日上午，应实验室孙乐研究员和韩先培研究员的邀请，南京理工大学计算机学院夏睿教授到访实验室，为实验室师生做了题为“文本情绪检测与原因抽取”的学术报告。夏睿老师的报告聚焦于文本情绪分析研究中情绪原因抽取任务，其目标是抽取文本中某些情绪表达背后的潜在原因。学术界目前采用了包括规则方法，传统机器学习方法和深度神经网络在内的技术来解决这些任务。针对当前研究中存在的问题，夏睿老师首先介绍了两种新的情绪原因抽取模型，并在此基础上提出了一项新的任务——<情绪-原因>对抽取，进行同步的情绪预测与原因挖掘，在情绪原因分析基准语料库上的实验证明了任务的可行性和方法的有效性。首先，夏睿老师简单为实验室的老师和同学们介绍了情绪原因抽取任务是一个子句级的分类任务，并通过一个简单易懂的例子为大家说明了现有方法存在的问题：没有充分考虑情绪原因在文档中的分布规律。通过对数据的仔细分析以及任务的深入理解，夏睿老师的团队提出：1）子句与情感描述句的相对位置是一个很强的先验知识，离情感描述句越近的子句包含情感原因的概率越高；2）在一篇短文档中，情感原因往往只有1个或者两个。根据以上发现，夏老师为实验室师生介绍了他们发表在AAAI2019和IJCAI2019的两篇工作：From Independent Prediction [...]

2512, 2019

大阪大学褚晨翚博士应邀做学术报告

大阪大学褚晨翚博士应邀做学术报告 2019年12月24日下午，应实验室孙乐研究员和韩先培研究员邀请，大阪大学褚晨翚博士到访实验室，为实验室师生作了题为“从多语言到多模态处理”的学术报告。褚晨翚博士的报告主要聚焦于近年来极为热门的跨语言及跨模态相关的研究。在报告中，褚博士主要介绍了其课题组近期发表在顶级刊物上的三个科研成果，内容涉及多语言机器翻译、视觉问答复述以及基于知识的视觉问答等重要方向。在多语言机器翻译上，褚博士提出了一种全新的三步骤微调学习方案，大幅度地提升了多语言机器翻译模型的性能。在视觉问答复述上，褚博士的课题组率先提出了在视觉问答中需要考虑训练以及测试中的复述现象，提出了一个全新的视觉复述识别任务，并对该任务进行了系统性的研究。在基于知识的视觉问答上，褚博士的课题组构造了一个全新的视觉问答数据，该数据需要综合各种不同的背景知识进行推理，从而能够很好地衡量模型基于知识推理的能力。 [...]

1212, 2019

浙江大学丁鼐研究员应邀做学术报告

浙江大学丁鼐研究员应邀做学术报告 2019年12月12日下午，应实验室孙乐研究员和韩先培研究员邀请，浙江大学生物医学工程与仪器科学学院丁鼐研究员，为实验室师生作了题为“层级语言结构的认知神经加工”的学术报告。丁鼐老师首先通过一系列实验向大家介绍了大脑如何编码语音中不同层级的语言单元——比如音节、词、短语和语句。这些实验主要建模语言特征与脑信号之间的关系，实验结果显示不同时间尺度的神经振荡表征不同大小的语言单元，这也说明了大脑构建了多层级的语言表征。随后丁鼐老师介绍了注意力如何影响大脑对不同大小语言单元的编码。实验发现高级语言结构加工更依赖于注意力，而且句子聆听过程中的注意焦点可以调节大脑响应。报告结束后，实验室老师和多位同学与丁鼐老师针对人与计算机进行阅读理解时注意力的差异、大脑中词汇表征形式等问题进行了深入交流。责任编辑：马龙龙 [...]

212, 2019

阿里达摩院陈博兴博士应邀做学术报告

阿里达摩院陈博兴博士应邀做学术报告 2019年11月29日下午，应实验室孙乐研究员和韩先培研究员邀请，阿里巴巴达摩院机器智能技术实验室陈博兴博士到访实验室，为实验室师生作了题为“语音翻译的技术及其应用”的学术报告。陈老师的报告主要介绍了阿里巴巴集团近年来在语音翻译方面的相关工作。从主要挑战、技术策略以及实际应用等多个方面介绍了阿里巴巴公司在语音翻译方面的研究及落地情况。首先，陈老师简单回顾了在语音翻译方面的两个主要的技术路线：级联式以及端到端的方法。虽然近年来端到端的方法得到的广泛的关注，但因其对于数据量的要求较高，阿里巴巴公司目前仍然采用级联式的语音翻译方案。接下来，陈老师总结了在级联式语音翻译中的主要挑战：糟糕的翻译输入（主要来自于语音错误、断句错误、不通顺、非正式语言），缺少相关的标注语料（缺少非正式语言的平行语料等）以及在MT任务上的一些传统挑战。针对上述的一些重要挑战，陈老师分别详细地介绍了阿里巴巴公司在级联式方法的翻译输入以及翻译过程上的一些相关工作。 [...]

1811, 2019

复旦大学张奇教授应邀做学术报告

复旦大学张奇教授应邀做学术报告 2019年11月18日下午，应实验室孙乐研究员和韩先培研究员邀请，复旦大学计算机学院张奇教授到访实验室，为实验室师生作了题为“搜索引擎中的智能问答”的学术报告。张老师的报告聚焦于近些年在学术界和工业界都备受关注的智能问答方向。张老师首先介绍了近些年搜索引擎发展的趋势，指出了智能问答技术在移动互联网时代的重要性。随即，张老师比较了近些年在学术界火热的SQuAD数据集和工业界实际应用场景下的区别，相比于SQuAD评测，工业界实际场景中存在文档种类更多，质量差异大，文档更长，且不一定存在正确答案等问题，使得真实场景中的智能问答难度更大，更具挑战性。为了解决智能问答中存在的这些问题，张老师将解决方案分为三大类：1）基于社区的问题回答；2）基于知识图谱的问题回答；3）机器阅读理解。张老师着重介绍了第一和第三这两大类方案的主要方法和最新工作。基于社区的问题回答，可以当成语义匹配问题来建模。现阶段互联网的问答平台如百度知道、搜狗问问、知乎等都已积累了丰富的问题和答案资源。当用户有新的问题咨询时，可以直接在已有问题中匹配到相似问题，返回对应的已有答案。现有的语义匹配模型可以分为两大类：一是基于句子表示的方法；二是基于交互关系的方法。在实际问答场景中，许多问题所包含信息较少，但其对应答案中却包含可以解释和区分问题的信息。因此，张老师等在SIGIR2019发表的工作利用自适应多注意力机制，融合答案和问题信息，提高了语义匹配的性能。 [...]

1811, 2019

中文信息处理实验室师生参加EMNLP-IJCNLP2019

中文信息处理实验室师生参加EMNLP-IJCNLP2019 2019年11月3日至7日，由ACL SIGDAT（语言学数据特殊兴趣小组）主办的EMNLP-IJCNLP 2019（2019 Conference on [...]

811, 2019

祝贺实验室唐家龙和吴杉荣获2019年国家奖学金

祝贺实验室唐家龙和吴杉荣获2019年国家奖学金所研究生国家奖学金评审委员会于2019年11月6日组织了公开答辩、评议，最后通过无记名投票表决，我实验室2018级直博生唐家龙同学、2017级硕士吴杉同学获得2019年硕士研究生国家奖学金。特向两位同学表示祝贺！

2910, 2019

中科院计算所冯洋副研究员应邀做学术报告

中科院计算所冯洋副研究员应邀做学术报告 2019年10月29日下午，应实验室孙乐研究员和韩先培研究员的邀请，中科院计算技术研究所冯洋副研究员到访实验室，为实验室师生做了题为“机器翻译的训练改进和解码提速”的学术报告。冯老师的报告聚焦于机器翻译训练和测试阶段的四个困难，分别介绍了四个相对应的工作。首先，冯老师简要阐述了当前机器翻译使用的序列到序列模型架构：RnnSearch和Transformer，并指出在现有机器翻译模型训练阶段存在的：1）曝光偏差；2）词级匹配的问题以及测试阶段存在的：3）Beam Search搜索空间过大；4）顺序解码时效性差的问题。曝光偏差是指机器翻译模型训练阶段将上一时刻准确的词作为输入以预测这一时刻的词，而测试阶段没有标准的目标端输出词只能将上一时刻预测的词作为输入。而这就导致了训练阶段与测试阶段的不一致。冯老师针对该问题介绍了他们在ACL2019的Best Long [...]

2910, 2019

中文信息处理分工会组织秋游活动

天朗气清，金海赏秋一年好景君须记，最是橙黄橘绿时，金海赏秋正当时。10月27日，中文信息处理实验室组织职工及学生20余人奔赴北京市金海湖，一赏秋日美景。金海湖风景区，地处京城东北85公里京津唐交界的三角地带，三面环山，峰峦叠翠、风景秀丽，有千岛湖的湖观山色，又有兔耳岭的怪石嶙峋，有湖光塔、金花公主墓、望海亭、锯齿崖等自然景观、人文景观数十处。金海湖水域宽阔、碧波万顷，是开展水上娱乐项目的理想之所。待到暖阳染红苍穹，湖面泛起点点金芒，荡起轻舸，泛舟湖上，微风吹皱粼粼涟漪，人在其中静静欣赏着青峰翠嶂，仿佛置身水墨山水之中，令人忘返。告别秋水盈盈的金海湖，大家来到了苹果采摘园体验采收。晚秋的时节，带着丝丝凉意，大家健步快走、气氛热烈融洽，零距离感受田园风光，体验亲手采摘的超凡乐趣。 [...]

2810, 2019

中文信息处理实验室多名师生参加CCL2019

中文信息处理实验室多名师生参加CCL2019 “第十八届中国计算语言学大会”（The Eighteenth China National Conference [...]

2709, 2019

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布 9月26日上午，由中国科学院软件研究所中文信息处理实验室负责研发的“北京冬奥项目知识图谱资源及问答系统”在北京语言大学正式发布。教育部、国家语委、北京冬奥组委、中国科学院软件研究所和北京语言大学相关领导及专家出席发布会。会上，项目负责人、中国科学院软件研究所孙乐研究员详细介绍了“基于知识图谱的北京冬奥项目智能问答系统”的研发进展及成果特色。项目构建了大规模知识图谱，完整覆盖5类冬奥核心实体，设计多种类型的知识展示服务，研发了语音和文字两种输入方式的“智能问答平台”，提供实时便捷的冬奥会问答服务，为普及冬奥知识、宣传冬奥文化提供了全方位、立体化手段。孙乐研究员介绍项目情况中科院软件研究所副所长肖作敏研究员代表软件所发表致辞，首先感谢了教育部、国家语委和北京冬奥组委的指导，感谢项目合作单位北京语言大学的提供的大力支持。他表示，项目立项之初，软件所高度重视，深感在普及冬奥知识、宣扬冬奥文化方面的责任重大。未来将继续在人、财、物方面给予项目研发团队大力支持，持续钻研技术、锻造品牌，研发更多的智能语言服务成果，全力以赴地服务好北京冬奥会，共同谱写“智能”新篇章。肖作敏副所长致辞 [...]

1809, 2019

北京大学王选计算机研究所孙薇薇副教授应邀做学术报告

北京大学王选计算机研究所孙薇薇副教授应邀做学术报告 2019年9月17日下午，应实验室孙乐研究员和韩先培研究员邀请，北京大学王选计算机研究所孙薇薇副教授到访实验室，为实验室师生做了题为“English Resource Semantics: Linguistic Design [...]

3008, 2019

中文信息处理实验室多名师生参加CCKS2019

中文信息处理实验室多名师生参加CCKS2019 2019年全国知识图谱与语义计算大会(China Conference on Knowledge Graph [...]

1508, 2019

中文信息处理实验室师生参加ACL2019

中文信息处理实验室师生参加ACL2019 ACL(Annual Meeting of the Association [...]

2506, 2019

加拿大蒙特利尔大学聂建云教授、江西师范大学王明文教授与左家莉副教授访问实验室

加拿大蒙特利尔大学聂建云教授、江西师范大学王明文教授与左家莉副教授访问实验室 2019年6月24日上午，应实验室孙乐研究员的邀请，加拿大蒙特利尔大学聂建云教授以及江西师范大学的王明文教授与左家莉副教授访问实验室。聂建云老师是加拿大蒙特利尔大学教授，他在自然语言处理和信息检索领域深耕多年，主要研究领域包括信息检索模型、跨语言信息检索、Query扩展、Query推荐、Query理解、查询日志利用、情感分析等等。聂建云教授在IR和NLP领域的期刊和国际会议上发表了200多篇论文，他是多个国际期刊的编委(e.g. Journal of information [...]

1906, 2019

微软亚洲研究院董力博士访问实验室

微软亚洲研究院董力博士访问实验室 2019年6月19日，应实验室孙乐研究员和韩先培研究员邀请，微软亚洲研究院董力博士到访实验室，为实验室师生员工带来了一场题为《UNILM: Unified Language Model Pre-Training [...]

706, 2019

清华大学黄民烈副教授应邀做学术报告

清华大学黄民烈副教授应邀做学术报告 2019年6月6日，应实验室孙乐研究员和韩先培研究员邀请，清华大学计算机系智能技术与系统实验室副主任黄民烈副教授到访实验室，为实验室师生员工带来了一场题为《Controllable text generation: types, knowledge, [...]

106, 2019

自动化所曾祥荣博士应邀做学术报告

自动化所曾祥荣博士应邀做学术报告 2019年5月31日，应实验室孙乐研究员和韩先培研究员的邀请，中科院自动化所博士毕业生曾祥荣访问实验室，并做了一场题为“面向非结构化文本的关系抽取”的学术报告。曾祥荣博士首先介绍了关系抽取任务的意义和任务分类，讲解了非结构化文本的关系抽取任务中的难点。随后介绍了在关系抽取任务上的三个工作：第一个工作介绍了如何使用强化学习的思想减轻关系抽取中远距离监督的噪音。第二个和第三个工作利用序列生成模型解决多关系抽取中的实体重叠问题。报告结束后，曾祥荣博士同与会的师生积极互动，解答大家的学术问题并进行了学术研究方法的交流，会场气氛热烈。

2305, 2019

祝贺实验室林鸿宇、陆垚杰、吴杉3位同学荣获软件所2019年度三好学生

祝贺实验室林鸿宇、陆垚杰、吴杉3位同学荣获软件所2019年度三好学生根据《中国科学院大学“中国科学院院长奖”评审实施办法》和《中国科学院软件研究所优秀学生评选办法》，经个人申请，实验室培养小组初评和推荐，所评审小组评审，我实验室2017级博士林鸿宇、2018级博士陆垚杰和2017级硕士吴杉获得软件所2019年度“三好学生”荣誉称号。 [...]

2005, 2019

实验室四项成果被自然语言处理顶级会议ACL 2019接收

实验室四项成果被自然语言处理顶级会议ACL 2019接收 ACL(Annual Meeting of the [...]

1805, 2019

天津大学张鹏副教授应邀做学术报告

天津大学张鹏副教授应邀做学术报告 2019年5月17日，应实验室孙乐研究员，韩先培研究员和何苯研究员的邀请，天津大学计算机系张鹏副教授访问实验室，并做了一场题为“A quantum many-body wave function [...]

2304, 2019

清华大学刘知远副教授应邀做学术报告

清华大学刘知远副教授应邀做学术报告 2019年4月19日，应实验室孙乐研究员和韩先培研究员的邀请，清华大学计算机系刘知远副教授访问实验室，并做了一场题为“知识指导的自然语言处理”的学术报告。刘知远老师的报告首先概要介绍了自然语言的不同层次理解需要诸如语言知识、常识知识、世界知识等复杂知识的支撑，随后介绍了如何将知网 (Hownet)中的语言知识融入到语义分布式表示学习中；如何利用现有的大规模知识图谱进行知识表示学习，如何利用学习到的知识表示来指导现有的自然语言处理任务；以及如何利用深度学习技术进行知识获取的相关工作。报告结束后，刘知远老师同与会的师生积极互动，解答大家的学术问题并进行了学术研究方法的交流，会场气氛热烈。

104, 2019

中文信息处理分工会组织春游活动

春意融融，长城怀古阳春三月，草长莺飞，正是万物复苏的好时节。3月31日，中文信息处理实验室组织职工及学生40余人共同来到黄花城水长城景区，欣赏美景，放松心情。黄花城水长城位于北京市怀柔区九渡河镇境内，因三段长城入水而得名，是北京唯一一处长城与水相连的长城。此处融青山、碧水、长城、古树为一体，有“塞外景，江南风，尽在水长城”的美誉。拾级而上，水长城悠然而立，古朴自然。身处长城之上，漫山野桃花灿烂缤纷，灏明湖碧波粼粼，不时有小船掠过。大家通力合作，一起登上了长城的最高点，在这个过程中既感受到长城承载的厚重历史，也欣赏了自然的美丽风光。微风吹拂中，所有的疲惫都一扫而光。除了雄伟的长城，归途上形态万千的板栗林，依山蜿蜒的盘山栈道，风景亦是美不胜收。在这样的美景中，大家心情愉悦，一路上欢声笑语，其乐融融。暮色四合，在农家小院的饭菜香味中，大家结束了一天的旅程。欢乐不觉时光过。通过此次活动，大家放松心情，也将春天的生机与活力带回了实验室中。作为一个团体，中文信息处理实验室将继续奋进，一同前行！ [...]

2503, 2019

北京大学冯岩松副教授应邀做学术报告

北京大学冯岩松副教授应邀做学术报告 2019年3月22日下午14:00，应实验室孙乐研究员与韩先培研究员的邀请，北京大学冯岩松副教授来访实验室，为大家带来一场题为“Combining Human Knowledge with Neural [...]

403, 2019

新浪微博张俊林博士应邀来实验室做学术报告

新浪微博张俊林博士应邀来实验室做学术报告 2019年3月1日，应实验室主任孙乐研究员的邀请，新浪微博AI Lab资深算法专家张俊林博士来访实验室，为师生带来一场题为“自然语言预训练技术及RNN/CNN/Transformer比较”的精彩学术报告。现场座无虚席，反响热烈。张俊林博士首先介绍了NLP中的一些主要预训练技术的技术演进历程，从基础的word embedding技术到近一年来兴起的ELMO、GPT、BERT等语言模型。这些预训练语言模型采用无监督的学习算法，得以利用大规模的自然语言语料进行训练，在各类自然语言处理任务上均取得巨大突破。而作为BERT基础组件的Transformer近年来也得到广泛应用，在各项任务中均取得不少进展。然后，张俊林博士对自然语言处理中的三大特征抽取器Transformer、RNN和CNN的各自优缺点进行了对比分析。最后，张俊林博士又同大家分享了自己对近些年预训练语言模型发展趋势的展望，并详细解答了同学们提出的相关问题。

203, 2019

中国科学院自动化研究所刘康副研究员应邀做学术报告

中国科学院自动化研究所刘康副研究员应邀做学术报告 2019年1月11日下午14:00，应实验室孙乐研究员与韩先培研究员的邀请，中国科学院自动化研究所刘康副研究员走进中文信息处理实验室，为实验室师生做了关于事件抽取的学术讲座。刘康博士结合课题组近年来的工作进展, 向大家介绍了从非结构化文本中抽取结构化事件知识的基本方法, 以及应对开放域事件抽取标记数据稀缺的新思路。此外，刘康博士还和大家分享了深度学习方法在金融事件抽取应用项目中的经验和体会。报告结束后，刘康老师与参会的师生进行互动，探讨了金融事件抽取相关的若干问题，现场气氛活跃。

103, 2019

复旦大学邱锡鹏老师访问实验室

复旦大学邱锡鹏老师访问实验室 2018年11月9日，应实验室韩先培研究员邀请，复旦大学计算机科学技术学院邱锡鹏老师走进中文信息处理实验室，为师生带来精彩学术报告，中科院软件所和自动化所的同学前来听讲座，现场座无虚席，反响热烈。邱锡鹏老师以“如何端到端地写科研论文”为题，介绍了如何做科研和写出好的科研论文。老师先讲解了几大顶会的评审制度和审稿标准，然后又从同行评议的数据集出发，通过几种可解释性强的模型，分析了对于论文录用概率有影响的不同的写作方法和写作细节。邱老师又以自己组内ACL-2017的文章《Adversarial Multi-Criteria Learning for [...]

2512, 2018

2018年实验室代表性论文介绍

2018年实验室代表性论文介绍一、基于区块提议网络的中文事件检测事件检测则是事件抽取中的一个关键步骤。近年来，随着基于神经网络方法的发展，人们常常将事件检测转化为一个词级别的分类问题来对待。然而，基于词级别分类的事件检测方法没有考虑到事件触发词块与词的不匹配问题。特别是在中文当中，有许多的事件触发词块并不是一个特定的词。针对上述问题，我们提出了一种基于区块提议网络的中文事件检测方法。具体地，我们的方法首先使用动态多池化卷积神经网络抽取字符级别和词级别的混合特征。之后基于混合特征的触发词块生成器可以在字符级别上直接给出整个触发词块的检测结果，从而避免了事件触发词块与词的不匹配问题。实验结果表明我们的方法在事件检测标准数据集TAC-KBP2017以及ACE2005上取得了State-of-the-Art性能。上述成果长文发表在自然语言处理顶级国际会议ACL 2018会议上： [...]

1711, 2018

自然语言处理国际著名学者Mark Steedman教授应邀到实验室访问并做学术报告

自然语言处理国际著名学者Mark Steedman教授应邀到实验室访问并做学术报告 2018年11月13日上午，爱丁堡大学Mark Steedman教授应孙乐研究员邀请，在中科院软件所3层会议室做了题为“Towards a Form-Independent [...]

1610, 2018

祝贺实验室林鸿宇和陆垚杰荣获2018年国家奖学金

祝贺实验室林鸿宇和陆垚杰荣获2018年国家奖学金所研究生国家奖学金评审委员会于2018年10月15日组织了公开答辩、评议，最后通过无记名投票表决，我实验室2017级博士林鸿宇同学、2016级硕士陆垚杰同学获得2018年研究生国家奖学金。值得一提的是，这是林鸿宇同学连续第2年获得博士国家奖学金。向两位同学表示祝贺！

2008, 2018

第三届全国知识图谱与语义计算大会在天津召开，实验室论文荣获大会唯一最佳中文论文奖

第三届全国知识图谱与语义计算大会在天津召开，实验室论文荣获大会唯一最佳中文论文奖 2018年8月14日至17日，由中国中文信息学会语言与知识计算专委会主办的第三届全国知识图谱与语义计算大会（China Conference on Knowledge Graph [...]

907, 2018

祝贺实验室林鸿宇、陆垚杰、刘方超3位同学荣获2017-2018学年优秀学生

祝贺实验室林鸿宇、陆垚杰、刘方超3位同学荣获2017-2018学年优秀学生根据《中国科学院软件研究所优秀学生评选办法》，经所评审小组评审，我实验室2017级博士林鸿宇同学获得“三好标兵”荣誉称号，2018级博士陆垚杰和刘方超同学获得2017－2018“三好学生”荣誉称号。

607, 2018

祝贺孙乐研究员获评“软件所2017-2018学年优秀导师”

祝贺孙乐研究员获评“软件所2017-2018学年优秀导师” 孙乐研究员获得“软件所2017-2018学年优秀导师”荣誉称号。 [...]

507, 2018

Four long papers were accepted by ACL2018

本研究室的四篇长文工作被国际顶级会议ACL2018会议录用本研究室四篇长文被计算语言学领域顶级会议ACL2018录用，涉及的领域包括语义解析、事件抽取、论文自动评分等。（1）Sequence-to-Action: End-to-End Semantic [...]

2706, 2018

祝贺实验室陈波博士荣获“中国科学院大学2017-2018学年优秀毕业生”荣誉称号

祝贺实验室陈波博士荣获“中国科学院大学2017-2018学年优秀毕业生”荣誉称号陈波博士荣获“中国科学院大学2017-2018学年优秀毕业生”荣誉称号. 软件所今年共有毕业生100名，其中博士生27名，硕士生73名。经软件所学术委员会评定，评选5名优秀博士毕业生和1名优秀硕士毕业生。我实验室陈波博士荣获“中国科学院大学2017-2018学年优秀毕业生”荣誉称号。

1606, 2018

实验室安波参加NAACL2018国际会议

实验室安波参加NAACL2018国际会议本次参加NAACL2018国际会议有一篇长文被会议录用，论文内容是关于使用文本信息来增强知识图谱的表示，应用场景包括知识图谱的推理和补全。本文在主会场进行了海报展示，并与参会的其他研究人员进行深入的讨论，对宣传自己的工作未来工作都有很好的作用。本次参会参加了两个tutorial，主要是知识图谱的构建和推理、基于深度学习的对话系统。更系统的学习了从信息抽取、知识图谱构建和知识图谱的表示和推理的内容，尤其是参会人员一起讨论了知识图谱的未来方向，对下一步的研究具有很好的指导价值。另外一个基于深度学习的对话系统则全面而深入的了解了对话系统这个方向的主要挑战、研究热点和目前的研究状态。以及如何从业务出发搭建一个基本的对话系统。该会议的主会议有3天，内容涉及了计算语言学的各个主要研究方向。包括信息抽取、知识表示、深度学习在NLP的应用、问答系统、对话系统等等，具有很高的学习价值。会议还要请了5个keynote，部分来自学届、部分来自工业界。其中关于认知的研究为计算语言学未来的发展提供了一定的启示作用。对于训练数据的多少也有很深入的讨论。 [...]

2504, 2018

实验室参加阿里“藏经阁”知识引擎计划

实验室参加阿里“藏经阁”知识引擎计划 4月21日上午，阿里巴巴联合中科院软件所、清华大学、浙江大学、中国科学院自动化所、苏州大学5所高校发布藏经阁（知识引擎）研究计划。该计划以结构化的形式描述客观世界中概念、实体及其之间的关系，将互联网信息内容表达成更接近人类认知世界的形式，从而使计算机具备类脑推理能力。同时，阿里还宣布打算用一年时间初步建成首个开放的知识引擎服务平台，服务中小企业。 [...]

1504, 2018

孙乐研究员参与翻译的《自然语言处理综论》出版

孙乐研究员参与翻译的《自然语言处理综论》出版孙乐研究员与冯志伟教程合作翻译的《自然语言处理综论》第二版于2018年3月份正式出版。从本书第一版出版以来，一直好评如潮，被国外许多大学选作自然语言处理或计算语言学的教材，被认为该领域教材的“黄金标准”。本书第一版综合了自然语言处理、计算语言学和语音识别的内容，全面论述计算机自然语言处理，深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题，介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写，增加了大量反映自然语言处理最新成就的内容，特别是增加了语音处理和统计技术方面的内容，全书面貌为之一新。本书四大特色：覆盖全面 [...]

904, 2018

祝贺实验室林鸿宇博士和刘泽宇硕士荣获2017年国家奖学金

祝贺实验室林鸿宇博士和刘泽宇硕士荣获2017年国家奖学金所研究生国家奖学金评审委员会于2017年10月16日组织了公开答辩、评议，最后通过无记名投票表决，我实验室2017级博士林鸿宇同学、2005级硕士刘泽宇同学获得2017年研究生国家奖学金。

1501, 2018

自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会在软件所顺利召开

自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会在软件所顺利召开 8月16日，为了促进国内自然语言处理相关研究的发展以及研究者之间的交流，由中国中文信息学会青年工作委员会主办，搜狗公司承办的 “自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会”在中国科学院软件研究所成功举办。来自中科院、北京大学、清华大学、复旦大学、哈工大、澳门大学等境内外高校和搜狗、百度、阿里等企业的科研人员和研究生200余人参加了本次研讨会和论文报告会。本次会议由中国中文信息学会青年工作委员会执委、中科院软件所韩先培副研究员主持。中国中文信息学会副理事长及秘书长中科院软件所孙乐研究员，青工委主任清华大学刘洋副教授，搜狗公司搜索事业部许静芳总经理出席会议。中国中文信息学会青年工作委员会主任刘洋、搜狗搜索事业部总经理许静芳分别代表主办方和承办方致欢迎辞。 EMNLP是自然语言处理的顶级学术会议，2017年年会将于9月6日至12日在丹麦哥本哈根举行。本次论文报告会从国内被录用的近40篇长文中邀请了18篇论文作者进行提前报告，他们分别来自中科院、北京大学、清华大学、复旦大学、哈工大、澳门大学、哈工大深圳研究生院、南京大学、人民大学、东北大学、南京理工大学、黑龙江大学等多个高校。报告人深入介绍了各自在文本摘要、情感分析、机器翻译、信息抽取、自动问答、表示学习等多个领域的最新研究成果。会议实况经搜狐千帆直播平台向全网直播，4000多人观看了网络直播，众多网友和现场参会者线上线下联动，新的观点和灵感不断被激发、碰撞，会场气氛热烈。 [...]

1501, 2018

中国中文信息学会承办的第53届国际计算语言学年会在北京成功举办

中国中文信息学会承办的第53届国际计算语言学年会在北京成功举办 2015年7月26-31日，由中国中文信息学会承办的第53届国际计算语言学年会（Annual Meeting of the Association [...]

1512, 2017

韩先培获得中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”一等奖

韩先培获得中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”一等奖 2016年12月23日，中国中文信息学会第八次全国会员代表大会暨学会成立35周年学术会议在北京隆重举行，会上颁发了“钱伟长中文信息处理科学技术奖”、中国中文信息学会“终身成就奖”、“汉王青年创新奖”以及中国中文信息学会优秀博士学位论文“拓尔思优秀博士学位论文奖”。软件所中文信息处理研究室韩先培副研究员获得“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。韩先培多年来一直致力于自然语言理解和知识图谱相关的研究工作。自然语言理解是人工智能和自然语言处理的核心科学问题，在研究和应用领域都具有重要的作用。围绕自然语言理解，韩先培在开放域语义知识获取和知识驱动文本语义分析方面取得了多项研究成果。在国际顶级学术会议如ACL、SIGIR、AAAI、EMNLP、CIKM上发表重要论文30余篇，其中在自然语言处理顶级会议ACL上发表论文7篇，相关系统在国际权威评测SIGHAN 2012中文实体链接任务取得第一名的成绩。韩先培的论文被同行广泛引用，其论文共获得国内外700余次引用，其中引用数超过100次的论文有三篇。特别是，SIGIR 2011论文在五年内被引用216次，在信息检索领域顶级学术会议SIGIR 近五年来发表的493篇论文中排在第2位，同时Google [...]

907, 2017

实验室参与编写《中文信息处理发展报告2016》

实验室参与编写《中文信息处理发展报告2016》介绍了中文信息处理的各种技术研究进展呢，阅读本文有利于了解信息处理发展现状，确定自己的研究方向。内容涵盖：一、词法、句法、文法等发展趋势： 1) [...]

4,998

Contact Info

Recent Posts