root

/root

About root

This author has not yet filled in any details.
So far root has created 167 blog entries.

中文信息处理实验室陆垚杰博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖

2023-05-19T10:34:18+00:00

中文信息处理实验室陆垚杰博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖 近日,中国科学院公布了2022年度“中国科学院院长奖”评审结果,中国科学院软件研究所中文信息处理实验室2016级硕博连读生陆垚杰荣获“中国科学院院长特别奖”,其指导教师孙乐研究员荣获“中国科学院优秀导师奖”。 陆垚杰,2016年进入软件所学习,2018年转为博士生,主要从事自然语言处理方向的研究。他曾参与国家自然科学基金重点项目等重大国家科研任务以及百度、腾讯等国内外知名企业科技研发任务。陆垚杰与合作者一起,在人工智能、自然语言处理领域国际顶级期刊和会议AIJ、AAAI以及ACL上发表学术论文十余篇,论文被美国宾州大学、哈佛大学、谷歌等国内外知名高校、企业的学者引用。在信息抽取领域,他提出了一套全新的通用信息抽取结构生成新架构,并在多个信息抽取任务上给出了当前国际上最好的结果。在事件抽取领域,他提出的结构可控生成方法作为该领域的重要方法之一,被该领域相关综述以及国际知名课程多次引用。在学期间,陆垚杰还获得了研究生“国家奖学金”、中国科学院大学“三好学生”等荣誉称号。 “中国科学院院长奖学金”设立于1989年,每年评选一次。2022年全院共80人获“中国科学院院长特别奖”,400人获“中国科学院院长优秀奖”。

中文信息处理实验室陆垚杰博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖 2023-05-19T10:34:18+00:00

实验室多名研究生获2022年度中科院嘉奖

2023-05-19T10:32:16+00:00

实验室多名研究生获2022年度中科院嘉奖 根据《中国科学院软件研究所优秀学生评选办法》,经个人申请,各研究生培养小组初评和推荐,所评审小组评审,实验室多名研究生获2022年度中科院嘉奖。 2016级硕博连读生陆垚杰荣获“优秀毕业生”荣誉称号(全所6人) 2019级博士曹博希荣获“三好学生标兵”荣誉称号(全所6人) 2020级博士辛春蕾、2020级硕士刘晓鸣和2021级硕士李律学荣获“三好学生”荣誉称号

实验室多名研究生获2022年度中科院嘉奖 2023-05-19T10:32:16+00:00

中国科学院软件研究所2022年全国大学生“软件与网络”夏令营招生简章

2023-05-19T10:29:46+00:00

中国科学院软件研究所2022年全国大学生“软件与网络”夏令营招生简章 原文地址:http://www.iscas.ac.cn/yjsjy2016/zsxx2016/202205/t20220530_6455509.html 为了增进高校优秀大学生对中国科学院软件研究所(以下简称“软件所”)的了解,激发大学生对计算机科学的研究兴趣,软件所定于2022年7月中下旬举办2022年全国大学生“软件与网络”夏令营。 本次夏令营活动主要包括:软件所简介、专家报告、主要研究方向及成果介绍、师生交流、招生咨询等,同时入选营员将获得软件所2022年接收推荐免试研究生的选拔面试机会。欢迎广大优秀大学生报名参加。 一、招生规模: 200人左右。 二、申请条件: 1、国内各高校计算机科学与技术、软件工程、网络空间安全、数学及其相近专业的在校优秀本科生(拟2023年毕业); 2、品学兼优,心身健康,学习成绩专业或年级排名在前20%(某方面成绩特别突出者可除外); 3、英语达到国家大学英语六级水平;如无六级成绩,可用TOEFL、IELTS或GRE成绩代替。 4、对软件所的科研领域与研究方向有浓厚的兴趣,有较强的或潜在的研究能力。 三、报名方式: 1、网上报名:即日起至7月9日,申请人登录http://kjxt.ucas.ac.cn/index.php/zh网页“大学生夏令营报名”栏目,注册后进入申请系统,选择“软件与网络”夏令营,完成网上报名。 申请人网上报名时,请在“备注”栏填写本人有意报考的学科专业及方向(参见软件所网页2022年硕士招生专业目录)。 四、申请材料 1、个人身份证明(扫描身份证正/反面、学生证个人信息页面) 2、本科现阶段成绩单(加盖学校教务处或学院公章)及专业排名证明; 3、英语六级成绩单复印件或其他能说明自己英文水平的证明材料; 4、本人自愿提交的能体现本人科研素质与能力的其他材料(如已发表的论文、主要获奖证书等); 5、推荐免试研究生申请表(附件1)(拟参加软件所推免生选拔面试者提交); 请入选夏令营的申请人将以上申请材料按上述顺序合并到一个PDF文件中,文件命名格式为“本科学校名称+姓名”,在2022年7月18日前发送至邮箱likai21@iscas.ac.cn(不需寄送)。申请材料如有不实将取消入营资格或推免生拟录取资格。 五、夏令营资格审定 本次夏令营资格审核与选拔以网上报名信息为准。2022年7月12日开始组织专家对营员资格进行审核与选拔。入选“软件与网路”夏令营营员名单将在软件所网页上公布(并辅以邮件通知),未入选者,不再另行通知。 六、夏令营形式及其他 夏令营活动采取线上方式进行,计划7月18日开始,具体时间安排另行通知。 软件所将根据申请人的申请材料及夏令营活动期间的表现,选拔出优秀营员,并在软件所网页公示。 对于优秀营员,若能获得所在高校的推免资格,可根据其志愿及承诺,直接拟录取为软件所2022级硕士生或直博生(按承诺时间,录满为止)。 七、联系方式 1、电 话:010-62661032 010-62561196 2、联系人:李老师 3、邮箱: likai21@iscas.ac.cn、caili@iscas.ac.cn 4、2022年“软件与网络”夏令营(软件所)QQ群号:614702079 附件:推荐免试研究生申请表 (如点击无法下载,请换IE浏览器尝试) 中国科学院软件研究所研究生部    2022.5.29

中国科学院软件研究所2022年全国大学生“软件与网络”夏令营招生简章 2023-05-19T10:29:46+00:00

中文信息处理实验室两篇论文被IJCAI 2022录用

2022-04-21T18:05:05+00:00

中文信息处理实验室两篇论文被IJCAI 2022录用 近日,人工智能领域顶级会议IJCAI 2022录用结果出炉,中国科学院软件研究所中文信息处理实验室两篇论文被IJCAI 2022录用。以下是论文介绍: 论文一 标题:Bridging the Gap between Reality and Ideality of Entity Matching: A Revisting and Benchmark Re-Constrcution 作者:Tianshu Wang, Hongyu Lin, Cheng Fu, Xianpei Han, Le Sun, Feiyu Xiong, Hui Chen, Minlong Lu, Xiuwen Zhu 简介:实体匹配(Entity Matching)是实体解析(Entity Resolution)的关键步骤,虽然深度学习方法在当前基准上取得了优异的性能,但实际应用却并非如此。本文中,我们强调这种差别源于不合理的基准构建,从而带来了对匹配方法评价的偏差。为此,我们构建了一个新的语料库,并重新构建了开放实体、不平衡标签以及多模态记录的实体匹配基准。实验结果表明,之前基准引入的不合理假设掩盖了该任务的主要挑战,造成了对现有方法的高估。 论文二 标题:Towards Robust Dense Retrieval via Local Ranking Alignment 作者:Xuanang Chen, Jian Luo, Ben He, Le Sun, Yingfei Sun 简介:稠密检索(Dense Retrieval, DR)已经被广泛应用于文本检索任务中。同时,最近有研究表明,DR模型对查询变体(Query Variations,如带拼写错误的查询)并不够鲁棒,甚至有高达50%的性能下降。针对该问题,考虑到查询变体直接造成的是查询向量在表示空间中的位置偏移,我们认为保证查询变体在表示空间中的相对位置是比较重要的。因此,本文提出了一种局部排序对齐机制来提升DR模型的鲁棒性,即通过校准批次内的查询-文档的排序关系来达到查询变体向原查询的空间对齐。在MS MARCO和ANTIQUE数据集上的结果表明,本文提出的方法在原查询和各类查询变体上都能带来一定的性能增益,并且能够提升当前已有DR模型(如ANCE、TAS-Balanced等)的有效性和鲁棒性。 国际人工智能联合会议(International Joint Conference on Artificial Intelligence, 简称为IJCAI)是人工智能领域中最主要的学术会议之一,IJCAI 2022将与ECAI一起于2022年7月23-29日在奥地利维也纳举行。 撰稿:陈轩昂、王天舒 责任编辑:刘汇丹    

中文信息处理实验室两篇论文被IJCAI 2022录用 2022-04-21T18:05:05+00:00

中文信息处理实验室1篇长文被SIGIR 2022录用

2022-04-01T16:35:17+00:00

中文信息处理实验室1篇长文被SIGIR 2022录用 近日,信息检索领域国际顶级会议SIGIR 2022录用结果出炉,中国科学院软件研究所中文信息处理实验室一篇长文被录用: 标题:Re-thinking Knowledge Graph Completion Evaluation from an Information Retrieval Perspective 作者:Ying Zhou, Xuanang Chen, Ben He, Zheng Ye, Le Sun 简介:知识图谱补全旨在利用已知三元组预测未知知识,通常采用链接预测的方式对模型性能进行评测。然而,已有诸多工作发现链接预测的评测方式存在伪正例、不稳定的问题。为此,本文从信息检索的角度重新评估了知识图谱补全模型的评测方式:(1)基于TREC Pooling的方式构建了一个相对完备的知识补全测试集,分析了当前数据标注稀疏问题对评测指标的影响;(2)设计了基于宏平均指标的评测方式,实验证明,与链接预测相比,宏平均的实体排序指标能够更稳定、更有区分度地反映知识图谱补全模型性能。 国际计算机学会信息检索大会(International ACM SIGIR Conference on Research and Development in Information Retrieval,简称SIGIR)是人工智能领域智能信息检索(Information Retrieval,IR)方向最权威的国际会议,会议专注于收录文本推荐、检索、语义计算等领域的最新研究成果。据悉,此次SIGIR 2022大会共收到了794篇长论文,其中有161篇被录用,录用率约20%,大会将于2022年7月11-15日在西班牙首都马德里以线上线下混合的形式举办。   撰稿:周赢 责任编辑:刘汇丹  

中文信息处理实验室1篇长文被SIGIR 2022录用 2022-04-01T16:35:17+00:00

中文信息处理实验室5篇长文被ACL 2022录用

2022-02-25T19:02:57+00:00

中文信息处理实验室5篇长文被ACL 2022录用 近日,自然语言处理领域顶级会议ACL2022录用结果出炉,中国科学院软件研究所中文信息处理实验室五篇长文被ACL 2022录用,其中主会论文4篇,Findings论文1篇。以下是论文列表及介绍: 论文一 标题:Unified Structure Generation for Universal Information Extraction 作者:Yaojie Lu, Qing Liu, Dai Dai, Xinyan Xiao, Hongyu Lin, Xianpei Han, Le Sun, Hua Wu 简介: 本文提出了一个面向信息抽取的统一文本到结构生成框架UIE,它可以统一地建模不同的IE任务,自适应地生成目标结构,并从不同的知识来源统一学习通用的信息抽取能力。具体来说,UIE通过结构化抽取语言对不同的信息抽取目标结构进行统一编码,通过结构化模式提示器自适应生成目标结构,并通过大规模结构化/非结构化数据进行模型预训练捕获常见的IE能力。实验结果表明,本文提出的统一生成框架在实体、关系、事件和情感等4个信息抽取任务、13个数据集取得了最先进性能。 论文二 标题:Pre-training to Match for Unified Low-shot Relation Extraction 作者:Fangchao Liu, Hongyu Lin, Xianpei Han, Boxi Cao, Le Sun 简介:低样本关系抽取旨在少样本甚至零样本场景下的关系抽取。由于低样本关系抽取所包含任务形式多样,传统方法难以统一处理。本文针对这一问题,提出了一种统一的低样本匹配网络:(1)基于语义提示(prompt)范式,我们构造了从关系描述到句子实例的匹配网络模型;(2)针对匹配网络模型学习,我们设计了三元组-复述的预训练方法,以增强模型对关系描述与实例之间语义匹配的泛化性。在零样本、小样本以及带负例的小样本关系抽取评测基准上的实验结果表明,该方法能有效提升低样本场景下关系抽取的性能,并且具备了较好的任务自适应能力。 论文三 标题: The Invisible Hand: Understanding the Risks of Prompt-based Probing from a Causal View 作者:Boxi Cao, Hongyu Lin, Xianpei Han, Fangchao Liu, Le Sun 简介:基于提示符的探针(prompt-based probing)已经被广泛用于评估预训练模型的能力。然而,已经有诸多研究发现这样的评测范式会存在不准确、不稳定和不可靠等问题。这些探针过程中存在的偏差会使得预训练模型真正的能力无法得到准确的评估,误导我们对预训练模型的理解,甚至产生错误的结论。因此,为了准确评测预训练模型任务的能力,亟需回答三个核心问题:(1)现有基于提示符的探针范式中存在哪些偏差?(2)这些偏差来源于何处?(3)如何消除这些偏差?基于这三个问题,本文:(1)探究和量化了基于提示符的探针中的三种主要偏差,包括提示符偏好偏差(prompt preference bias)、实例语言化偏差(instance verbalization bias)、以及采样差异偏差(sample disparity bias)。(2)提出了一个因果分析框架,可以有效地识别,解释和消除基于提示符探针过程中的偏差。本文为设计无偏的数据集,更好的探针框架,可靠的评估范式,以及推动偏差分析从经验化到理论化(from empirical to theoretical)提供了宝贵的参考价值。 论文四 标题: Few-shot Named Entity Recognition with Self-describing Networks 作者: Jiawei Chen, Qing Liu, Hongyu [...]

中文信息处理实验室5篇长文被ACL 2022录用 2022-02-25T19:02:57+00:00

清华大学计算机系刘华平副教授到访实验室并作报告

2021-10-18T16:41:45+00:00

清华大学计算机系刘华平副教授到访实验室并作报告 2021年11月14日下午两点,应实验室孙乐研究员的邀请,清华大学计算机系刘华平副教授到访实验室,并进行了关于“多模态机器人主动感知”的报告。 刘华平老师是清华大学计算机科学与技术系博士生导师,中国人工智能学会理事,国家杰出青年科学基金获得者。主要研究方向为智能机器人的多模态感知、学习与控制技术。担任IEEE Trans. on Cybernetics、IEEE Trans. on Automation Science and Engineering等国际期刊的Associate Editor。担任机器人领域知名国际会议ICRA和IROS的Associate Editor,Robotics Sciences and Systems(RSS)的领域主席(2018-2019,2021)和程序委员会委员(2016),IJCAI和AAAI的程序委员会委员。获IEEE 仪器与测量协会(IMS)颁发的Andy Chi Best Paper Award(2017)。 智能机器人区别于工业自动化装备的一个重要特点在于其感知的主动性。主动感知是智能机器人获取环境信息的重要方式。在主动感知模式下,机器人可以通过控制技术提升感知效能,并能进一步充分挖掘多模态信息的关联。此外,机器人在控制过程中不断与环境交互,得到的信息用于增强学习能力,实现机器人的长期学习。本次报告重点介绍了机器人多模态主动感知技术的发展现状、相关的研究进展,以及利用模强化学习技术实现的多态主动感知系统。 刘华平老师首先整体介绍了多模态感知下的各个领域,以及多模态主动感知研究的重要性和挑战:1) 视-听-触觉多模态数据具有不同的表示形式和感知范围。2) 视-听-触觉多模态数据不具有“一一对应”的配对特性。3)“传感”、“感知”和“动作”回路的高度非线性耦合。 随后刘华平老师详细介绍其团队在了不同模态中的主动感知研究与进展。在视觉领域,结合计算机视觉技术研究了主动目标检测;在语言领域,结合自然语言处理技术,研究了主动场景理解,该技术在真实场景下的问答以及盲人辅助等场景都有重要的应用;在触觉领域,研究了视觉引导的主动触觉识别;在听觉领域,进行了主动听觉识别的前沿研究。 此外,刘华平老师团队在多模态融合感知方面也取得了诸多进展,例如针对视-听-触异构多模态的“弱匹配”特性,建立了机器人多模态目标识别的联合稀疏编码方法。在跨模态检索,跨模态生成,跨模态持续学习等领域也都有优秀的成果产出。 刘华平老师的精彩报告引发了实验室师生的认真思考和热烈讨论,大家就触觉传感器的现状和发展挑战,以及运动和感知的关系等方面进行了进一步的深度交流讨论。   撰稿:曹博希 责任编辑:刘汇丹

清华大学计算机系刘华平副教授到访实验室并作报告 2021-10-18T16:41:45+00:00

国家语委重大科研项目“中华经典诗词知识图谱构建技术研究”通过成果鉴定

2021-09-03T13:45:03+00:00

国家语委重大科研项目“中华经典诗词知识图谱构建技术研究”通过成果鉴定 9月1日下午,国家语委科研规划领导小组办公室组织专家在北京对中国科学院软件研究所承担的“中华经典诗词知识图谱构建技术研究”项目进行了科技成果鉴定。专家组由北京理工大学黄河燕教授、清华大学李涓子教授、北京大学王厚峰教授、北京语言大学杨尔弘教授以及中科院自动化所赵军研究员组成。教育部语言文字信息管理司田立新司长、语言文字应用管理司孟庆瑜二级巡视员出席会议并讲话。 会上,中科院软件所武斌副所长代表软件所发表致辞,首先感谢了教育部、国家语委的指导和大力支持。他表示,中文信息处理方向是软件所的重要方向之一,项目涉及中华优秀传统文化的保护和传承,研究所一直给予高度重视,未来也将持续支持研发团队产出更高质量的研究成果。 武斌副所长致辞 项目负责人、中文信息处理实验室孙乐研究员详细介绍了项目的研究内容与成果特色。项目构建了多层次中华诗词知识本体体系,为描述中华诗词知识提供了基础;构建了大规模多侧面的中华诗词知识图谱,涵盖6大类共33.7万实体,组织关联了百万量级的诗词相关知识;基于图谱资源搭建了多维度中华诗词展示平台,提供全景化辅助理解、诗词多脉络展示、诗词交互式学习等多种功能。随后,实验室副主任韩先培研究员现场演示了项目平台的特色模块,其中多个功能吸引了与会专家和领导参与互动。 孙乐研究员介绍项目成果   韩先培研究员演示平台功能 与会专家从技术路线、研究重点、成果形式等不同角度提出了意见和建议。经讨论后,专家组认为项目成果可为培育青少年的诗词文化素养、提升大众的诗词文化水平、弘扬中华优秀传统文化提供资源和技术支撑。同时项目成果研制难度大、创新性强,具有重要的学术价值和实用价值。鉴定委员会一致同意该项目通过成果鉴定。 与会专家提问及讨论 随后,孟庆瑜二级巡视员发表讲话。他充分肯定了项目成果的重要性,当前党和国家正大力推广普及国家通用语言文字,本项目构建的中华经典诗词知识图谱资源和展示平台,将能在提升全民族的语言文字应用能力和语言文化素养方面发挥作用,对于提高推普质量具有重要意义。 孟庆瑜二级巡视员发表讲话 最后由田立新司长做总结讲话,她指出党的十九届五中全会《建议》提出要传承弘扬中华优秀传统文化,本项目以前沿知识图谱技术为支撑,对中华经典诗词加以整合、关联和展示,具备良好的技术优势、实用价值和推广意义,是推动中华优秀传统文化创造性转化、创新性发展的又一具体实践。后续可将研究成果应用于中小学教育教学实践和学习型社会,更深度化、智能化、生动化地展现中华传统文化的风采。 田立新司长发表总结讲话   撰稿:张伟莉 责任编辑:刘汇丹

国家语委重大科研项目“中华经典诗词知识图谱构建技术研究”通过成果鉴定 2021-09-03T13:45:03+00:00

中文信息处理实验室三篇论文被EMNLP 2021主会录用

2021-08-31T15:23:06+00:00

中文信息处理实验室三篇论文被EMNLP 2021主会录用   日前,自然语言处理领域的顶级会议 EMNLP 2021陆续向作者发送录用通知,中国科学院软件研究所中文信息处理实验室三篇论文被EMNLP 2021主会录用。 下面是论文列表及介绍: 论文一 标题:Progressively Adversarial Learning for Bootstrapping: A Case Study on Entity Set Expansion 作者:Lingyong Yan, Xianpei Han and Le Sun 录用类型:长文 简介:自举(Bootstrapping)是一种迭代地利用已抽取信息拓展出新信息的信息抽取技术。然而,由于新信息缺少监督信号,自举模型容易拓展出错误的信息,造成语义漂移。为此,本文提出了一种基于渐进式对抗的自举模型训练方法。具体的,(1)本文将自举模型建模为生成器,并使用额外的判别器判定抽取信息是否正确;(2)本文将自举模型和判别器进行联合的渐进式对抗学习,以相互增强,使得自举模型抽取出的新信息是和已抽取信息难以区分的高质量信息,提高抽取性能。在实体集合拓展数据集上的实验结果表明,基于该方法训练的自举模型能够取得显著的性能优势。 论文二 标题:Fine-grained Entity Typing via Label Reasoning 作者:Qing Liu, Hongyu Lin, Xinyan Xiao, Xianpei Han, Le Sun and Hua Wu 录用类型:长文 简介:大规模标签集合给超细粒度实体识别任务带来两个主要挑战:建模标签依存关系以及预测长尾标签。本文将传统的多标签分类问题转化为标签集合生成问题,并针对以上两个挑战提出了标签推理网络。该标签推理网络包含了两种标签推理机制:(1)基于序列到集合生成的标签演绎推理(Deductive Reasoning)。(2)基于二部属性图的标签归纳推理(Inductive Reasoning)。标签演绎推理机制使得模型能够自动学习和建模标签之间的显式依存关系,标签归纳推理机制使得模型能够自动学习和建模标签之间的隐式依存关系。两种推理机制相结合让模型能够不借助外部知识,端到端地学习标签依存关系并利用该依存关系进行标签预测,同时能够有效缓解长尾标签预测问题。 论文三 标题:Honey or Poison? Solving the Trigger Curse in Few-shot Event Detection via Causal Intervention 作者:Jiawei Chen, Hongyu Lin, Xianpei Han and Le Sun 录用类型:短文 简介:事件检测遭受“触发词诅咒”:对触发词进行过拟合会损害模型的泛化能力,但欠拟合却会损害模型的性能。这一问题在小样本(few-shot)场景下更为严重。为此,本文提出利用因果干预方法解决这一问题。首先,本文将少样本事件检测构建结构因果模型,从中,我们发现,触发词是上下文和预测结果的混杂因子(confounder),这导致过去的模型倾向于过拟合触发词。为了解决这一问题,我们提出对上下文进行因果干预,利用后门调整方法消除触发词对上下文的影响。实验结果表明,本文提出的方法能够有效提升少样本事件检测的性能。 据悉,EMNLP 2021(The 2021 Conference on Empirical Methods in Natural Language Processing)将于2021年11月7日至11日以在线会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,是CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。   撰稿:刘汇丹、颜令勇、刘庆、陈家慰 责任编辑:刘汇丹

中文信息处理实验室三篇论文被EMNLP 2021主会录用 2021-08-31T15:23:06+00:00

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告

2021-07-29T09:51:49+00:00

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021年7月28日下午,应实验室林鸿宇博士后的邀请,哈尔滨工业大学的覃立波博士到访实验室,并为实验室师生作了题为“任务型对话系统中口语语言理解综述——前沿与挑战”的学术报告。 覃立波博士是哈尔滨工业大学SCIR在读博士生,导师车万翔教授,博士期间以第一作者或者共同第一作者发表CCF A/B会议/期刊14篇。研究方向为任务型对话系统与自然语言处理,曾获三年国家奖学金,春晖创新一等奖学金,之江实验室奖学金,字节跳动奖学金(中国10人),百度奖学金(全球10人),以及入选全球首份AI华人新星百强榜单,IJCAI-SAIA YES学术新星等榜单。同时,他热衷于开源分享和社区建设,促进NLPer在国内的交流,创办了机器学习算法与自然语言处理社区,突破50w+订阅人数和超过2千万阅读量。 报告开始,覃立波博士首先介绍了任务型对话系统的整体结构,接着对其中的自然语言理解模块进行了深入的讲解,然后对口语语言理解(SLU)领域近10年的发展进行一个回顾和总结,最后根据当前发展现状给出了一些研究问题和挑战。 口语语言理解是任务型对话系统中最核心的组件,近些年来的发展也是非常迅速的。根据对意图识别(intent detection)和槽位填充(slot filling)两个子任务的建模方式和交互关系,口语语言理解模型大致可以分为以下几个发展阶段:独立模型(2013-2015),隐式联合建模(2016-2017),显式联合建模—单向信息流动(2018-2019),显式联合建模—双向信息流动(2019-2021)。 从独立建模到隐式联合建模,再从显式单向信息流动到显式双向信息流动的发展趋势,反映了在口语语言理解中意图识别和槽位填充的两个子任务的密切关系,两者的联合交互建模在口语语言理解中起到了非常关键的作用。 经过最近10年的发展,SLU从之前的单独建模已经发展到目前的双向显式联合建模;在单轮、单领域、单意图的SLU已经取得了显著的进步并得到了基本解决,继续在ATIS、SNIPS等经典benchmark上刷分反而会阻碍SLU模型在真实场景下的应用。此外,人机对话方向也越来越受到工业界和学术界的关注。因而,诸如上下文SLU、多意图SLU、跨语言SLU、鲁棒的SLU和基于用户信息的SLU等将会是新的发展前沿,并且如何将SLU模型在真实场景下得到很好的应用将会是未来的研究趋势。 覃立波博士立足于任务型对话系统中的口语语言理解模块,介绍了近些年相关研究工作的发展脉络,并根据目前的发展现状对未来的发展趋势给出了一些探索性问题。报告结束后,覃立波博士与实验室师生就相关工作细节和科研经验展开了热烈讨论。     撰稿:陈轩昂 责任编辑:刘汇丹

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021-07-29T09:51:49+00:00