root

/root

About root

This author has not yet filled in any details.
So far root has created 136 blog entries.

清华大学计算机系刘华平副教授到访实验室并作报告

2021-10-18T16:41:45+00:00

清华大学计算机系刘华平副教授到访实验室并作报告 2021年11月14日下午两点,应实验室孙乐研究员的邀请,清华大学计算机系刘华平副教授到访实验室,并进行了关于“多模态机器人主动感知”的报告。 刘华平老师是清华大学计算机科学与技术系博士生导师,中国人工智能学会理事,国家杰出青年科学基金获得者。主要研究方向为智能机器人的多模态感知、学习与控制技术。担任IEEE Trans. on Cybernetics、IEEE Trans. on Automation Science and Engineering等国际期刊的Associate Editor。担任机器人领域知名国际会议ICRA和IROS的Associate Editor,Robotics Sciences and Systems(RSS)的领域主席(2018-2019,2021)和程序委员会委员(2016),IJCAI和AAAI的程序委员会委员。获IEEE 仪器与测量协会(IMS)颁发的Andy Chi Best Paper Award(2017)。 智能机器人区别于工业自动化装备的一个重要特点在于其感知的主动性。主动感知是智能机器人获取环境信息的重要方式。在主动感知模式下,机器人可以通过控制技术提升感知效能,并能进一步充分挖掘多模态信息的关联。此外,机器人在控制过程中不断与环境交互,得到的信息用于增强学习能力,实现机器人的长期学习。本次报告重点介绍了机器人多模态主动感知技术的发展现状、相关的研究进展,以及利用模强化学习技术实现的多态主动感知系统。 刘华平老师首先整体介绍了多模态感知下的各个领域,以及多模态主动感知研究的重要性和挑战:1) 视-听-触觉多模态数据具有不同的表示形式和感知范围。2) 视-听-触觉多模态数据不具有“一一对应”的配对特性。3)“传感”、“感知”和“动作”回路的高度非线性耦合。 随后刘华平老师详细介绍其团队在了不同模态中的主动感知研究与进展。在视觉领域,结合计算机视觉技术研究了主动目标检测;在语言领域,结合自然语言处理技术,研究了主动场景理解,该技术在真实场景下的问答以及盲人辅助等场景都有重要的应用;在触觉领域,研究了视觉引导的主动触觉识别;在听觉领域,进行了主动听觉识别的前沿研究。 此外,刘华平老师团队在多模态融合感知方面也取得了诸多进展,例如针对视-听-触异构多模态的“弱匹配”特性,建立了机器人多模态目标识别的联合稀疏编码方法。在跨模态检索,跨模态生成,跨模态持续学习等领域也都有优秀的成果产出。 刘华平老师的精彩报告引发了实验室师生的认真思考和热烈讨论,大家就触觉传感器的现状和发展挑战,以及运动和感知的关系等方面进行了进一步的深度交流讨论。   撰稿:曹博希 责任编辑:刘汇丹

清华大学计算机系刘华平副教授到访实验室并作报告 2021-10-18T16:41:45+00:00

国家语委重大科研项目“中华经典诗词知识图谱构建技术研究”通过成果鉴定

2021-09-03T13:45:03+00:00

国家语委重大科研项目“中华经典诗词知识图谱构建技术研究”通过成果鉴定 9月1日下午,国家语委科研规划领导小组办公室组织专家在北京对中国科学院软件研究所承担的“中华经典诗词知识图谱构建技术研究”项目进行了科技成果鉴定。专家组由北京理工大学黄河燕教授、清华大学李涓子教授、北京大学王厚峰教授、北京语言大学杨尔弘教授以及中科院自动化所赵军研究员组成。教育部语言文字信息管理司田立新司长、语言文字应用管理司孟庆瑜二级巡视员出席会议并讲话。 会上,中科院软件所武斌副所长代表软件所发表致辞,首先感谢了教育部、国家语委的指导和大力支持。他表示,中文信息处理方向是软件所的重要方向之一,项目涉及中华优秀传统文化的保护和传承,研究所一直给予高度重视,未来也将持续支持研发团队产出更高质量的研究成果。 武斌副所长致辞 项目负责人、中文信息处理实验室孙乐研究员详细介绍了项目的研究内容与成果特色。项目构建了多层次中华诗词知识本体体系,为描述中华诗词知识提供了基础;构建了大规模多侧面的中华诗词知识图谱,涵盖6大类共33.7万实体,组织关联了百万量级的诗词相关知识;基于图谱资源搭建了多维度中华诗词展示平台,提供全景化辅助理解、诗词多脉络展示、诗词交互式学习等多种功能。随后,实验室副主任韩先培研究员现场演示了项目平台的特色模块,其中多个功能吸引了与会专家和领导参与互动。 孙乐研究员介绍项目成果   韩先培研究员演示平台功能 与会专家从技术路线、研究重点、成果形式等不同角度提出了意见和建议。经讨论后,专家组认为项目成果可为培育青少年的诗词文化素养、提升大众的诗词文化水平、弘扬中华优秀传统文化提供资源和技术支撑。同时项目成果研制难度大、创新性强,具有重要的学术价值和实用价值。鉴定委员会一致同意该项目通过成果鉴定。 与会专家提问及讨论 随后,孟庆瑜二级巡视员发表讲话。他充分肯定了项目成果的重要性,当前党和国家正大力推广普及国家通用语言文字,本项目构建的中华经典诗词知识图谱资源和展示平台,将能在提升全民族的语言文字应用能力和语言文化素养方面发挥作用,对于提高推普质量具有重要意义。 孟庆瑜二级巡视员发表讲话 最后由田立新司长做总结讲话,她指出党的十九届五中全会《建议》提出要传承弘扬中华优秀传统文化,本项目以前沿知识图谱技术为支撑,对中华经典诗词加以整合、关联和展示,具备良好的技术优势、实用价值和推广意义,是推动中华优秀传统文化创造性转化、创新性发展的又一具体实践。后续可将研究成果应用于中小学教育教学实践和学习型社会,更深度化、智能化、生动化地展现中华传统文化的风采。 田立新司长发表总结讲话   撰稿:张伟莉 责任编辑:刘汇丹

国家语委重大科研项目“中华经典诗词知识图谱构建技术研究”通过成果鉴定 2021-09-03T13:45:03+00:00

中文信息处理实验室三篇论文被EMNLP 2021主会录用

2021-08-31T15:23:06+00:00

中文信息处理实验室三篇论文被EMNLP 2021主会录用   日前,自然语言处理领域的顶级会议 EMNLP 2021陆续向作者发送录用通知,中国科学院软件研究所中文信息处理实验室三篇论文被EMNLP 2021主会录用。 下面是论文列表及介绍: 论文一 标题:Progressively Adversarial Learning for Bootstrapping: A Case Study on Entity Set Expansion 作者:Lingyong Yan, Xianpei Han and Le Sun 录用类型:长文 简介:自举(Bootstrapping)是一种迭代地利用已抽取信息拓展出新信息的信息抽取技术。然而,由于新信息缺少监督信号,自举模型容易拓展出错误的信息,造成语义漂移。为此,本文提出了一种基于渐进式对抗的自举模型训练方法。具体的,(1)本文将自举模型建模为生成器,并使用额外的判别器判定抽取信息是否正确;(2)本文将自举模型和判别器进行联合的渐进式对抗学习,以相互增强,使得自举模型抽取出的新信息是和已抽取信息难以区分的高质量信息,提高抽取性能。在实体集合拓展数据集上的实验结果表明,基于该方法训练的自举模型能够取得显著的性能优势。 论文二 标题:Fine-grained Entity Typing via Label Reasoning 作者:Qing Liu, Hongyu Lin, Xinyan Xiao, Xianpei Han, Le Sun and Hua Wu 录用类型:长文 简介:大规模标签集合给超细粒度实体识别任务带来两个主要挑战:建模标签依存关系以及预测长尾标签。本文将传统的多标签分类问题转化为标签集合生成问题,并针对以上两个挑战提出了标签推理网络。该标签推理网络包含了两种标签推理机制:(1)基于序列到集合生成的标签演绎推理(Deductive Reasoning)。(2)基于二部属性图的标签归纳推理(Inductive Reasoning)。标签演绎推理机制使得模型能够自动学习和建模标签之间的显式依存关系,标签归纳推理机制使得模型能够自动学习和建模标签之间的隐式依存关系。两种推理机制相结合让模型能够不借助外部知识,端到端地学习标签依存关系并利用该依存关系进行标签预测,同时能够有效缓解长尾标签预测问题。 论文三 标题:Honey or Poison? Solving the Trigger Curse in Few-shot Event Detection via Causal Intervention 作者:Jiawei Chen, Hongyu Lin, Xianpei Han and Le Sun 录用类型:短文 简介:事件检测遭受“触发词诅咒”:对触发词进行过拟合会损害模型的泛化能力,但欠拟合却会损害模型的性能。这一问题在小样本(few-shot)场景下更为严重。为此,本文提出利用因果干预方法解决这一问题。首先,本文将少样本事件检测构建结构因果模型,从中,我们发现,触发词是上下文和预测结果的混杂因子(confounder),这导致过去的模型倾向于过拟合触发词。为了解决这一问题,我们提出对上下文进行因果干预,利用后门调整方法消除触发词对上下文的影响。实验结果表明,本文提出的方法能够有效提升少样本事件检测的性能。 据悉,EMNLP 2021(The 2021 Conference on Empirical Methods in Natural Language Processing)将于2021年11月7日至11日以在线会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,是CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。   撰稿:刘汇丹、颜令勇、刘庆、陈家慰 责任编辑:刘汇丹

中文信息处理实验室三篇论文被EMNLP 2021主会录用 2021-08-31T15:23:06+00:00

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告

2021-07-29T09:51:49+00:00

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021年7月28日下午,应实验室林鸿宇博士后的邀请,哈尔滨工业大学的覃立波博士到访实验室,并为实验室师生作了题为“任务型对话系统中口语语言理解综述——前沿与挑战”的学术报告。 覃立波博士是哈尔滨工业大学SCIR在读博士生,导师车万翔教授,博士期间以第一作者或者共同第一作者发表CCF A/B会议/期刊14篇。研究方向为任务型对话系统与自然语言处理,曾获三年国家奖学金,春晖创新一等奖学金,之江实验室奖学金,字节跳动奖学金(中国10人),百度奖学金(全球10人),以及入选全球首份AI华人新星百强榜单,IJCAI-SAIA YES学术新星等榜单。同时,他热衷于开源分享和社区建设,促进NLPer在国内的交流,创办了机器学习算法与自然语言处理社区,突破50w+订阅人数和超过2千万阅读量。 报告开始,覃立波博士首先介绍了任务型对话系统的整体结构,接着对其中的自然语言理解模块进行了深入的讲解,然后对口语语言理解(SLU)领域近10年的发展进行一个回顾和总结,最后根据当前发展现状给出了一些研究问题和挑战。 口语语言理解是任务型对话系统中最核心的组件,近些年来的发展也是非常迅速的。根据对意图识别(intent detection)和槽位填充(slot filling)两个子任务的建模方式和交互关系,口语语言理解模型大致可以分为以下几个发展阶段:独立模型(2013-2015),隐式联合建模(2016-2017),显式联合建模—单向信息流动(2018-2019),显式联合建模—双向信息流动(2019-2021)。 从独立建模到隐式联合建模,再从显式单向信息流动到显式双向信息流动的发展趋势,反映了在口语语言理解中意图识别和槽位填充的两个子任务的密切关系,两者的联合交互建模在口语语言理解中起到了非常关键的作用。 经过最近10年的发展,SLU从之前的单独建模已经发展到目前的双向显式联合建模;在单轮、单领域、单意图的SLU已经取得了显著的进步并得到了基本解决,继续在ATIS、SNIPS等经典benchmark上刷分反而会阻碍SLU模型在真实场景下的应用。此外,人机对话方向也越来越受到工业界和学术界的关注。因而,诸如上下文SLU、多意图SLU、跨语言SLU、鲁棒的SLU和基于用户信息的SLU等将会是新的发展前沿,并且如何将SLU模型在真实场景下得到很好的应用将会是未来的研究趋势。 覃立波博士立足于任务型对话系统中的口语语言理解模块,介绍了近些年相关研究工作的发展脉络,并根据目前的发展现状对未来的发展趋势给出了一些探索性问题。报告结束后,覃立波博士与实验室师生就相关工作细节和科研经验展开了热烈讨论。     撰稿:陈轩昂 责任编辑:刘汇丹

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021-07-29T09:51:49+00:00

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告

2021-07-20T16:36:43+00:00

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告 2021年7月20日上午,应实验室孙乐研究员和韩先培研究员的邀请,西湖大学特聘研究员张岳老师到访实验室,为实验室师生做了题为“Challenges in Machine Learning in NLP”的学术报告。在本次报告中,张岳老师向中文信息的师生们分享了一些自然语言处理瓶颈的思考,并从模型学习到的特征、解决问题的过程等方面分享一些探索工作。  近年来,自然语言处理的范式从统计模型发展到神经网络模型,并逐步形成了大规模预训练(pretraining)-任务微调(finetuning)的新范式。张老师首先为大家梳理了近年自然语言处理范式的发展过程,并分析了现有预训练加微调范式的几个不足:1)跨领域鲁棒性低、2)对输入扰动敏感、3)缺乏常识知识,以及4)对逻辑与数值理解能力有限。 现有不少研究认为预训练语言模型可以存储知识,但是预训练语言模型是否可以作为下游任务的知识库仍是亟待回答的问题。为回答这一问题,张老师介绍了他们在ACL2021的最新工作:Can Generative Pre-trained Language Models Serve as Knowledge Bases for Closed-book QA? 该工作探究了生成式语言模型在经典的微调范式下进行闭卷式问答(Closed-book QA)的能力。张老师首先向大家介绍了针对预训练模型从文本中获取及应用知识的能力所设计的一系列实验。通过大量的实验分析,张老师认为:1)现有预训练语言模型通过预训练过程记忆知识的能力较弱,2)即使预训练语言模型模型记住了一部分知识,也难以利用这些内在知识来回答问题。 近年来,尽管预训练模型在许多任务中取得了优异的性能,但是人们对这类模型的鲁棒性及原始数据中存在的Spurious Patterns依赖提出了重要的问题。针对这些泛化性挑战,目前的解决方案是通过人工反馈及众包工作来构建反事实数据进行数据增强,并以此减少模型对原始数据中的Spurious Patterns的依赖。但是,这些方法通常成本高昂且耗时。针对以上不足,张老师团队提出了一种自动生成反事实数据的方法。该方法首先使用基于上下文的采样敏感性的解耦合方法来自动识别因果词,并使用掩码语言模型来提高自动生成反事实数据的可读性和语法正确性,最后使用编辑距离自动评估器评估生成过程中的最小编辑及流利性,保证自动生成反事实数据的质量。最终实验证明,该方法生成的数据可以提高神经网络分类器的鲁棒性,并优于现有最优的人工反馈(Human-in-the-loop)系统。 报告结束后,张岳老师与实验室师生就预训练语言模型记忆能力和学习范式等问题展开了热烈的讨论。张老师的报告内容充实,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生在此次报告及与张老师的讨论过程中获益良多。     撰稿:陆垚杰 责任编辑:刘汇丹

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告 2021-07-20T16:36:43+00:00

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖

2021-07-17T18:33:02+00:00

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖 近期,第44届国际计算机学会信息检索大会(The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2021)于2021年7月11日-7月15日以线上会议形式顺利召开。ACM SIGIR是人工智能领域智能信息检索(Information Retrieval,IR)方向最权威的国际会议,会议专注于文本推荐、检索、语义计算等领域的最新研究成果。此次SIGIR 2021大会共收到了720篇长论文和526篇短论文,其中有151篇长论文和145篇短论文被录用,录用率分别约为21%和27%。 在14日凌晨,本次SIGIR 2021大会公布了最佳论文、最佳短论文、时间检验奖等多个奖项。其中,最佳短论文奖由中文信息处理实验室研究生获得。获奖论文题为《Contextualized Offline Relevance Weighting for Efficient and Effective Neural Retrieval》,作者依次为博士生陈轩昂、何苯教授、回恺博士、博士生王怡然、孙乐研究员、孙应飞教授。 图1:SIGIR 2021最佳短论文获奖证书 论文简介:在线搜索延迟(online search latency)是在检索应用中部署大规模预训练语言模型(如BERT)的一个主要瓶颈。我们受到文档扩展技术(基于transformer模型)最新成果的启发,提出了一种以大量伪查询(pseudo-query)和近邻文档(neighbour document)的离线相关性评分换取在线效率的神经检索框架。具体而言,我们利用强大的BERT排序模型对语料中每个文档生成的伪查询与其对应收集的近邻文档之间进行了离线相关性评分,并且在线检索时只需进行输入查询和种子文档(seed document)的伪查询之间的匹配,以此提高检索的效率。那么,在在线检索阶段,传统的查询-文档匹配(query-document matching)将被简化为成本更低的查询-伪查询匹配(query to pseudo-query matching),并根据预先计算好的近邻文档快速召回出相应的文档排序列表并返回给用户。在MS MARCO检索数据集上的实验结果表明,我们的方法在在线效率和有效性方面都获得了很好的效果。 论文地址:https://dl.acm.org/doi/10.1145/3404835.3463073   撰稿:何苯 责任编辑:刘汇丹

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖 2021-07-17T18:33:02+00:00

北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告

2021-06-11T12:09:06+00:00

北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告 2021年6月11日上午,应实验室孙乐研究员和韩先培研究员的邀请,北京理工大学毛先领副教授到访实验室,为实验室师生做了题为“Similarity-preserved Hashing: Diffusing from Images Retrieval to Other Scenarios”的学术报告。 毛先领老师现任北京理工大学计算机学院副教授、博士生导师。主要研究深度学习、机器学习与网络数据挖掘,具体研究领域涉及Information Extraction、 Question Answering and Dialogue和Learn to Hashing等方向。目前担任中国计算机学会中文信息技术专委会委员,中文信息学会青工委委员以及语言与知识专委会委员;已在SIGIR、AAAI、IJCAI、TOIS、 TKDE、CIKM、EMNLP、COLING等国际期刊会议上发表30余篇论文;分别获NLPCC 2019和ICKG 2020最佳论文奖;部分成果获中国电子学会科技进步一等奖(2018)和浙江省科技进步三等奖(2018);正在承担或参与国家重点研发计划子课题、国家自然科学基金重点项目和面上项目等多项;主持开发了首个多模态学术搜索引擎HammerScholar(www.hammerscholar.net)。 近年来,互联网的数据总量呈现爆炸式增长态势。极大的数据规模对数据的存储效率和检索速度提出了更高的要求,给针对中小规模数据集构建的传统机器学习算法带来了挑战和机遇。最近邻搜索(NN)是许多大规模机器学习和数据检索任务的基础组成部分。在许多任务中,近似最近邻(ANN)已经足够获得令人满意的性能,例如搜索引擎中的图像检索任务等。 相似度保持的哈希算法存储成本低、检索速度快,是大规模检索系统中比较流行的方法之一。相似度保持指的是将数据点转换为哈希码之后,哈希码之间的相似度能够代替原始数据点的相似度计算,从而提高检索速度。 目前的相似度保持哈希算法可分为数据依赖的和数据独立的算法,数据独立的算法具有更强的可扩展性,而数据依赖的算法可以获得更高的性能。数据独立的相似度保持哈希算法的核心是随机映射(Random Projection)。通过对数据在向量空间进行多次的线性划分,确定各数据点的哈希码,从而保证了相似的数据点具有相似的哈希码(LSH算法)。数据依赖的相似度保持哈希算法的核心是寻找监督信息,包括数据本身的标签信息和数据点之间隐含的语义结构信息。相似度保持哈希算法可以用于在超大分类空间中对分类器进行加速、跨模态检索和文本语义表示等领域。 毛先领老师首先回顾了哈希算法的基础,然后分别针对数据独立的和数据依赖的相似度保持哈希算法进行了介绍,并介绍了相似性保持哈希在图像检索等领域中的应用,最后总结了哈希算法潜在的应用方向。报告结束后,毛先领老师与实验室师生就算法的应用等问题展开了热烈讨论。 撰稿:边宁 责任编辑:刘汇丹

北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告 2021-06-11T12:09:06+00:00

中文信息处理实验室六篇长文被ACL2021主会录用

2021-05-08T15:52:21+00:00

中文信息处理实验室六篇长文被ACL2021主会录用 日前,自然语言处理领域的顶级会议 ACL 2021陆续向作者发送录用通知,中国科学院软件研究所中文信息处理实验室六篇长文被主会录用。 下面是论文列表及介绍: 论文一 标题:TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction 作者:Yaojie Lu, Hongyu Lin, Jin Xu, Xianpei Han, Jialong Tang, Annan Li, Le Sun, Meng Liao, Shaoyi Chen 录用类型:长文 简介:我们提出一个序列到结构的生成范式—Text2Event,该方式可以通过文本-事件记录的粗粒度标注数据进行模型学习,直接从纯文本序列中提取结构化事件记录。具体而言,我们设计了一种用于事件抽取的序列到结构生成网络,并在推理过程中使用受限解码算法注入事件框架知识。此外,我们还设计了一种基于课程学习的训练算法帮助模型从预训练语言模型中迁移知识。实验结果表明,在有监督和迁移学习的设定下,我们所提出的方法可以仅使用记录级别标注的情况下达到与最优模型的可比性能。 论文二 标题:Element Intervention for Open Relation Extraction 作者:Fangchao Liu, Lingyong Yan, Hongyu Lin, Xianpei Han, Le Sun 录用类型:长文 简介:开放关系抽取任务在深度学习模型的推动下有了长足发展,但近期的相关工作表明,深度学习模型容易受关系数据集中存在的伪相关线索干扰,从而导致模型性能不稳定。为此,我们从因果结构模型的角度对开放关系抽取的过程进行建模,利用因果介入的方式,分别提出了针对实体对和上下文的介入方法,在T-REx的两个无监督关系抽取数据集上取得了目前最好的性能。 论文三 标题:From Discourse to Narrative: Knowledge Projection for Event Relation Extraction 作者:Jialong Tang, Hongyu Lin, Meng Liao, Yaojie Lu, Xianpei Han, Le Sun, Weijian Xie, Jin Xu 录用类型:长文 简介: 本工作设计了一个从语篇到事件的知识映射范式,充分利用语篇知识和事件知识之间的内在关联。具体的,本工作挖掘了:1)语篇文本和事件文本存在相似的词法和句法结构;2)语篇语义和事件语义蕴含可类推的语义关系;3)语篇关系和事件关系共享相同的粗粒度分类标准;并分别设计了词级别,语义级别和粗粒度分类级别的三个知识映射模块。内部实验表明,本工作提出的知识映射范式能够发现大量有价值的隐式事件关系,相较于从零开始训练的模型以及简单的迁移学习等框架有稳定的准确率提升。同时,外部实验表明,丰富了隐式事件关系的事件知识图谱能够更有效地提升下游自然语言理解任务。 论文四 标题:From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding 作者:Shan Wu, Bo Chen, Chunlei [...]

中文信息处理实验室六篇长文被ACL2021主会录用 2021-05-08T15:52:21+00:00

春意浓浓,寄情山水——记中文信息处理实验室春游

2021-04-16T11:43:00+00:00

春意浓浓,寄情山水——记中文信息处理实验室春游 智者乐水,仁者乐山。2021年4月11日,中文信息处理实验室部分职工及学生共同来到黑龙潭风景区,放松心情。 黑龙潭位于北京市密云区石城镇鹿皮关北面的一条全长4公里,水位落差220米的峡谷里,有春花、秋月、平沙、落雁、曲、叠、沉、悬潭等十八个名潭,千姿百态,各领风骚。 爬山对于人的体力和毅力都是极大的考验,但是实验室一行人不畏艰险、勇攀高峰。大家沿着盘山栈道,欣赏着涓涓瀑布流入清澈见底的石潭,感受着攀登陡峭山路的艰难困苦,终于在中午时分登上了黑龙潭的顶峰。 一时间湖光山色尽收眼底,就好似科研攻坚路漫漫,志在巅峰不辞遥。   山顶的温度确实比山脚低很多,但是大家围坐一团互相分享食物、交流的温馨画面顿时驱散了寒意。傍晚,实验室一行人在农家小院的饭菜香味中,结束了一天的行程。 通过这次春游活动,大家在欣赏祖国的美好河山的同时也体会到科研路上应坚持不懈,勇攀高峰。最后,中文信息处理实验室将继续不忘初心,奋勇前进。 撰稿:张文凯 责任编辑:刘汇丹

春意浓浓,寄情山水——记中文信息处理实验室春游 2021-04-16T11:43:00+00:00

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告

2021-04-21T14:45:48+00:00

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021年4月13日下午,应实验室孙乐研究员和韩先培研究员的邀请,复旦大学张奇教授到访实验室,为实验室师生做了题为“模型鲁棒性分析与评测”的学术报告。 张奇老师现任复旦大学计算机科学技术学院教授、博士生导师,主要研究方向是自然语言处理,信息检索和数据密集型计算,共发表学术论文70余篇。 近年来,随着深度学习以及预训练方法的发展,深度学习模型在几乎全部自然语言处理任务中都取得了非常好的效果,甚至在阅读理解等多项任务上取得了超越人类的准确性。然而在实际应用中,这些模型的效果却大打折扣。近年来许多研究工作表明,深度神经网络模型在处理掺杂了微小扰动的样本时,其预测效果就会出现大幅度下降。模型鲁棒性的研究也因此受到越来越多的关注。在本次报告中,张奇老师针对模型的鲁棒性、可解释性以及如何评估模型的鲁棒性三个方面进行了讲解。 尽管目前已有一些针对NLP任务的模型鲁棒性工作,但它们大多只针对单个NLP任务,且只有少量的数据变形方法,缺乏系统性的工具集合。针对这一问题,张老师课题组展开了大规模的鲁棒性评测工作,开发了面向自然语言处理的多语言鲁棒性评测平台TextFlint。 利用 TextFlint,张老师课题组对分词、词性标注、句法分析、命名实体识别等自然语言处理任务的约100个模型进行了复现和实验。实验结果显示,现有算法在新测评数据集上的结果都较原始测评结果有较大幅度下降。从以上结果可以看出,目前绝大多数模型的鲁棒性都亟待提升。 张老师从鲁棒性出发,介绍了课题组的研究工作,并对未来NLP领域的发展进行展望。报告结束后,张奇老师与实验室师生就自然语言处理领域未来发展和科研经验展开了热烈讨论。 撰稿:王怡然、刘方超 责任编辑:刘汇丹

复旦大学张奇教授应邀到访中文信息处理实验室并作学术报告 2021-04-21T14:45:48+00:00