root

/root

About root

This author has not yet filled in any details.
So far root has created 178 blog entries.

孙乐研究员应邀在软件所学术年会做特邀报告

2020-10-15T12:09:01+00:00

孙乐研究员应邀在软件所学术年会做特邀报告,其中实验室2个海报评为优秀海报奖 9月21日,中国科学院软件研究所2020年度学术年会在软件所举办。本次会议采用了现场和线上直播相结合的方式进行,软件所所长赵琛、学术委员会主任林惠民院士以及所内外专家学者共240余人参加了会议。大会开幕式由田丰研究员主持。 赵琛所长首先对软件所学术委员会、大会组委会的辛勤付出以及特邀报告人为年会带来的精彩报告表示感谢;随后的报告环节包括上午的两场特邀报告和下午的三场学术报告。实验室孙乐研究员应邀为此次大会作了题为“认知启发的自然语言理解”的特邀报告。 本次大会共征集到来自研究所科研成果87份,由大会组委会及各实验室/中心择优选出74份成果以海报形式公开展出、8份成果作大会学术报告。同时,大会选出35份代表性论文进行视频介绍,经过组委会及公众两轮投票最终选出了10份学术年会优秀海报。 其中实验室的2份海报评为优秀海报奖,具体的获奖信息如下: (1)一种简单易用的语义解析平台,完成人:安波,陈波,韩先培,孙乐 (2)用于实体集合拓展的端到端自举网络,完成人:颜令勇,韩先培,何苯,孙乐    

孙乐研究员应邀在软件所学术年会做特邀报告 2020-10-15T12:09:01+00:00

实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖

2020-10-15T10:15:07+00:00

中文信息处理实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖 近日,中国科学院公布了2020年度中国科学院院长奖评审结果,中国科学院软件研究所中文信息处理实验室2015级硕博连读生林鸿宇荣获“中国科学院院长特别奖”,其指导教师孙乐研究员荣获 “中国科学院优秀导师奖”。 林鸿宇,2015年进入软件所学习,2017年转为博士生,主要从事自然语言处理方向的研究。曾参与国家自然科学基金重点项目、国家重点研发计划等重大国家科研任务以及阿里、百度、腾讯等国内外知名企业科技研发任务。该生与合作者一起,在自然语言处理领域国际顶级会议ACL以及EMNLP上发表学术论文十余篇,论文被美国华盛顿大学、德国达姆施塔特工业大学、谷歌、MSRA等国内外知名高校企业学者引用。在信息抽取领域,该生提出了一套全新的序列到组块信息抽取框架,并在多个信息抽取任务上给出了当前国际上最好的结果。在知识抽取领域,该生提出的异构知识推理方法作为该领域的基本方法之一,被该领域相关综述以及国际知名课程多次引用。在学期间,该生还获得了研究生国家奖学金(2017年度和2018年度)、朱李月华奖学金(2019年度)、中国科学院大学三好学生标兵等荣誉称号。 中国科学院院长奖学金设立于1989年,每年评选一次,旨在激励研究生勤奋学习,创新进取,发现和奖励优秀年轻人才,促进我国科学事业的发展。中国科学院院长奖学金分为特别奖和优秀奖,是中科院研究生奖学金中含金量最高的奖项之一,今年的特别奖全院仅评选出80名。

实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖 2020-10-15T10:15:07+00:00

实验室多名研究生获2020年度中科院嘉奖

2020-07-24T10:06:07+00:00

实验室多名研究生获2020年度中科院嘉奖 根据《中国科学院软件研究所优秀学生评选办法》,经个人申请,各研究生培养小组初评和推荐,所评审小组评审,实验室多名研究生获2020年度中科院嘉奖。 2017级博士林鸿宇荣获“优秀毕业生”荣誉称号(全所5人) 2015级博士付成荣获“三好学生标兵”荣誉称号(全所5人) 2017级博士聂浩和2018级博士唐家龙荣获“三好学生”荣誉称号    

实验室多名研究生获2020年度中科院嘉奖 2020-07-24T10:06:07+00:00

中文信息处理实验室学术指导委员会正式成立

2020-01-13T15:25:21+00:00

中文信息处理实验室学术指导委员会正式成立 2020年1月12日,中国科学院软件研究所中文信息处理实验室学术指导委员会成立会议在北京成功召开。中国科学院软件研究所所长赵琛研究员致欢迎辞,并为学术指导委员会委员颁发聘书。实验室学术指导委员由三位专家组成:中国科学院计算技术研究所研究员、中国中文信息学会前理事长倪光南院士,中国电子信息产业集团有限公司首席科学家、中国中文信息学会理事长方滨兴院士,哈尔滨工业大学前党委书记、中国中文信息学会名誉理事长李生教授。 实验室主任孙乐研究员向各位专家汇报了实验室学术方向。孙乐研究员首先介绍了实验室目前的科研项目和人才团队,重点阐述了实验室围绕知识驱动的自然语言理解(K-NLU)这一学术方向,特别是在知识获取、知识融合及语义理解等方面面临的挑战和研究进展,最后就实验室发展向各位专家提出了一系列请教的问题。韩先培研究员演示了实验室研发的知识图谱资源、诗词平台和冬奥项目问答系统。 在听取了实验室学术方向汇报后,三位资深专家分别发言,从实验室学术方向规划、科研项目选择、人才队伍持续发展、成果落地及学生培养等多个方面对实验室工作进行了悉心指导,提出了许多宝贵意见和建议,为实验室今后发展指明了方向。        

中文信息处理实验室学术指导委员会正式成立 2020-01-13T15:25:21+00:00

南京理工大学夏睿教授应邀做学术报告

2020-01-13T14:04:40+00:00

南京理工大学夏睿教授应邀做学术报告 2020年01月10日上午,应实验室孙乐研究员和韩先培研究员的邀请,南京理工大学计算机学院夏睿教授到访实验室,为实验室师生做了题为“文本情绪检测与原因抽取”的学术报告。 夏睿老师的报告聚焦于文本情绪分析研究中情绪原因抽取任务,其目标是抽取文本中某些情绪表达背后的潜在原因。学术界目前采用了包括规则方法,传统机器学习方法和深度神经网络在内的技术来解决这些任务。针对当前研究中存在的问题,夏睿老师首先介绍了两种新的情绪原因抽取模型,并在此基础上提出了一项新的任务——<情绪-原因>对抽取,进行同步的情绪预测与原因挖掘,在情绪原因分析基准语料库上的实验证明了任务的可行性和方法的有效性。 首先,夏睿老师简单为实验室的老师和同学们介绍了情绪原因抽取任务是一个子句级的分类任务,并通过一个简单易懂的例子为大家说明了现有方法存在的问题:没有充分考虑情绪原因在文档中的分布规律。通过对数据的仔细分析以及任务的深入理解,夏睿老师的团队提出:1)子句与情感描述句的相对位置是一个很强的先验知识,离情感描述句越近的子句包含情感原因的概率越高;2)在一篇短文档中,情感原因往往只有1个或者两个。根据以上发现,夏老师为实验室师生介绍了他们发表在AAAI2019和IJCAI2019的两篇工作:From Independent Prediction to Reordered Prediction: Integrating Relative Position and Global Label Information to Emotion Cause Identification和RTHN: A RNN-Transformer Hierarchical Network for Emotion Cause Extraction。前者通过对句子的重排序让模型从最有可能的子句开始考虑(也即从相对位置最小的子句开始)是否为原因子句,并通过一个预测向量记录当前所有已经考虑过的子句的预测结果。在每一次子句预测的过程中都需要考虑到现在已有的预测结果。该方法充分利用了情绪原因抽取任务的特点,最终实验证明该方法大大提升了模型性能。后者则是对前者工作的进一步探究,得益于Transformer的提出,self-attention的架构很好的满足了情绪原因预测不同子句之间需要充分交互的需求。该方法利用Transformer架构,在编码层引入相对位置编码,并用self-attention充分融合不同子句的信息,再通过预测层的一个全局再预测层进一步提升了抽取性能。 随后,夏睿老师深入分析了情绪原因检测任务存在的几个不足:1)需要提前给定情绪表达子句,这意味着应用时需要先进行情绪检测,大大限制了原因检测任务的适用范围;2)只能够检测一个文档中的一个情绪及其相关的原因,拓展到多情绪表达时需要拆解为多个实例。针对以上不足,夏睿老师介绍了他们团队在ACL2019上的Outstanding Paper:Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts。该文章提出了一个新的任务范式:即给定一个文档,直接抽取出其中蕴含的所有情绪-原因二元组。该范式很好的解决了原任务定义中存在的几个不足。随后,该文章还提出了一个抽取-过滤的两阶段抽取框架。在提出的框架下,文章还尝试了多种不同的模型抽取模型,并用大量的实验证明了该任务与该方法的可行性和有效性。 报告结束后,夏睿老师与实验室师生进行了热烈的互动,和大家探讨了情绪检测以及情绪原因检测方向未来的工作和心理学上对情绪的一些研究。夏老师的报告内容充实,信息量非常大,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生获益良多。 责任编辑:马龙龙 编辑:唐家龙          

南京理工大学夏睿教授应邀做学术报告 2020-01-13T14:04:40+00:00

大阪大学褚晨翚博士应邀做学术报告

2019-12-25T15:42:42+00:00

大阪大学褚晨翚博士应邀做学术报告 2019年12月24日下午,应实验室孙乐研究员和韩先培研究员邀请,大阪大学褚晨翚博士到访实验室,为实验室师生作了题为“从多语言到多模态处理”的学术报告。 褚晨翚博士的报告主要聚焦于近年来极为热门的跨语言及跨模态相关的研究。在报告中,褚博士主要介绍了其课题组近期发表在顶级刊物上的三个科研成果,内容涉及多语言机器翻译、视觉问答复述以及基于知识的视觉问答等重要方向。 在多语言机器翻译上,褚博士提出了一种全新的三步骤微调学习方案,大幅度地提升了多语言机器翻译模型的性能。 在视觉问答复述上,褚博士的课题组率先提出了在视觉问答中需要考虑训练以及测试中的复述现象,提出了一个全新的视觉复述识别任务,并对该任务进行了系统性的研究。 在基于知识的视觉问答上,褚博士的课题组构造了一个全新的视觉问答数据,该数据需要综合各种不同的背景知识进行推理,从而能够很好地衡量模型基于知识推理的能力。 报告结束后,褚博士与实验室师生进行了热烈的互动,并对多模态学习的未来发展方向进行了展望。褚博士凭借多年来跨语言学习以及多模态学习领域的深厚积累,为大家带来非常具有启发意义的报告,使得大家获益良多。   责任编辑:马龙龙 编辑:林鸿宇      

大阪大学褚晨翚博士应邀做学术报告 2019-12-25T15:42:42+00:00

浙江大学丁鼐研究员应邀做学术报告

2019-12-12T17:01:23+00:00

浙江大学丁鼐研究员应邀做学术报告 2019年12月12日下午,应实验室孙乐研究员和韩先培研究员邀请,浙江大学生物医学工程与仪器科学学院丁鼐研究员,为实验室师生作了题为“层级语言结构的认知神经加工”的学术报告。 丁鼐老师首先通过一系列实验向大家介绍了大脑如何编码语音中不同层级的语言单元——比如音节、词、短语和语句。这些实验主要建模语言特征与脑信号之间的关系,实验结果显示不同时间尺度的神经振荡表征不同大小的语言单元,这也说明了大脑构建了多层级的语言表征。 随后丁鼐老师介绍了注意力如何影响大脑对不同大小语言单元的编码。实验发现高级语言结构加工更依赖于注意力,而且句子聆听过程中的注意焦点可以调节大脑响应。 报告结束后,实验室老师和多位同学与丁鼐老师针对人与计算机进行阅读理解时注意力的差异、大脑中词汇表征形式等问题进行了深入交流。 责任编辑:马龙龙 编辑:陆垚杰    

浙江大学丁鼐研究员应邀做学术报告 2019-12-12T17:01:23+00:00

阿里达摩院陈博兴博士应邀做学术报告

2019-12-02T09:48:18+00:00

阿里达摩院陈博兴博士应邀做学术报告 2019年11月29日下午,应实验室孙乐研究员和韩先培研究员邀请,阿里巴巴达摩院机器智能技术实验室陈博兴博士到访实验室,为实验室师生作了题为“语音翻译的技术及其应用”的学术报告。 陈老师的报告主要介绍了阿里巴巴集团近年来在语音翻译方面的相关工作。从主要挑战、技术策略以及实际应用等多个方面介绍了阿里巴巴公司在语音翻译方面的研究及落地情况。 首先,陈老师简单回顾了在语音翻译方面的两个主要的技术路线:级联式以及端到端的方法。虽然近年来端到端的方法得到的广泛的关注,但因其对于数据量的要求较高,阿里巴巴公司目前仍然采用级联式的语音翻译方案。 接下来,陈老师总结了在级联式语音翻译中的主要挑战:糟糕的翻译输入(主要来自于语音错误、断句错误、不通顺、非正式语言),缺少相关的标注语料(缺少非正式语言的平行语料等)以及在MT任务上的一些传统挑战。 针对上述的一些重要挑战,陈老师分别详细地介绍了阿里巴巴公司在级联式方法的翻译输入以及翻译过程上的一些相关工作。    比如在语音识别错误纠正上,特别是中文的人称代词(他/她/它)上的纠正工作。 使用noisy training加入Bert fine-tuning手段的Disfluency Detection。 由于语音识别结果存在口语化的情况,为了将其转为书面形式,陈老师团队采用的基于规则和序列到序列两种方案来进行Inverse text normalization。 由于现实中的大量标注语料都是正式文本而缺少非正式的文本语料,为了能够得到更多的非正式文本,使用的领域内的单语言语料构造的非正式文本平行语料。 陈老师进一步介绍了使用code-switching训练方法并利用多标签的占位符信息进行有约束的机器翻译,同时介绍了该方法可以更好地帮助阿里巴巴避免国际业务的纠纷。 最后,陈老师总结了在级联式语音翻译系统中,级联系统的每一个模块都可以被提升,在语音翻译中的大部分问题都可以看作是序列到序列的问题。通过针对级联式语音翻译任务的主要挑战的多个层面的改进,阿里巴巴公司的语音翻译模块的性能得到了较为显著的提升。 报告结束后,陈老师与实验室师生进行了热烈的互动,探讨了针对语音翻译系统的几个重要问题进行了探讨。陈老师还通过他的亲身经历,分享了在高校、研究所以及企业三个不同工作环境下的感悟,让大家颇多受益。 编辑:颜令勇 责任编辑:马龙龙

阿里达摩院陈博兴博士应邀做学术报告 2019-12-02T09:48:18+00:00

复旦大学张奇教授应邀做学术报告

2019-11-19T18:00:47+00:00

复旦大学张奇教授应邀做学术报告 2019年11月18日下午,应实验室孙乐研究员和韩先培研究员邀请,复旦大学计算机学院张奇教授到访实验室,为实验室师生作了题为“搜索引擎中的智能问答”的学术报告。 张老师的报告聚焦于近些年在学术界和工业界都备受关注的智能问答方向。张老师首先介绍了近些年搜索引擎发展的趋势,指出了智能问答技术在移动互联网时代的重要性。随即,张老师比较了近些年在学术界火热的SQuAD数据集和工业界实际应用场景下的区别,相比于SQuAD评测,工业界实际场景中存在文档种类更多,质量差异大,文档更长,且不一定存在正确答案等问题,使得真实场景中的智能问答难度更大,更具挑战性。 为了解决智能问答中存在的这些问题,张老师将解决方案分为三大类:1)基于社区的问题回答;2)基于知识图谱的问题回答;3)机器阅读理解。张老师着重介绍了第一和第三这两大类方案的主要方法和最新工作。 基于社区的问题回答,可以当成语义匹配问题来建模。现阶段互联网的问答平台如百度知道、搜狗问问、知乎等都已积累了丰富的问题和答案资源。当用户有新的问题咨询时,可以直接在已有问题中匹配到相似问题,返回对应的已有答案。现有的语义匹配模型可以分为两大类:一是基于句子表示的方法;二是基于交互关系的方法。 在实际问答场景中,许多问题所包含信息较少,但其对应答案中却包含可以解释和区分问题的信息。因此,张老师等在SIGIR2019发表的工作利用自适应多注意力机制,融合答案和问题信息,提高了语义匹配的性能。 尽管基于社区的问题问答在近些年取得了极大的进展,但是依然存在各种精度和召回损失,难以应对社区问答文本中存在的各种情况。因此,引入基于阅读理解的问题问答是十分必要的。 基于阅读理解的问题问答,主要思路是根据所提问题,在文档集中选取相关候选文档,再从候选文档集中抽取出能够回答问题的短语。近些年许多阅读理解模型被提出,如BiDAF、DrQA等。在介绍了阅读理解模型基本框架后,张老师又介绍了近些年的研究进展,如为解决文档中长距离依赖问题,引入了多层级的attention机制的HM-QRNN模型。同时,针对深度学习难解释的问题,张老师等在AAAI2020提出了大规模的中文阅读理解数据集,数据中包含给出答案的依据信息,使得模型在给出答案的同时能够提供对应的依据。除此之外,张老师也介绍了组内最近的开源工具包SMRCToolkit。 最后,张老师总结了智能问答当前面临的一些重要挑战:如何利用知识和常识,如何进行推理,如何快速低成本进行领域切换,如何构造有效的置信度机制等。 报告结束后,张老师与实验室师生进行了热烈的互动,探讨了智能问答的现状,以及工业界当前实际面临的问题。张老师凭借多年来在学术界和工业界的深厚学识和经验,为大家带来了一场生动,具有启发意义的报告,使得大家获益良多。 责任编辑:马龙龙 编辑:刘方超        

复旦大学张奇教授应邀做学术报告 2019-11-19T18:00:47+00:00

中文信息处理实验室师生参加EMNLP-IJCNLP2019

2019-11-18T09:11:30+00:00

中文信息处理实验室师生参加EMNLP-IJCNLP2019 2019年11月3日至7日,由ACL SIGDAT(语言学数据特殊兴趣小组)主办的EMNLP-IJCNLP 2019(2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing)在中国香港成功举行。中国科学院软件研究所中文信息处理实验室孙乐研究员、安波副研究员以及博士生林鸿宇、颜令勇参加了本次会议。 EMNLP是自然语言处理领域的顶级国际会议,覆盖了语言分析、信息抽取、信息检索、自动问答、情感分析和观点挖掘、文摘和文本生成、文本分类和挖掘、机器翻译、语义解析等众多研究方向。   参会师生合影 本次会议共收到2876篇投稿,接收论文683篇,接受率23.7%。实验室共有三项工作被会议录用,包括: 1) GEANN: Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition,作者包括林鸿宇、陆垚杰、韩先培、孙乐等,探讨命名实体识别问题。 2) Learning to Bootstrap for Entity Set Expansion,作者包括颜令勇、韩先培、孙乐、何苯,提出了一种用于有效实体集扩展算法。 3) EUSP: An Easy-to-Use Semantic Parsing PlatForm,作者包括安波、陈波、韩先培、孙乐,提出了一种自然语言解析平台。 11月3日晚间,孙乐研究员受邀出席有华为公司主办的“HUAWEI Night-EMNLP 2019”活动并发表了精彩的演讲,本次活动其他受邀发表演讲的嘉宾还有爱丁堡大学信息学院教授、ACL终身成就奖获得者Mark Steedman以及,香港中文大学黄锦辉教授。 孙乐研究员在“华为之夜”发表演讲 孙乐研究员与Mark Steedman教授、黄锦辉教授合影 在本次ACL会议上,参会的师生就上述被录用论文做了海报报告和系统演示,并与自然语言处理领域的国内外研究人员进行了深入的交流。 博士生林鸿宇做Poster报告 博士生颜令勇做Poster报告 安波做系统展示报告 责任编辑:马龙龙 编辑:安波      

中文信息处理实验室师生参加EMNLP-IJCNLP2019 2019-11-18T09:11:30+00:00