Latest News 2018-07-10T09:25:16+00:00
1610, 2018

祝贺研究室林鸿宇和陆垚杰荣获2018年国家奖学金

祝贺研究室林鸿宇和陆垚杰荣获2018年国家奖学金 所研究生国家奖学金评审委员会于2018年10月15日组织了公开答辩、评议,最后通过无记名投票表决,我研究室2017级博士林鸿宇同学、2016级硕士陆垚杰同学获得2018年研究生国家奖学金。值得一提的是,这是林鸿宇同学连续第2年获得博士国家奖学金。向两位同学表示祝贺!

2008, 2018

第三届全国知识图谱与语义计算大会在天津召开,实验室论文荣获大会唯一最佳中文论文奖

第三届全国知识图谱与语义计算大会在天津召开,实验室论文荣获大会唯一最佳中文论文奖 2018年8月14日至17日,由中国中文信息学会语言与知识计算专委会主办的第三届全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS2018)在天津滨海新区圆满召开。我实验室安波同学论文荣获大会唯一的最佳中文论文奖。 作为国内自然语言理解领域的顶级盛会,CCKS2018吸引了来自国内各大高校、科研院所以及产业界的超过800人参与。本次大会的主题是“知识计算与语言理解”,会议聚焦于知识图谱及语义计算的相关问题,讨论建模、获取以及利用知识图谱这一外部知识模式的相关技术,解决自然语言处理领域的重要问题,推动人工智能的发展。 CCKS2018延续此前CCKS会议的特色,分为前两天(8月14日至8月15日)的前沿技术讲习班(ATT)以及后两天(8月16日至8月17日)的主会议。 主会议阶段的两天上午分别邀请了国内外的知名学者分享了关于人工智能以及知识图谱的特邀报告。8月16日上午的两个特邀报告分别来自清华大学的张钹院士和来自伦斯勒理工学院的James Hendler教授。张钹院士首先就当前人工智能所面临的问题做出了理性的分析与思考,解释了知识在人工智能发展中的重要性,以及知识与数据相结合的发展前景。James Hendler教授则详述了为了让智能系统更加可读并理解万维网中的信息而建立起的语义网(Semantic Web)的诞生与演变。8月17日上午的两个特邀报告别来自阿里巴巴的玄难副总裁以及来自罗马大学的Roberto Navigli教授。玄难副总裁首先介绍了阿里巴巴的生态系统和技术体系,并结合阿里巴巴生态链的具体应用场景给出了外部先验知识(知识图谱)在处理和增加这些场景方面的重大作用,从产业界的角度给出了知识图谱的未来应用前景。Roberto Navigli教授则介绍了跨语言知识图谱BabelNet的构建过程,并着重阐述了跨语言知识图谱在多种应用场景下了强大作用,在会上还演示了相关的系统演示视频,让人印象深刻。主会议阶段第一天的上午的最后还邀请了国内的优秀青年学者罗列和分析了在顶级会议中知识图谱相关论文的总体情况并介绍了一些优秀的论文。 主会议阶段的两天下午议程十分丰富。第一天下午首先由6篇优秀论文的作者分别做了口头报告。之后会议评测组织者报告了本次会议的评测和获奖系统,最后则由优秀的参评系统做了系统报告。第二天上午的最后时段创造性地让海报作者用30秒的时间介绍自己的系统,效果显著,之后的海报展示环节交流热烈。第二天下午则首先由10位来自产业界的技术人员分享了在产业界知识图谱的应用场景和相关架构。之后的圆桌会议则分别邀请了来自学术界和产业界的各自3人从各自角度阐述了知识图谱的发展与未来,碰撞出的智慧的火花让台下观众受益匪浅。 8月14日至15日的前沿技术讲习班,邀请到了来自加州大学圣巴巴拉分校William Wang副教授、来自阿伯丁大学的Jeff Pan教授、来自皇后大学的朱晓丹教授、来自卡塔尔的计算研究所的preslav nako教授、来自阿里巴巴的张伟老师以及来自科大讯飞AI研究院的刘权老师分享了关于知识图谱的利用与推理,知识图谱建模与知识获取,以及知识图谱的使用分享了前沿的学术思考与技术经验。William Wang副教授做了题为《深度知识图谱推理》的报告,从基于路径和基于嵌入式表示的两个路线介绍了知识图谱推理相关研究,并详细解析各自的优势与特点。Jeff Pan教授分别做了《开放知识图谱的利用与推理》的报告,介绍了当前的一些常见的开放知识图谱并详细分析了使用开放知识图谱进行知识推理的研究思路和优缺点。朱晓丹教授则从自然语言推理和语义组合方面详细介绍了他们实验室的相关工作,并分享了利用使用了外部知识来增强神经自然语言推理的相关工作。Preslav nako 教授则系统梳理了语义关系的发展历程以及关系模式的不同层次的特点,并介绍了抽取语义关系使用的实体或者关系的不同特征表示的优缺点;之后分别介绍了有监督和无监督两种关系抽取的相关技术路线以及基于嵌入式表示的相关方法和研究。张伟老师和刘权老师则从实践的角度具体详细地介绍了特定领域知识图谱的构建与应用,以及语义计算和知识问答的不同层次的不同研究思路和应用场景。 我实验室的老师和同学积极参与本次盛会,提交并被录用了总计3篇论文(录用率28%)及一个自然语言语义解析平台的演示系统。我实验室的安波同学、宋希良同学以及陆垚杰同学各有一篇论文被CCKS2018录用,分别是:《融合结构语义的知识库问答系统》(安波,韩先培,孙乐),《面向新类型人名识别的Data Augmentation方法》(宋希良,韩先培,孙乐)以及《基于语言学扰动的事件检测数据增强方法》(陆垚杰,林鸿宇,韩先培,孙乐)。其中安波同学的论文荣获了最佳中文论文奖!另外我实验室自主构建的自然语言语义解析系统作为演示系统,受到了参会人员的大量关注。      

907, 2018

祝贺研究室林鸿宇、陆垚杰、刘方超3位同学荣获2017-2018学年优秀学生

祝贺研究室林鸿宇、陆垚杰、刘方超3位同学荣获2017-2018学年优秀学生 根据《中国科学院软件研究所优秀学生评选办法》,经所评审小组评审,我研究室2017级博士林鸿宇同学获得“三好标兵”荣誉称号,2018级博士陆垚杰和刘方超同学获得2017-2018“三好学生”荣誉称号。

507, 2018

Four long papers were accepted by ACL2018

本研究室的四篇长文工作被国际顶级会议ACL2018会议录用 本研究室四篇长文被计算语言学领域顶级会议ACL2018录用,涉及的领域包括语义解析、事件抽取、论文自动评分等。 (1)Sequence-to-Action: End-to-End Semantic Graph Generation for Semantic Parsing; (2)Nugget Proposal Networks for Chinese Event Detection; (3)Adaptive Scaling for Sparse Detection in Information Extraction; (4)TDNN: A Two-stage Deep Neural Network for Prompt-independent Automated Essay Scoring

2706, 2018

祝贺研究室陈波博士荣获“中国科学院大学2017-2018学年优秀毕业生”荣誉称号

祝贺研究室陈波博士荣获“中国科学院大学2017-2018学年优秀毕业生”荣誉称号 陈波博士荣获“中国科学院大学2017-2018学年优秀毕业生”荣誉称号. 软件所今年共有毕业生100名,其中博士生27名,硕士生73名。 经软件所学术委员会评定,评选5名优秀博士毕业生和1名优秀硕士毕业生。 我实验室陈波博士荣获“中国科学院大学2017-2018学年优秀毕业生”荣誉称号。  

1606, 2018

研究室安波参加NAACL2018国际会议

研究室安波参加NAACL2018国际会议 本次参加NAACL2018国际会议有一篇长文被会议录用,论文内容是关于使用文本信息来增强知识图谱的表示,应用场景包括知识图谱的推理和补全。本文在主会场进行了海报展示,并与参会的其他研究人员进行深入的讨论,对宣传自己的工作未来工作都有很好的作用。 本次参数参加了两个tutorial,主要是知识图谱的构建和推理、基于深度学习的对话系统。更系统的学习了从信息抽取、知识图谱构建和知识图谱的表示和推理的内容,尤其是参会人员一起讨论了知识图谱的未来方向,对下一步的研究具有很好的指导价值。另外一个基于深度学习的对话系统则全面而深入的了解了对话系统这个方向的主要挑战、研究热点和目前的研究状态。以及如何从业务出发搭建一个基本的对话系统。   该会议的主会议有3天,内容涉及了计算语言学的各个主要研究方向。包括信息抽取、知识表示、深度学习在NLP的应用、问答系统、对话系统等等,具有很高的学习价值。 会议还要请了5个keynote,部分来自学届、部分来自工业界。其中关于认知的研究为计算语言学未来的发展提供了一定的启示作用。对于训练数据的多少也有很深入的讨论。 谷歌、亚马逊等分别就助手机器人和聊天机器人分享了自己的经验,并且做了展示Demo,对于该领域有了更加直观同时也更加深入的认识。 最佳论文环节选出了Emlo作为最佳论文,并且给出了该系统在不同的任务上起到的惊人作用,未来工作肯定可以用到。 会议还包含多个workshop,其中SemEval包含了多个NLP领域的核心评测任务,参会后学习其他研究团队对于这些任务的解决方案,对于自己和团队在未来参加评测或者研发产品都具有指导意义。    

2504, 2018

研究室参加阿里“藏经阁”知识引擎计划

     研究室参加阿里“藏经阁”知识引擎计划 4月21日上午,阿里巴巴联合中科院软件所、清华大学、浙江大学、中国科学院自动化所、苏州大学5所高校发布藏经阁(知识引擎)研究计划。 该计划以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网信息内容表达成更接近人类认知世界的形式,从而使计算机具备类脑推理能力。 同时,阿里还宣布打算用一年时间初步建成首个开放的知识引擎服务平台,服务中小企业。 研究室将围绕整个知识工程生命周期的知识建模、知识获取、知识管理和知识重用4个阶段与阿里巴巴公司及合作的科研院所共同展开相关研究。

1504, 2018

孙乐研究员参与翻译的《自然语言处理综论》出版

     孙乐研究员参与翻译的《自然语言处理综论》出版 孙乐研究员与冯志伟教程合作翻译的《自然语言处理综论》第二版于2018年3月份正式出版。 从本书第一版出版以来,一直好评如潮,被国外许多大学选作自然语言处理或计算语言学的教材,被认为该领域教材的“黄金标准”。本书第一版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书四大特色: 覆盖全面 强调实用 注重评测 语料为本内容简介本书全面论述了自然语言处理技术。本书在第一版的基础上增加了自然语言处理的最新成就,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书共分五个部分。第一部分“词汇的计算机处理”,讲述单词的计算机处理,包括单词切分、单词的形态学、最小编辑距离、词类,以及单词计算机处理的各种算法,包括正则表达式、有限状态自动机、有限状态转录机、N元语法模型、隐马尔可夫模型、最大熵模型等。第二部分“语音的计算机处理”,介绍语音学、语音合成、语音自动识别以及计算音系学。第三部分“句法的计算机处理”,介绍英语的形式语法,讲述句法剖析的主要算法,包括CKY剖析算法、Earley剖析算法、统计剖析,并介绍合一与类型特征结构、Chomsky层级分类、抽吸引理等分析工具。第四部分“语义和语用的计算机处理”,介绍语义的各种表示方法、计算语义学、词汇语义学、计算词汇语义学,并介绍同指、连贯等计算机话语分析问题。第五部分“应用”,讲述信息抽取、问答系统、自动文摘、对话和会话智能代理、机器翻译等自然语言处理的应用技术。本书写作风格深入浅出,实例丰富,引人入胜。本书可作为高等学校自然语言处理或计算语言学的本科生和研究生的教材,也可以作为从事人工智能、自然语言处理等领域的研究人员和技术人员的必备参考。          

904, 2018

祝贺研究室林鸿宇博士和刘泽宇硕士荣获2017年国家奖学金

祝贺研究室林鸿宇博士和刘泽宇硕士荣获2017年国家奖学金 所研究生国家奖学金评审委员会于2017年10月16日组织了公开答辩、评议,最后通过无记名投票表决,我研究室2017级博士林鸿宇同学、205级硕士刘泽宇同学获得2017年研究生国家奖学金。

1501, 2018

自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会在软件所顺利召开

自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会在软件所顺利召开 8月16日,为了促进国内自然语言处理相关研究的发展以及研究者之间的交流,由中国中文信息学会青年工作委员会主办,搜狗公司承办的 “自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会”在中国科学院软件研究所成功举办。来自中科院、北京大学、清华大学、复旦大学、哈工大、澳门大学等境内外高校和搜狗、百度、阿里等企业的科研人员和研究生200余人参加了本次研讨会和论文报告会。 本次会议由中国中文信息学会青年工作委员会执委、中科院软件所韩先培副研究员主持。中国中文信息学会副理事长及秘书长中科院软件所孙乐研究员,青工委主任清华大学刘洋副教授,搜狗公司搜索事业部许静芳总经理出席会议。中国中文信息学会青年工作委员会主任刘洋、搜狗搜索事业部总经理许静芳分别代表主办方和承办方致欢迎辞。 EMNLP是自然语言处理的顶级学术会议,2017年年会将于9月6日至12日在丹麦哥本哈根举行。本次论文报告会从国内被录用的近40篇长文中邀请了18篇论文作者进行提前报告,他们分别来自中科院、北京大学、清华大学、复旦大学、哈工大、澳门大学、哈工大深圳研究生院、南京大学、人民大学、东北大学、南京理工大学、黑龙江大学等多个高校。报告人深入介绍了各自在文本摘要、情感分析、机器翻译、信息抽取、自动问答、表示学习等多个领域的最新研究成果。会议实况经搜狐千帆直播平台向全网直播,4000多人观看了网络直播,众多网友和现场参会者线上线下联动,新的观点和灵感不断被激发、碰撞,会场气氛热烈。    

1501, 2018

中国中文信息学会承办的第53届国际计算语言学年会在北京成功举办

中国中文信息学会承办的第53届国际计算语言学年会在北京成功举办 2015年7月26-31日,由中国中文信息学会承办的第53届国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,ACL)首次在中国大陆召开。本次会议在北京国家会议中心举行,汇集了1200多名自然语言处理领域的国内外知名学者,是一次学术前沿和技术前沿交流研讨的国际学术盛会。 国际计算语言学协会主席Christopher D. Manning教授以Computational linguistics and Deep Learning为题在大会开幕式上做了专题报告。会议特别邀请了来自加州大学伯克利分校(UC Berkeley)的Marti A. Hearst教授和来自伊利诺伊大学厄巴纳-香槟分校(UIUC)的韩家炜教授作特邀报告。本次会议的最佳论文授予了来自慕尼黑大学的AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes和来自都柏林大学圣三一学院的Improving Evaluation of Machine Translation Quality Estimation两篇文章。 在本次会议上,ACL将2015年ACL终身成就奖授予了中国中文信息学会理事长、哈尔滨工业大学李生教授。 ACL年会已有53年历史,是自然语言处理领域最高级别的国际学术会议,每年发表的论文都反映了自然语言处理领域的最新研究进展和学术动向,受到学术界和工业界的广泛重视。

1512, 2017

韩先培获得中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”一等奖

韩先培获得中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”一等奖 2016年12月23日,中国中文信息学会第八次全国会员代表大会暨学会成立35周年学术会议在北京隆重举行,会上颁发了“钱伟长中文信息处理科学技术奖”、中国中文信息学会“终身成就奖”、“汉王青年创新奖”以及中国中文信息学会优秀博士学位论文“拓尔思优秀博士学位论文奖”。软件所中文信息处理研究室韩先培副研究员获得“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。 韩先培多年来一直致力于自然语言理解和知识图谱相关的研究工作。自然语言理解是人工智能和自然语言处理的核心科学问题,在研究和应用领域都具有重要的作用。围绕自然语言理解,韩先培在开放域语义知识获取和知识驱动文本语义分析方面取得了多项研究成果。在国际顶级学术会议如ACL、SIGIR、AAAI、EMNLP、CIKM上发表重要论文30余篇,其中在自然语言处理顶级会议ACL上发表论文7篇,相关系统在国际权威评测SIGHAN 2012中文实体链接任务取得第一名的成绩。 韩先培的论文被同行广泛引用,其论文共获得国内外700余次引用,其中引用数超过100次的论文有三篇。特别是,SIGIR 2011论文在五年内被引用216次,在信息检索领域顶级学术会议SIGIR 近五年来发表的493篇论文中排在第2位,同时Google Scholar将SIGIR 2011和ACL 2011论文分别列在实体链接搜索结果的第1位和第5位。 此外,韩先培积极参与学术服务工作,曾参与北京国际计算语言学协会ACL 2015的组织工作;在中国中文信息学会,担任语言与知识计算专委会委员秘书长,担任青年工作委员会执委,参与并组织了大量的学术活动组织工作。 钱伟长中文信息处理科学技术奖是经科技部批准设立的中文信息处理领域的最高科学技术奖,主要授予该领域在基本方法或关键技术上有原始创新或重大突破,对推动我国中文信息处理事业或行业进步起到重要作用,创造出较大经济效益或社会效益的项目或个人。“汉王青年创新奖”设立于2010年,主要授予在中文信息处理领域做出突出贡献的青年学者。该奖项每两年评选一次。     

907, 2017

研究室参与编写《中文信息处理发展报告2016》

研究室参与编写《中文信息处理发展报告2016》 介绍了中文信息处理的各种技术研究进展呢,阅读本文有利于了解信息处理发展现状,确定自己的研究方向。 内容涵盖: 一、词法、句法、文法等 发展趋势: 1) 深度学习热潮席卷了NLP的各个任务;2)多粒度分词;3)面向非规范文本的分词;4) 分词、新词发现(词语归一化)交互建模; 5)互联网文本分析和领域自适应问题。 二、语义分析 1.  词汇级语义分析: 1)词义消歧;2)词义表示与学习(word embedding) 句子级语义分析: 1)浅层语义分析:基于句法分析的结果;2)深层语义分析 篇章级语义分析:识别文本中的所有篇章结构 目前主流的语义分析方法也是基于统计的方法,该方法以信息论和数理统计为理论基础,以大规模语料库为驱动,通过机器学习技术自动获取语义知识。 发展趋势: 短语/句嵌入的学习。 目前词嵌入已经在自然语言处理领域有了广泛的应用。如何为更大粒度的语言单位(如短语,甚至句子等)学习得到其相应的嵌入表示,已经成为目前研究的一个热点。 基于句子级语义分析的篇章融合 中文篇章分析 非规范文本的语义分析 三、语篇分析 包括 机器翻译、文本摘要、自动会话、机器阅读理解等 四、 语言表示与深度学习 科学问题 语言表示的认知机理:如何构建语言白哦是和知识表示的联系,人工知识库或大规模未标记预料来自动学习语言的表示 跨语种的统一语言表示: 如何为不同语种构建一种统一的语言表示模型,利用不同语言之间的共性,从而提高各个语言的表示能力 不同粒度单位的语言表示:如何构建 一个多粒度文本的联合语义表示模型,解决“一词多义”问题 基于少量观察样本的新词、低频词表示学习 技术方法 词表示:word embedding 的质量非常依赖于上下文窗口大小的选择。通常,大的上下文窗口学到的词嵌入更能反映主题信息,小的上下文窗口学到的词嵌入更能反映词的功能和上下文语义信息。 研究点:1)如何获得高质量词嵌入;2)如何利用已有知识库改进词嵌入模型,并结合知识图谱和未标注预料在同一语义空间中来联合学习知识和词的向量表示。 句子表示:如何有效地才词嵌入通过不同方式的组合得到句子表示,包括 神经词袋模型:词向量的平均 递归神经网络:按照给定外部拓扑(如成分句法树),不断递归得到整个序列的表示。 循环神经网络:将文本序列看作时间序列,不断更新得到整个序列的表示。 卷积神经网络:通过多个卷积层和子采样层,得到一个固定长度的向量。 篇章表示: 一般采用层次化的方法,先得到句子编码,再以句子编码为输入,得到篇章的表示。 循环神经网络非常适合处理文本序列,广泛应用在很多自然语言处理任务中。 五、知识图谱 知识图谱以结构化的形式描述客观世界中的概念、实体间的复杂关系,将互联网的信息表达成更接近人类认知世界的形式,提供一种更好的组织、管理和理解互联网海里信息的能力。 知识图谱与大数据及深度学习一起,已经成为推动人工智能发展的核心驱动力之一。 研究内容 知识表示 的 关键问题是 1) 建立什么样的知识表示形式能够准确地反映客观世界的知识; 2)建立什么样的知识表示可以具备语义表示能力; 3)知识表示如何支持高效知识推理和计算,从而使知识表示具有得到新知识的推理能力。 基于知识图谱的表示学习通过深度学习可以将知识表示成低维连续实值稠密的实值向量空间,有助于实现高效的知识计算. 知识图谱构建:是知识图谱技术最为关键技术之一,信息抽取和语义集成是知识图谱构建的核心技术问题。 知识图谱应用:基于知识的互联网资源融合、语义搜索、问答系统、基于知识的大数据分析和挖掘。 发展趋势 融合符号逻辑和表示学习的知识表示 高精确度大规模知识图谱构建: 如何从分布、异构、有噪音、碎片化的大数据中获得高质量的大规模知识图谱 知识图谱平台技术:如何建立知识图谱构建的平台,提供知识图谱的构建管道技术 基于知识图谱的应用研究: 何进一步应用知识图谱建立知识驱动的自然语言处理研究方法,基于知识的大数据分析和挖掘是非常值得研究的方向。 六、 [...]