中国科学院软件研究所存储与信息检索研究组SIR(Storage & Information Retrieval Laboraory)多年来一直从事信息检索和自然语言处理领域的研究工作,先后参与了“九五”国家科技攻关重大项目、863重点项目和自然科学基金等研究项目,在国内外期刊和重要国际会议发表相关论文四十多篇。当前的研究方向包括:个性化文本信息检索、统计机器辅助翻译、跨语言信息检索、面向查询的文本摘要,中文拼音输入法等.
主要研究方向:1997年本课题组成员参加了SEARCH97中文信息检索平台国际合作项目的研发热播任务;自2000年起持续参加了五届NTCIR国际中文信息检索和英中跨语言信息检索的评测任务;03年起开始参与TREC-国际信息检索评测,曾在04年TREC-13中的高精度文本检索国际评测任务中获得第一名; 参加了04、05和06年的DUC文本摘要的国际评测;负责组织和实施了国内的2003、2004和2005年的863信息检索评测和文本分类评测。目前在研自然科学基金1项,863项目1项。
(2)自然语言处理早期的研究工作与汉字编码有关,随后开展了中文分词、辅助翻译等研究; 01年863重点项目“智能化中文信息处理平台”(牵头单位,与北京大学、清华大学、南京大学、国家语委语用所合作),建设了一系列大规模基础资源库,包括:汉语基本标注语料库、英汉双语语料库、汉语句法树库、语义知识库等06年分词系统和命名体识别系统参与了SIGHAN组织的国际评测;06年统计机器翻译系统参与了美国标准化局(NIST)举办的MT评测,参与组织了国内统计机器翻译研讨会.09年将组织全国机器翻译研讨会。目前在研863项目1项。