中科院软件所中文信息处理实验室获EDBT最佳论文奖亚军
中科院软件所中文信息处理实验室获EDBT最佳论文奖亚军 近日,数据库领域重要国际学术会议 EDBT 2025(The 28th International Conference on Extending Database Technology,CORE A & CCF-B类会议)在西班牙巴塞罗那圆满落幕。中国科学院软件研究所中文信息处理实验室论文《DBCopilot: Natural Language Querying over Massive Databases via Schema Routing》荣获最佳研究论文奖亚军(Runner-Up for Best Research Paper Award)。该论文第一作者为博士生王天舒,通讯作者为林鸿宇副研究员和韩先培研究员。 EDBT评奖委员会评价该论文道:“在大型机构和组织中使用自然语言查询关系型数据库面临数据库模式(database schema)的海量、复杂和多样化挑战。针对上述挑战,论文创新性的将任务分为两部分:模式路由(schema routing),用于识别合适的数据库和表格;以及SQL 生成(SQL generation),用于将自然语言问题转换为SQL查询语句。论文为这两个步骤都提出了创新性解决方案,并验证了这些方法在各项基准上带来的持续改进。” 成果介绍:论文提出了大小模型协同合作的 DBCopilot [...]
北京市自然科学基金-小米联合基金重点项目开题及进展研讨会顺利召开
北京市自然科学基金-小米联合基金重点项目开题及进展研讨会顺利召开 2024年12月17日,北京市自然科学基金-小米联合基金重点项目“大语言模型知识的表征、学习、记忆和注入机制分析与验证”开题及进展研讨会在中国科学院软件研究所顺利举行。 研讨会特邀北京理工大学教授黄河燕、小米集团研究员王斌、北京理工大学教授邬霞、中国科学院信息工程研究所研究员陈恺和中国人民大学教授赵鑫、小米公益基金会副秘书长高文隽、小米大模型负责人栾剑、小米技术委技术合作高级经理丁倩到会指导,中国科学院软件研究所科技处处长王熙博及项目组成员出席本次会议。 中国科学院软件研究所科技处处长王熙博对与会的专家表示热烈欢迎,感谢他们年末百忙之中莅临指导。 项目负责人孙乐研究员汇报了项目的整体情况及进展,从科学问题与研究目标、研究内容与技术方案、预期成果与考核指标以及总体进展与工作计划等多个方面进行汇报。接着,各课题负责人依次汇报了课题的研究内容、进展和技术方案。各位课题负责人深入介绍了项目在知识探测、知识体系化评估和大模型优化等方面的技术挑战与创新方案。专家组成员深入讨论了项目的整体技术方案和研究方向,并对知识表征、学习、记忆及注入机制等关键技术难点进行了充分质询。专家组一致认为,项目研究目标明确,团队基础良好,期待研究成果能够在大模型知识机制理论、方法和实践中产生重要影响。 小米集团代表对项目未来工作进行了指导,小米大模型负责人栾剑从实际应用角度为项目提出了建设性意见,并期待进一步推动研究成果更好地与实际需求对接。小米公益基金会副秘书长高文隽表示,将为课题研究提供组织支持,助力课题组推进研究进展,搭建交流平台,促进学术与产业界的深入交流。
中文信息处理实验室多篇论文被 AAAI 与 COLING 录用
中文信息处理实验室多篇论文被 AAAI 与 COLING 录用 近日,中文信息处理实验室多项大模型领域研究成果被国际顶级会议 AAAI 2025 与 COLING 2025 录用,相关成果涉及大模型代码生成评测基准、大模型检索增强、大模型指令微调和大模型应用等方向。以下是相关被录用成果的简要介绍。 成果一:DomainEval: 一个自动构建的多领域代码生成基准 论文标题:DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation 论文作者:Qiming Zhu*, Jialun Cao*, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, [...]
中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用
中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用 近日,中文信息处理实验室多项大模型领域研究成果被国际顶级会议 NeurIPS 2024 与 EMNLP 2024 录用,相关成果涉及大模型位置向量机制、大模型检索、大模型应用等方向。以下是相关被录用成果的简要介绍。 成果一 自检索:基于单一大语言模型的端到端信息检索 论文标题:Self-Retrieval: End-to-End Information Retrieval with One Large Language Model 论文作者:Qiaoyu Tang*, Jiawei Chen*, Zhuoqun Li, Bowen Yu, Yaojie Lu, Cheng Fu, [...]
爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告
爱丁堡大学Jeff Z. Pan教授应邀为实验室进行学术报告 9月25日上午,应实验室孙乐研究员的邀请,爱丁堡大学终身讲席教授、华为爱丁堡知识图谱实验室主任Jeff Z. Pan教授为我们带来了题为“Large Language Models Meet Knowledge Graphs: A New Journey for Knowledge Representation”的精彩学术报告。 Jeff Z. Pan教授是爱丁堡大学的终身讲席教授,同时担任华为爱丁堡知识图谱实验室主任和华为英国首席搜索科学家。他在知识表示、语义技术、人工智能推理、自然语言理解等领域拥有丰富的研究经验。Pan教授曾主导多个国际科研项目,并在艾伦·图灵研究院担任知识图谱研究主席。 本次报告中,Pan教授介绍了大语言模型在知识图谱构建与应用中的最新进展。他指出,大语言模型的出现为知识图谱领域带来了全新机遇,尤其在显性知识和参数化知识的混合表示方面。尽管大语言模型有望通过较少的训练数据构建知识图谱,但其面临的挑战依然不容忽视。主要挑战包括知识编辑问题、长尾知识覆盖不足等。例如,在长尾知识覆盖中表现出不足,知识编辑重复训练效率低下,且可能影响整体知识表示的准确性。针对这些问题,Pan教授指出外部知识的融合对于大语言模型的支撑至关重要,并从文本、知识图谱、数据库Text-to-SQL三个方面,讨论了如何通过外部知识弥补这些不足。 报告结束后,实验室师生积极参与讨论,围绕模型反馈的训练上界、知识编辑的泛化能力、以及如何在不影响语言理解的前提下进行文本到SQL的训练展开了深入的交流。
中文信息处理实验室12篇论文被ACL2024录用
中文信息处理实验室12篇论文被ACL2024录用 近日,中文信息处理实验室12 项大模型领域研究成果被国际顶级会议ACL2024录用,相关成果涉及大模型知识机制、大模型价值观对齐、大模型智能规划、大模型评估、大模型检索等方向。以下是相关被录用成果的简要介绍。 成果一:沉默的螺旋:大模型如何影响信息检索? 论文标题:Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering 论文作者:Xiaoyang Chen, Ben He, Hongyu Lin, Xianpei Han, Tianshu Wang, Boxi Cao, [...]