已开源 | 数之联算法团队提出首个文档级时序关系抽取任务,构建高质量时序知识图谱数据集

发表时间:2025-05-08 18:00:00
近日,数之联算法团队在《Scientific Data》(影响因子:6.87)上发表了一篇题为《A Temporal Knowledge Graph Generation Dataset Supervised Distantly by Large Language Models》的论文,论文第一作者为电子科技大学朱君博士,通讯作者为数之联首席算法官陈端兵,合作作者为数之联傅彦、周俊临。

该论文出了首个文档级时序关系抽取(DocTRE)任务,并构建了高质量的时序知识图谱(TKG)数据集 Tem-DocRED。这一成果标志着数之联在时序知识图谱领域的技术实力和创新能力达到了新的高度,展现了在处理复杂数据集和推动人工智能技术发展方面的卓越能力。

图片

特别的,推动时序知识图谱领域研究,促进TKG推理、问答等任务的发展,Tem-DocRED数据集已公开可复用

论文下载链接为:
https://www.nature.com/articles/s41597-025-05062-0.


研究背景
传统关系抽取(RE)方法主要关注静态三元组(实体-关系-实体),难以刻画现实世界中动态演化的实体关联。为此,数之联算法团队首次提出文档级时序关系抽取(DocTRE)任务,引入时间维度,构建时序四元组(实体1, 关系, 实体2, 时间),系统性解决时序知识图谱(TKG)构建中的两大核心挑战:自动化文档转化能力缺失与高质量时序数据集稀缺。


创新的研究方法与数据集构建

依托数之联在人工智能与大模型领域的深厚积累,研究团队提出以下创新内容:

首次提出文档级时序关系抽取任务:突破传统静态三元组的局限,系统性解决时间维度与事实关系的联合建模问题。

创新的数据集构建范式:通过LLMs与关系模式结合,自动生成高质量时序四元组,并通过双重LLM监督机制保障数据可靠性。

序列到序列的生成框架:充分发挥LLMs的文本理解与推理能力,实现端到端的时序关系提取,为TKG构建提供新路径。


成果价值


数据集规模与质量:Tem-DocRED包含超过10,000个四元组,覆盖复杂时序关系,填补了文档级别时序关系数据的空白。通过多轮模型评估和人工校验,数据集的可用性和一致性达到较高水平。

框架有效性:基于微调的LLMs(如GLM-4)在四元组生成任务中优于基线模型(如BERT和Span-based方法),尤其在时间戳的推理和长距离上下文建模上表现突出。

泛化能力:实验表明,Tem-DocRED可支持多种下游任务(如TKG推理和问答系统),其生成的四元组为时间敏感型应用提供了可靠的基础数据。
数之联坚持构建高质量数据集提升AI能力,赋能行业智能化升级。此次成果的发布,不仅展示了公司在构建高质量数据集方面的技术实力,也为时序知识图谱的发展提供了重要的数据基础和方法论支持。未来,数之联将继续致力于推动人工智能技术的创新与应用,为更多领域的智能化发展贡献力量。

关于《Scientific Data》

《Scientific Data》是 Springer Nature 出版集团旗下的开放获取(OA)期刊,2014 年创刊,中科院分区为综合性期刊2区。期刊涵盖自然科学、医学、工程学和社会科学等多个领域,尤其鼓励跨学科数据整合,主要发表 “数据描述符”(Data Descriptors),即对研究数据集进行详细描述的文章,包括数据收集方法、技术分析以及数据存储信息等,侧重于帮助他人重用数据。

一键获取[ 智改数转 ]解决方案

图片展示

产品      |      方案      |      案例      |      公司新闻      |      加入我们      |      联系我们      |      数联智造

 

公司地址:成都市双流区黄甲街道物联一路8号电子科技大学科技园B7/8栋

联系电话:028-86661321

电子邮箱: shuzhilian@unionbigdata.com

 

成都数之联科技股份有限公司 Copyright© 2024, unionbigdata.com. All rights reserved 蜀ICP备13021642号-5

添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了