成都数之联科技股份有限公司 首页 产品 工业AI质检 ADC自动缺陷检测与分类系统 AI-Camera智能检测设备 一站式AI服务训练平台 智慧 RCS 系统(AutoRepair 系统) 基础设施 行数·全链路数据资产管理平台 行明·自助式可视化BI平台 行智·协同式AI全栈开发平台 行易·数字化应用随需搭建平台 UDH大数据平台 方案 智慧工业 YMES良率分析管理系统 智慧治理 智慧审计解决方案 智慧监管解决方案 智慧法治解决方案 信创教育 智慧军事解决方案 智慧教育解决方案 案例 我们 公司简介 公司新闻 加入我们 联系我们 资源下载
近日,数之联算法团队在《Scientific Data》(影响因子:6.87)上发表了一篇题为《A Temporal Knowledge Graph Generation Dataset Supervised Distantly by Large Language Models》的论文,论文第一作者为电子科技大学朱君博士,通讯作者为数之联首席算法官陈端兵,合作作者为数之联傅彦、周俊临。该论文提出了首个文档级时序关系抽取(DocTRE)任务,并构建了高质量的时序知识图谱(TKG)数据集 Tem-DocRED。这一成果标志着数之联在时序知识图谱领域的技术实力和创新能力达到了新的高度,展现了在处理复杂数据集和推动人工智能技术发展方面的卓越能力。特别的,为推动时序知识图谱领域研究,促进TKG推理、问答等任务的发展,Tem-DocRED数据集已公开可复用。论文下载链接为:https://www.nature.com/articles/s41597-025-05062-0.研究背景传统关系抽取(RE)方法主要关注静态三元组(实体-关系-实体),难以刻画现实世界中动态演化的实体关联。为此,数之联算法团队首次提出文档级时序关系抽取(DocTRE)任务,引入时间维度,构建时序四元组(实体1, 关系, 实体2, 时间),系统性解决时序知识图谱(TKG)构建中的两大核心挑战:自动化文档转化能力缺失与高质量时序数据集稀缺。创新的研究方法与数据集构建依托数之联在人工智能与大模型领域的深厚积累,研究团队提出以下创新内容:首次提出文档级时序关系抽取任务:突破传统静态三元组的局限,系统性解决时间维度与事实关系的联合建模问题。创新的数据集构建范式:通过LLMs与关系模式结合,自动生成高质量时序四元组,并通过双重LLM监督机制保障数据可靠性。序列到序列的生成框架:充分发挥LLMs的文本理解与推理能力,实现端到端的时序关系提取,为TKG构建提供新路径。成果价值数据集规模与质量:Tem-DocRED包含超过10,000个四元组,覆盖复杂时序关系,填补了文档级别时序关系数据的空白。通过多轮模型评估和人工校验,数据集的可用性和一致性达到较高水平。框架有效性:基于微调的LLMs(如GLM-4)在四元组生成任务中优于基线模型(如BERT和Span-based方法),尤其在时间戳的推理和长距离上下文建模上表现突出。泛化能力:实验表明,Tem-DocRED可支持多种下游任务(如TKG推理和问答系统),其生成的四元组为时间敏感型应用提供了可靠的基础数据。数之联坚持构建高质量数据集提升AI能力,赋能行业智能化升级。此次成果的发布,不仅展示了公司在构建高质量数据集方面的技术实力,也为时序知识图谱的发展提供了重要的数据基础和方法论支持。未来,数之联将继续致力于推动人工智能技术的创新与应用,为更多领域的智能化发展贡献力量。关于《Scientific Data》《Scientific Data》是 Springer Nature 出版集团旗下的开放获取(OA)期刊,2014 年创刊,中科院分区为综合性期刊2区。期刊涵盖自然科学、医学、工程学和社会科学等多个领域,尤其鼓励跨学科数据整合,主要发表 “数据描述符”(Data Descriptors),即对研究数据集进行详细描述的文章,包括数据收集方法、技术分析以及数据存储信息等,侧重于帮助他人重用数据。