2025年9月28日,由四川省人工智能产业链链长办公室、四川省发展改革委指导,成都数之联科技股份有限公司承办的“2025天府人工智能产业生态大会——数据集和语料库赛道对接洽谈会”在成都成功举办。数之联董事长傅彦受邀出席并发表《工业高质量数据集建设实践》主题演讲,围绕数据作为AI发展核心要素的“炼化”路径、产业实践与未来展望进行深度分享。
傅彦以“石油炼化”为喻指出,数据之于大模型,就像石油之于汽车。“原始数据必须经过清洗、标注、对齐、治理等一系列‘炼化’工序,才能转化为高质量数据集,支撑大模型精准学习规律,适应多样化工业场景。”她强调,高质量数据集是工业智能落地的核心引擎,也是当前推动制造业数字化转型的关键基础。
在实践层面,傅彦系统介绍了数之联围绕智能质检、智能问答、AI培训等场景所构建的多模态数据集体系。通过“实景采集+公开数据+AIGC生成”的方式,数之联持续提升数据多样性与覆盖能力,并构建了从数据标注、质量评估到安全运营的全流程治理体系。截至目前,公司已完成文本数据32TB、图像数据29.4TB的原始资源积累,建成国产化率超90%的数据集管理平台,并形成规模达文本2.1TB、图像25.2TB的高质量图文预训练集,为工业大模型研发提供了坚实基座。
傅彦以液晶面板缺陷检测、家电外观质检、金属包装印刷检测等场景为例,展示了高质量数据集在实际生产中的效能。例如,在某易拉罐生产项目中,数之联通过高流速视觉算法实现每分钟1800罐的实时检测,直通率达99.9%,显著降低千倍级质量风险;在某家电巨头全球多地产线中,系统实现漏检率低于0.1%、过检率低于5%的高精度水平。目前,数之联在面板行业AI质检市场覆盖率超80%,累计部署模型超500个,并在家电行业率先实现AI-AOI全流程检测应用。
傅彦表示,面对当前企业普遍存在的高质量语料匮乏、数据治理能力不足等挑战,数之联将持续推进“数据要素×工业制造”的深度融合,通过构建开放协同的数据平台与可信数据空间,推动“数据可用不可见”的安全共享机制落地,助力工业智能从单点应用走向系统化生态建设。
展望未来,数之联将继续深化高质量数据集建设与行业赋能,以数据根基推动智能制造高质量发展。
尊敬的各位领导、各位企业家朋友: 在这个秋高气爽的美好时节,我们迎来了2025天府人工智能产业生态大会的隆重召开。大家齐聚一堂,共同探讨人工智能时代下的高质量数据建设这一重要议题。作为本次会议的承办方,我谨代表数之联对各位的到来表示热烈欢迎,也期待通过今天的交流碰撞出更多科技火花,共谋产业发展新路径。 当前,数字经济已成为推动经济高质量发展的重要引擎,数字化转型正引领新一轮科技革命和产业变革。国有企业数字化转型升级更是未来国民经济发展的重要抓手。近期,国务院出台《关于深入实施“人工智能+”行动的意见》,围绕科学研究、产业发展等六大主题推动人工智能与经济社会深度融合。同时,四川省发改委印发《四川省“数据要素×”重点工作方案》,聚焦科技创新、工业制造等12个领域,加快数据资源开发利用,释放数据要素价值。这一系列政策举措,都为推动国民经济高质量发展注入了强劲动能。 人工智能发展的三大核心要素是数据、模型与算力。其中,大数据是基础,大模型是核心,大算力是关键,而真实业务场景则是落地保障。通过数据、算法、算力的有机结合,结合对业务场景的深入理解,我们可以实现数据的搜索智能、认知智能、生成智能与交付智能,逐步完成从“机器智能”到“人类智能”的模拟进化。因此,数据是实现人工智能的关键因素,今天我们将聚焦的高质量数据集建设,正是未来人工智能发展的重要方向。 事实上,高质量数据集的概念早在大模型兴起之前便已存在。例如机器学习领域的经典数据集——鸢尾花数据集,早在1936年就已整理发布。该数据集包含山鸢尾、杂色鸢尾和维吉尼亚鸢尾三类,共150个样本,以花萼和花瓣的长度、宽度作为分类特征,为特征选择与降维技术研究提供了重要参考。另外,在图像识别领域的ImageNet视觉识别数据集,由李飞飞团队创建,至2009年已经包含超过1400万张高分辨率图像,涵盖2万多个类别,每张图像标注了类别标签,以及超100万张图像甚至还包含物体边界框的标注信息。这个数据集无论在质量还是数量上,在科学界都是空前的。ImageNet 这个庞大的图片数据库免费开放使用,让全球所有致力于计算机视觉识别的团队,都能从这个数据库中获取数据和试题,来训练和测试自家算法的准确率。可以说,ImageNet 的出现极大推动了计算机视觉领域的发展。 从数据模态来看,可分为单模态(如文本、图像、音频、IoT数据)和多模态(如图文、视频、思维链数据)。从流程阶段来看,则包括预训练数据集、指令微调数据集和评测数据集。我们可以将大模型训练类比为训练鹦鹉说话:预训练阶段如同让鹦鹉收听各类节目,广泛学习;指令微调阶段则通过优质对话范例教其规范应答;评测阶段则通过问题回复评分检验其学习效果。 高质量数据集建设涵盖数据设计、采集、治理、标注、质检与运营等环节,类似于石油的“勘采—粗炼—精炼—质检—运营”流程,推动原始数据资源向智能应用跃升。具体包括: 在泛半导体行业,尽管自动化程度较高,但质量检测仍依赖大量人工,成本高、效率低、质量不稳定。为此,我们基于现有AOI设备,开发AI缺陷检测系统;若无AOI设备,则提供自主生产的AI-AOI检测方案,以降低人力成本,提升检测效率与质量。进一步,我们融合生产过程中的人、机、料、法、环、测、时等多维数据,运用大数据与机器学习技术,实现缺陷根因追溯与良率提升。 智能制造领域数据门类繁多、专业性强,AI应用场景丰富。人工智能应以数据为中心。高质量数据集融合人类经验与隐含知识,能显著缩短行业大模型建模周期,提升模型精度与泛化能力。例如在工业质检中,可构建缺陷检测、良率分析等模型;在智能问答中,可搭建工艺知识库与问题搜索引擎;在员工培训中,可开发模拟环境与技能数据库。 数据是数字化转型的基石。当前工业领域高质量数据集匮乏,严重制约了大模型等AI技术的落地。我们通过实景拍摄、公开采集与AIGC生成等方式,构建了覆盖半导体、集成电路、显示面板、家电、外观包装等行业的文本、图像、视频多模态数据集。 在实践案例方面,我们的ADC系统在液晶面板质检中实现自动分类、判级与MAP分析,大幅降低人力成本,提升判图效率与准确性。在某家电巨头机内检项目中,覆盖国内外60余条产线,漏检率低于0.1%,检测效率达8秒以内,实现数据在多工厂的复用。在某易拉罐生产企业,我们开发的高流速彩印缺陷识别算法直通率达99.9%,每分钟将完成1800个易拉罐的检测,有效避免千倍级质量风险。 目前,我们在面板行业智能缺陷检测市占率超80%,部署模型超500个,覆盖最全技术制程与场景;在家电行业率先实现AI AOI检测,覆盖80%以上电视厂家。在2024年全国知识图谱与语义计算大会上,我们基于高质量数据集对千问大模型进行微调,荣获全国第二名及技术创新奖。这些行业领先的实践与荣誉,正是高质量数据集作为关键基石所催生的实实在在的成果。 当前企业普遍面临高质量语料匮乏与数据治理失衡两大挑战。高质量数据集建设与运营已成为数据要素市场的“供给侧基础”。为应对模型瓶颈向数据瓶颈的转变,需构建可信数据空间,打造“可用不可见”的安全共享环境,形成“提质—集市—一体—众创”四位一体的建设运营体系。通过搭建“高质量数据集综合服务平台”,推动“一平台+五主体+N场景”模式落地。