Data-Centric AI 的智能数据工厂:DataFlow 与 Skills 的工程实践

课程 ID: 19341

描述:
话题概述: 以北大科学语料库项目建设中的实际问题与解决思路为例:面向强推理科学大模型的数据建设需求,该案例目标是构建覆盖数学、物理、化学等学科的高质量 AI4S 语料,为科学推理、知识注入、监督微调和智能体推理提供可靠数据基础。项目过程中遇到的核心挑战是:科学数据来源复杂,包含文献、教材、公式、图表、多模态材料等;不同学科对专业性、逻辑严密性和推导链条的要求很高;仅依靠通用模型或简单检索增强,难以保证数据质量、领域覆盖和可复用处理流程。因此,需要把原本零散的数据采集、解析、清洗、增强、评估流程,升级为可编程、可复现、可扩展的数据治理体系。 演讲题纲: 话题亮点: 项目以 DataFlow 为核心数据加工框架,将科学语料处理抽象为“算子、Prompt、Pipeline”的组合式流程,像搭建模型结构一样搭建数据处理流水线,实现科学数据的解析、清洗、增强、筛选和评估。进一步地,我们沉淀了 DataFlow-Skills:把常用的数据处理经验、算子选择规则、Pipeline 生成规范、开发诊断流程封装成可复用的 Coding Agent Skills。其核心能力包括:根据任务目标和 JSONL 样本自动规划 DataFlow 算子链并生成可运行 Pipeline;辅助开发新算子、新 Prompt 和新 Pipeline;内置 DataFlow 架构知识库、已知问题诊断和代码规范审查。这样一来,数据治理不再依赖一次性的脚本和人工经验,而是可以通过自然语言需求转化为可执行、可调试、可复用的数据处理流程。