Data-Centric AI 的智能数据工厂：DataFlow 与 Skills 的工程实践

课程 ID: 19341

描述:
话题概述: 以北大科学语料库项目建设中的实际问题与解决思路为例：面向强推理科学大模型的数据建设需求，该案例目标是构建覆盖数学、物理、化学等学科的高质量 AI4S 语料，为科学推理、知识注入、监督微调和智能体推理提供可靠数据基础。项目过程中遇到的核心挑战是：科学数据来源复杂，包含文献、教材、公式、图表、多模态材料等；不同学科对专业性、逻辑严密性和推导链条的要求很高；仅依靠通用模型或简单检索增强，难以保证数据质量、领域覆盖和可复用处理流程。因此，需要把原本零散的数据采集、解析、清洗、增强、评估流程，升级为可编程、可复现、可扩展的数据治理体系。演讲题纲: 话题亮点：项目以 DataFlow 为核心数据加工框架，将科学语料处理抽象为“算子、Prompt、Pipeline”的组合式流程，像搭建模型结构一样搭建数据处理流水线，实现科学数据的解析、清洗、增强、筛选和评估。进一步地，我们沉淀了 DataFlow-Skills：把常用的数据处理经验、算子选择规则、Pipeline 生成规范、开发诊断流程封装成可复用的 Coding Agent Skills。其核心能力包括：根据任务目标和 JSONL 样本自动规划 DataFlow 算子链并生成可运行 Pipeline；辅助开发新算子、新 Prompt 和新 Pipeline；内置 DataFlow 架构知识库、已知问题诊断和代码规范审查。这样一来，数据治理不再依赖一次性的脚本和人工经验，而是可以通过自然语言需求转化为可执行、可调试、可复用的数据处理流程。