《DataClaw：构建可进化的数据智能体》 —— 喜马拉雅 Data Agent Harness 工程实践

课程 ID: 19332

描述:
话题概述: 企业数据场景中的 AI 落地，并不只是让大模型生成 SQL。真实挑战在于：数据资产规模大、表和指标口径复杂、业务语义分散在文档、系统和专家经验中，数据开发、取数分析、AB 实验、用户洞察、任务治理又分别属于不同工作流。通用大模型即使具备较强的代码和 SQL 生成能力，也很难直接判断哪张表可信、哪个指标口径正确、什么场景应该使用什么分析方法，以及分析结果是否具备业务解释力。喜马拉雅数据平台在推进数据智能化过程中，希望构建一套可进化的数据智能体 DataClaw，将自然语言问数、数据分析洞察、AB 实验分析、用户洞察、数据开发治理、Panda/XQL 任务诊断等能力统一到一个企业级 Data Agent 体系中。项目的核心目标不是做一个单点聊天机器人，而是建设一套 Data Agent Harness 工程体系：把模型、上下文、工具、Skills、记忆、评测、观测、安全和多端交付组织在一起，让数据智能体真正进入生产环境和数据团队日常工作流。演讲题纲: 话题亮点： DataClaw 的建设思路可以概括为五个关键层次。第一是 Data Agent，作为统一的数据工作入口，承接自然语言问数、取数分析、洞察生成、AB 实验分析、用户洞察、任务诊断和报告生成等场景。第二是 Data Agent Harness。这里的 Harness 不局限于某个单一代码仓库或运行时模块，而是一套企业级数据智能体的工程化承载框架。它覆盖模型接入、上下文装配、工具调用、Skills 加载、安全边界、会话记忆、流式交互、运行观测、评测回归和多端交付等工程能力，使 Data Agent 从单点 Demo 演进为可控、可扩展、可运营的生产系统，也使传统数据平台能力能够以 Agent 友好的方式被大模型理解和调用。第三是 Data Context，作为企业数据语义与上下文底座，解决“让 Agent 懂企业数据”的问题。通过元数据增强、语义检索、指标口径、领域知识、质量报告、QueryIntent 等能力，把表结构、业务语义、指标规则、分析经验和治理信号组织成 Agent 可使用的上下文资产。第四是 Skills，把不同数据工作流沉淀为可加载、可治理、可复用的能力包。围绕 Data Context，我们抽象出 Data Analytics Skill、Experiment Insight Skill、User Insight Skill 和 DataOps Skill，分别服务于取数分析、实验洞察、用户洞察和数据开发治理场景。第五是 AI Native 数据平台升级路径。通过标准化 API、Agent 工具、CLI、IDE 和自动化脚本等交付形态，将现有的数据平台、数据引擎和数据产品能力封装为大模型可以理解、可以调用、权限可控、过程可观测的 Agent Native 能力，使 DataClaw 不只是一个问答入口，而成为连接数据资产与智能工作流的工程底座。项目过程中的关键经验是：Prompt 不是企业 AI 落地的全部。真正决定 Data Agent 上限的是上下文资产质量、工具安全边界、技能化复用机制、运行观测能力和持续评测闭环。