课程 ID: 19332
描述:
话题概述:
企业数据场景中的 AI 落地,并不只是让大模型生成 SQL。真实挑战在于:数据资产规模大、表和指标口径复杂、业务语义分散在文档、系统和专家经验中,数据开发、取数分析、AB 实验、用户洞察、任务治理又分别属于不同工作流。通用大模型即使具备较强的代码和 SQL 生成能力,也很难直接判断哪张表可信、哪个指标口径正确、什么场景应该使用什么分析方法,以及分析结果是否具备业务解释力。
喜马拉雅数据平台在推进数据智能化过程中,希望构建一套可进化的数据智能体 DataClaw,将自然语言问数、数据分析洞察、AB 实验分析、用户洞察、数据开发治理、Panda/XQL 任务诊断等能力统一到一个企业级 Data Agent 体系中。项目的核心目标不是做一个单点聊天机器人,而是建设一套 Data Agent Harness 工程体系:把模型、上下文、工具、Skills、记忆、评测、观测、安全和多端交付组织在一起,让数据智能体真正进入生产环境和数据团队日常工作流。
演讲题纲:
话题亮点:
DataClaw 的建设思路可以概括为五个关键层次。
第一是 Data Agent,作为统一的数据工作入口,承接自然语言问数、取数分析、洞察生成、AB 实验分析、用户洞察、任务诊断和报告生成等场景。
第二是 Data Agent Harness。这里的 Harness 不局限于某个单一代码仓库或运行时模块,而是一套企业级数据智能体的工程化承载框架。它覆盖模型接入、上下文装配、工具调用、Skills 加载、安全边界、会话记忆、流式交互、运行观测、评测回归和多端交付等工程能力,使 Data Agent 从单点 Demo 演进为可控、可扩展、可运营的生产系统,也使传统数据平台能力能够以 Agent 友好的方式被大模型理解和调用。
第三是 Data Context,作为企业数据语义与上下文底座,解决“让 Agent 懂企业数据”的问题。通过元数据增强、语义检索、指标口径、领域知识、质量报告、QueryIntent 等能力,把表结构、业务语义、指标规则、分析经验和治理信号组织成 Agent 可使用的上下文资产。
第四是 Skills,把不同数据工作流沉淀为可加载、可治理、可复用的能力包。围绕 Data Context,我们抽象出 Data Analytics Skill、Experiment Insight Skill、User Insight Skill 和 DataOps Skill,分别服务于取数分析、实验洞察、用户洞察和数据开发治理场景。
第五是 AI Native 数据平台升级路径。通过标准化 API、Agent 工具、CLI、IDE 和自动化脚本等交付形态,将现有的数据平台、数据引擎和数据产品能力封装为大模型可以理解、可以调用、权限可控、过程可观测的 Agent Native 能力,使 DataClaw 不只是一个问答入口,而成为连接数据资产与智能工作流的工程底座。
项目过程中的关键经验是:Prompt 不是企业 AI 落地的全部。真正决定 Data Agent 上限的是上下文资产质量、工具安全边界、技能化复用机制、运行观测能力和持续评测闭环。