在近期举办的StarRocks Summit 2024峰会上,腾讯游戏数据团队精心培育的数据品牌“Deltaverse”首次亮相,并隆重推出了其首个数据产品——智能数据助手“UData”。在峰会现场,腾讯游戏数据的技术领军人物、资深专家工程师刘岩,发表了题为《AI时代的湖仓数据体系建设》的演讲,深入分享了腾讯游戏在“AI+湖仓”领域的实战经验,以及UData如何助力腾讯游戏业务大幅提升数据工作效率。
刘岩在演讲中详细介绍了UData这一创新产品。作为一款基于大语言模型技术和湖仓一体架构的问答式智能AI数据助手,UData以新一代AI数据资产体系为支撑,使得数据资产能够被AI充分理解和高效利用。它不仅能够显著提升业务需求到数据交付的准确率,还为用户提供了自然语言交互的便捷方式,使用户能够轻松查询、探索、分析和可视化数据。
据刘岩透露,UData已在腾讯游戏内部成功应用于超过80个业务,其SQL代码编写效率提升了惊人的300%。在数据交付准确率方面,UData的一次性准确率高达89%,充分满足了实际业务场景的需求。这一显著成效的背后,是腾讯游戏数据团队对“Data+AI”体系的深入探索和实践。
UData的产品界面简洁直观,用户可以通过自然语言与UData进行交互,提出数据需求并获取准确的数据结果。这一创新的产品设计,极大地降低了数据工作的复杂性和难度,提升了工作效率。
刘岩指出,腾讯游戏每年有数万个数据挖掘和数据提取类需求,这些需求往往需要面对数万甚至数十万张表。要让AI能够理解这些表,并以人类水平的准确率进行数据挖掘,是满足实际业务场景需求的关键。腾讯游戏数据团队一直在探索如何让AI能力更好地赋能数据工作,让“Data+AI”成为企业的核心竞争力。UData正是腾讯游戏数据团队内部的最佳实践,它成功解决了构建“Data+AI”体系的关键问题。
在提升AI交付准确率方面,腾讯游戏数据团队发现,AI写SQL的准确率不高往往不是因为大模型能力不足,而是因为AI对数据需求和数据资产的理解存在歧义。针对这一痛点,UData的技术路线重点放在了需求构造和资产建设这两个方向上。通过定义AI和人都能理解的需求标准,以及打造基于“AI驱动的数据资产体系”,UData能够显著提升AI的准确率。
在需求构造方面,UData通过工程化的方式将复杂需求分解成简单的子需求,降低AI生成难度,并通过组合子需求的方式生成最终结果。这一流程确保了数据交付的稳定性和可控性。例如,当用户提出一个复杂的数据需求时,UData会将其分拆为多个子需求,分别计算并生成相应的SQL,最后将多个SQL结果合并生成最终的SQL。
在资产建设方面,UData打造了新一代AI数据资产体系,包括行业知识、指标、维度、特征、元数据等语义层建模规范。这一体系能够建立从业务需求、行业知识、数据结构之间的资产纽带,确保资产能被AI理解和使用。通过引入领域模型和Agent多智体架构,UData能够更好地释放AI能力,提升数据工作效率。
UData还采用了湖仓一体的架构,实现了对实时明细数据的高效查询。通过数据实时接入、虚拟数仓、冷热分层等技术,UData能够支持对实时数据的快速查询和分析。同时,UData还建设了一个成本效率优化引擎,通过资产整合、物化视图等方式,让数据能够低成本、高效率地使用。
UData的成功应用不仅限于腾讯游戏内部。刘岩表示,UData的产品能力也可被用于其他行业,如餐饮、金融、教育等,助力传统企业实现AI数字化转型,提升数据工作效率,并通过新一代AI数据资产提升数据治理ROI,帮助企业降本增效。