营销多触点,销售多渠道,数据孤岛严重,无法规模化挖掘数据价值;
基于部分数据产生的标签不精准,无法构建立体的用户画像,更无从谈精细化用户运营;
(相关资料图)
缺乏全局视角的分析框架,数据加工处理费时低效,无法高效支撑业务数据化运营的需求…
为应对上述问题,“全域数据融合”成为了企业数字化转型的首选。
全域数据融合,指 打通整合多源业务数据,使用ID-Mapping等技术关联各业务系统的数据,在安全合规的前提下生成唯一用户标识,持续丰富标签、扩充数据,赋能全域运营和营销场景 。通常而言,全域数据融合的架构方案包括采集、识别、查询三大模块。
TCIF就是国内第一代“全域数据融合”的例子。
2012年,行在带领团队建立TCIF(淘宝消费者信息工厂),首次打通阿里全域用户数据,生成了3000多个通用标签,激活数据价值,也为未来的“千人千面”个性化推荐打下了基础。此后的一年内,阿里内部的主要存算消耗从商业分析变成了TCIF的应用,多次证实其商业价值。
企业的全域数据融合究竟怎么做?要攻克哪些技术难关?
在近日举行的2022云栖大会“图计算及其应用”论坛上,StartDT资深算法专家曾博带来了 奇点云全域数据融合方案 分享, 揭秘图计算技术如何赋能全域数据融合,并首次公开解读奇点云 “流批图一体” 技术架构 。
“图计算及其应用”论坛
<<左右滑动查看更多>>
引入图计算
应对全域数据融合三大挑战
全域数据融合存在一些“痛”,只有实践过才知道。譬如:
· 计算性能的挑战 :企业数据体量大,渠道多,ID类型多,还需要考虑存量和增量数据的场景,对计算性能的要求不可小觑。部分大型企业有 亿级用户数据、数百个渠道 ,对计算性能要求更高。
· 复杂计算场景的挑战 :如果ID类型多、ID关系复杂,对传统的规则计算是更大的挑战;如果各渠道数据质量参差不齐,则还需要考虑如何设定 ID关系权重与数据置信度 。
· 验证结果的挑战 :传统规则计算的结果准确性难以验证,而数据赋能业务决策最基础的要求就是准确。
面对上述挑战,奇点云提出了“规则识别”、“图计算识别”、“规则+图计算识别”三种方案,并 从时效性、可解释性、业务扩展性、准确度等7个维度,分别进行了对比。
曾博谈到,在多渠道场景下,规则识别容易遇到计算性能瓶颈;图计算识别性能强,但可解释性弱,适用于探索新渠道、新特征值的场景。
因此,奇点云基于多个超大型项目实践, 沉淀出了一套基于“业务规则计算+图计算识别”的技术方案,前者负责实现复杂场景中的业务逻辑,后者则负责计算,从而让整体方案在 计算性能、复杂场景计算及可解释性 上均具备优势 。
流批图一体的技术架构
曾博介绍,奇点云采用一套完整的 “流批图一体”技术架构 来落地上述方案,以应对不同企业不同场景的全域数据融合需求。
在实时计算(流)的链路中,数据经由Kafka,通过实时计算把结果落盘,满足企业对实时识别的要求;
离线计算(批)则包含了 数据初始化 和 增量计算 两个部分。数据初始化阶段,将加载全量的渠道数据,并输入图计算系统进行运算,再落盘结果。数据初始化通常只需要做一次,后续保留增量的离线计算即可(例如每天定时批处理增量数据)。
在“流批图一体”的架构下,批处理的图计算结果会对流计算的结果进行修正,因此数据存储层需具备 高可用、易运维、可批量更新、支持海量数据查询 等特性。最终,计算结果将以API的方式对外提供服务。
曾博谈到, “流批图一体”技术架构带来了显著的效果提升 ,包括但不限于:
“多” ——支持全渠道海量用户数据计算;
“快” ——数据处理速度大幅提升;
“好” ——处理结果准度高;
“省” ——能跨渠道关联更多用户,为业务节约成本,相较传统方案,存算成本也能得到一定节约。
此外,客户可以根据自身需求,在数据实时性、计算成本等要素中进行取舍, 满足更多元的计算场景,得到更具性价比的体验 。
“流批图一体”的更多细节将在StartDT Day数智科技大会揭晓,点击阅读原文预约,或戳我了解详情 ←
为便于完成数据处理加工和图计算任务的一站式开发,奇点云现已将图计算引擎集成到数据云平台DataSimba的算法组件, 形成了集数据集成、交互式任务开发、任务调度、任务运维、数据治理及数据安全能力于一体的一站式平台 。平台的应用层还提供了全域数据融合与数据安全异常识别的算法包。
未来,奇点云将不断优化方案,降低算法实施成本,在不同行业客户和场景中快速落地,并持续探索更多图计算的应用。站在技术与商业的交叉点,以硬核技术赋能商业增长!