企业在日常的经营活动中,会积累大量的数据,这些数据由于来源、格式各异,容易形成一个个「数据孤岛」。「数据孤岛」的存在,会阻碍企业更好地认知客户、与客户沟通。因此,企业搭建CDP后,积累了一定的客户ID后,首先要做的就是ID拉通(ID mapping)。
ID与ID拉通
ID是英文Identity的缩写,它是一种互联网身份认证协议,具有唯一性,代表了用户在企业中可识别的「身份」。通过对ID的管理,能够发现用户的个人信息、购物喜好等有助于营销活动的信息,为用户提供更好的服务。营销人员接触较多的ID有cookie、IDFA、Device ID、Union ID等等。
PC时代,主要的ID是cookie,企业主要依靠cookie mapping做ID拉通,相对较为容易识别客户;而在移动互联网时代,ID出现封闭化的趋势,各大平台、电商渠道陆续推出自己的ID,搞「封闭式管理」。对企业来说,这些ID都是与用户相关的数据,却各不相同,企业也就无法完整地洞察消费者甚至做营销。因此,企业迫切需要进行ID拉通。ID 拉通是 CDP 里面的一个很重要的功能,是用户精细化运营的基础,简单来说就是将一个用户在不同触点的 ID 识别为同一个人。
与ID拉通意义相关联的一个词是「数据打通」。悠易互通CDP产品总监吴洁介绍说,ID拉通包括两个步骤,首先是ID之间的打通,即提取出所采集到的数据里的ID信息,这时候会形成多个ID,再将多个ID下的行为、属性等数据串在拉通后的ID上面,这个步骤是数据打通。也就是说,ID拉通与数据打通是衔接的过程。
悠易互通CDP数据技术专家李智敏补充说,ID拉通从功能方面来说,分为广义和狭义的概念。从广义来说,ID拉通就是一种数据打通,将原本存在于各个「数据孤岛」的数据按照某种规则组织起来,它是包括用户在内的各类数据,例如物品、设备等;从狭义来说,ID拉通则是将原本分散在不同渠道的用户数据统一汇聚和拼接,形成完整的用户信息视图,一般所指的实体只包括用户。
ID拉通的步骤
ID拉通有强ID拉通、算法拉通等多种方法,其中最为简单的是基于优先级的强ID拉通,对采集到的用户属性、用户行为等数据直接进行关联。这种拉通方式对数据量级和ID类型都会有一定限制,ID类型最好不超过10个,若ID类型过多,会严重影响计算的效率;
上述方法针对没有形成ID关系对的数据进行拉通较为困难,所以,更为宽泛的一种拉通方式:基于某些特征数据实现的算法拉通对事实拉通进行了有效补充,算法拉通采用聚类等数学方法和技术进行计算准确率。还有一种拉通方式是第三方ID拉通,例如与腾讯、阿里等平台方合作,可能会受限于平台方的规制,这也是企业开始追求第一方数据的重要原因之一。目前,悠易互通采用的主要是图计算的方式,这种方式大大提升了ID拉通的计算效率,可以就任意的ID进行拉通。这种方式解决了强ID拉通方法受ID数量限制的问题,也保证了准确率,只要拿到了数据,拉通出的结构必然是真实的。
吴洁介绍了几种ID拉通方案的步骤。强ID拉通的方法,首先确定最高优先级,通常是手机号码——当然一些行业会采用特殊的ID,如汽车业选择身份证号或者车架号作为最高优先级——如果ID里有手机号,就通过手机号拉通。还有一种规则是确定各个ID的优先级,例如依次为手机号、邮箱、Union ID等等。这种强ID拉通的方法采用的是「一对多」的形势,但在有些条件的限制下(如用户变更手机号),就会基于优先级形成一个新的用户,则没有办法实现真正意义的拉通。
悠易互通所采用的图计算解决的是多对多的问题。只要所获取的ID中有两个能关联起来,通过这两个ID之间的关系,就能把其他能得到关系的ID都串联在一起。即便缺少用户手机号,没有邮箱这种强PII的ID,仅仅依靠Open ID、Union ID甚至cookie,都有办法找到关联关系并串联在一起,这些ID之间是没有优先级的。
吴洁举例说,悠易互通曾经服务一个汽车客户,客户刚上线了系统,用七部手机进行测试。因为有七个手机号码,通常情况下会被识别为七个人。但在测试过程中发现,有两个不同的手机号在一次session中登陆了客户的账号体系,但是显示为一个cookie。虽然cookie的优先级较低,但在这个session里只有这一个cookie,形成了较强的逻辑关系,证明这两个手机号码所登录的两个内部的CRM ID其实是一个ID。通过这样的方式,这七个手机号都串成了一个人。
图计算在ID拉通中的应用
图计算是将各类数据关联起来,将不同来源、不同类型的用户 ID 数据融合到同一个图计算模型中进行分析,得到原本独立分析难以发现的结果。图计算与知识图谱相关联,可以帮助营销人员根据地域、社交和职业网络、产品、品牌和购买力等维度,对复杂的顾客数据进行建模。最初图计算应用较多的是司法刑侦领域,理清楚犯罪嫌疑人的各种社会关系。图计算所针对的数据并不考虑它是来自于第一方或第三方数据,而是具体的数据来源。例如营销人员获取了客户的第三方交易信息,包括有赞的会员ID,以及下单时使用的手机号码,就可以拉通有赞ID、手机号以及内部的Union ID之间的关系。
悠易互通采用图计算的方式,通过寻找两两相关的关系,形成更为稳定的ID关联,形成用户ID图谱。即便用户更换了手机号码,只要其他ID之间的关联关系还存在,就可以继承两个手机号之间的关系,可以把他归为同一个人。图计算可以让ID拉通的稳定性极大提升,更加精准识别到同一个客户。
李智敏介绍说,图计算描述的其实是不同对象之间的关系。类似于关系数据库,图计算本身是一种数据结构,包含了「点」和「边」两种形式:「点」指的是研究对象,对象有多个属性;「边」是两点之间的线,用来说明两者之间的关系。
图计算的第一步是建模,围绕对象设计一个基础的模型,亦即最基础的数据单元。对于营销人来说,第一步相当于广告行为,理解通过广告获取的IDFA、OAID等数据。
第二步,设计存储,即用何种方式存储数据,一个对象可能涉及多种数据存储的方式。这一步的目的在于明晰用户行为,就是除了广告行为之外,用户的实际行为,比如说在小程序、官网、App等渠道的行为。这一步获取较多的是用户的 Open ID、Union ID、cookie甚至CRM ID等等。
第三步,基于最基础的数据单元和存储,设计解决方案,特别是基于图计算的基础概念去进行设计,描述不同对象的数据结构,理清楚数据源。这一步是为了搞清楚用户属性。吴洁补充说,用户属性如性别、年龄等相对来说比较静态的,不是某个具体时间段发生的事情,而是用来描述用户具体属性特征的信息。
第四步,一切就绪之后,开始正式的计算,描述出整个数据结构,形成一个最大联通图,可能涉及到成千上万乃至上亿条数据。最终将所有关系都拉通为一个One ID。
公域与私域之间的ID拉通
图计算是基于事实的ID拉通方法,建立在获取用户的手机号码基础上;而对于家庭用户,则是通过算法,算法依赖的条件是一定的数据特征输入,例如ip、时间戳、UA信息等。例如对于OTT用户,往往缺乏用户的登录信息、或者其他实信息帮助直接拉通,只能预估这些设备有可能属于同一个家庭。蔡芳具体解释说,现在每个家庭都有一个固定的WiFi,以此为前提,如果手机登录了悠易互通所掌握的流量中的一些资源,也就是拿到广告曝光点击的日志,日志里会有用户的IP时间戳,能看到IP和出现的时间,与家中的OTT的IP和时间做匹配,找出这些信息之间的特征,再通过频次等阈值过滤掉家中访客等情况,最后形成设备与设备之间的关系,以此来映射家庭中的数据结构。
当然,这种基于算法的ID拉通的准确性,不如基于事实的ID拉通。营销人往往会在算法拉通与事实拉通之间有一个优先级的判断。如果一个ID的算法拉通也实现了,事实拉通也实现了实名关系对,肯定会优先选择事实拉通。
公域与私域之间的拉通,因为媒体平台的封闭性,也主要是基于算法拉通。吴洁介绍说,为了实现拉通,必然会损失一部分精准度,亦即找到准确性和拉通率中间的平衡点,最终形成一个大家都认为数据可行的值。蔡芳提出,如果ID拉通的目的是为了进行一对一的沟通,对精准度的要求是很高的;但是很多营销活动的目的是为了做广告,对于规模的要求大于准确性,不能因为追求准确的匹配,而只有很少的一部分ID拉通,达不到一定规模,广告也没有效果。所以广告是要牺牲一部分精准度,在规模和精准之间取得平衡的。
悠易互通也会遇到客户的特殊要求,拉通一些特殊的数据,即除了手机号码、Device ID或者cookie等常用ID之外的系统ID。这时候,悠易互通会在原本基础上做一些扩展。吴洁介绍说,悠易互通曾经服务某个车企,客户有非常明确的数据安全要求,在前端做埋点上报的时候,不会提供任何形式的手机号,仅仅提供CRM ID,也就是用户登录了官网或者小程序后的信息。但是CRM ID是客户自己生成的字符串,没有办法应用。这时候,需要将CRM ID与业务后端的某个ID拉通,再找出业务后端对应的手机号码,去做下游的应用。通过这种扩展方式,才能够支持基于CRM ID的拉通,找出CRM ID对应的手机号码,并且把号码输出给悠易互通的营销自动化平台进行其他营销活动。目前,悠易互通的系统不仅仅针对某个客户做非定制化开发,任何客户只要定义ID属于哪个外部系统,并且在外部系统中唯一可标识用户的,悠易互通都可以对整个业务实现ID拉通,最终形成应用闭环。
需要强调的是,整个ID拉通过程都是在客户的第一方数据库里进行计算,而且在对用户数据进行处理的时候,需要对手机号码、open ID等数据进行MD5的32位加密,再进行计算拉通。MD5即MD5消息摘要算法,一种被广泛使用的密码散列函数,可以产生出一个128位(16个字符)的散列值(hash value),用于确保信息传输完整一致。
吴洁介绍说,悠易互通采取了两种识别方式:如果上游提供的明文数据,悠易互通会做一层加密处理;如果上游提供了32位加密数据,悠易互通会保持加密结果。而在输出的时候,如果是MD5的数据,输出的时候同样保持MD5;如果上游提供了明文数据,下游可以选择明文或者MD5。
ID拉通不仅仅是技术问题
ID拉通涉及大量的技术,但不仅仅是一个技术问题,用蔡芳的话说,它其实是一个运营问题。让用户通过广告触及小程序、H5页面,甚至授权手机号,最终从匿名实现实名化,都需要一系列的运营方式。特别是客户需要有ID拉通的意识,知道ID拉通对企业的消费者运营非常重要。
蔡芳介绍说,悠易互通的某些客户,希望通过不错的官网流量实现转化,但是在注册会员这一步骤,使用的是邮箱注册,用户需要回到邮箱收取验证,再跳转回来完成注册,而在公众号、小程序等渠道,没有一个地方让用户输入邮箱。这样做,使得网站的注册用户无法与公众号、小程序打通。
其实对于客户来说,最好的方式是让用户授权手机号,首先是降低门槛,让用户通过小程序等比较便捷的方式留下手机号,而不是用填表单、填邮箱地址等用户较为抵触甚至会给用户带来麻烦的方式;其次是创造一些场景,让用户愿意留下手机号码,如发红包、注册有奖等方式。悠易互通的某个快消品客户,在春节用发红包的方式,获取了一个亿的手机号码,实现了手机号与Union ID的拉通。
案例-悠易互通为某车企拉通One ID
某汽车品牌计划推出一款新能源车型,采用DTC模式,即通过小程序、官网、APP等自有渠道售卖。客户希望搭建目标用户的私域流量池,即将以往的老客户以及通过广告、线上注册等活动搜集的新客户都引入新用户平台,并基于这个平台发起种草、主题活动等营销活动,让用户对新款车型有深入了解乃至互动。
由于这些用户在不同系统注册了不同的账号,客户希望把这些用户识别为One ID。用户现有的数据量有几十万,但是数据维护的工具仅仅是Excel。客户希望定期做一些活动,与老车主互动,但是用Excel显然无法完成。基于这样的背景,客户委托悠易互通搭建CDP,主要解决私域数据采集的问题。
客户有专门的数字化部门,但是整体负责CDP项目的其实是市场部,市场部内部有一些数据分析人员、会员营销人员、活动组织人员。换句话说,市场部是CDP的主要用户。至于其它APP、小程序等产品开发,有单独的部门负责设计,以及外包给供应商做开发。市场部希望通过CDP,完成数据分析、人群圈选等工作,并以此为基础,通过触点采集到一些优质的leads,在后续的销售过程中形成转化。
经过分析,客户掌握的数据源,主要有老车主的数据(包括车牌号、电话以及其他基础信息),私域流量数据(包括官网数据)。在埋点过程中,能获取到官网数据的cookie信息,小程序可以获取用户的Open ID,UNI ID,以及授权之后的手机号码;App端可以获得一定的Device ID。
值得一提的是,客户搭建了很强的登录注册体系,某一个时间段的KPI就是注册的新用户量,而在注册的过程中,出于数据安全的考虑,前端并不上报任何的实名手机号信息。此前,悠易互通所支持的ID拉通的范围,主要支持市场上通用的ID类型,包括Open ID,Union ID,手机号,cookie都在拉通范围之内。但是实名制情况下,如果用户在前端不上报手机号码,就意味着这些非实名的ID没有一个key去进行拉通。
这时,客户提供了帮助,前端上报的时候会提供CRM ID,也就是上报的用户在注册完成之后,后端业务系统里会生成一个CRM ID,这个CRM ID与手机号码有对应关系,CRM的数据通过业务后端上传到CDP。也就是在整个前端拉通的过程中,可以拉通cookie与CRM ID的关系,以及CRM ID与Open ID以及Union ID的关系,甚至拉通CRM ID 和MA或者IDFA的关系,最终实现全链路的拉通。
在拉通过程中,出现了一些异常ID,需要从系统中剔除,而引发了一些清洗工作,让这些ID产生的数据不入库。此外,悠易互通的CDP产品在过程中进行了升级,也能够支持任意业务后端的ID进入ID拉通的体系之中。
出于数据安全的考虑,客户要求所有上游数据能够进行MD5加密,其中涉及到一些历史数据。悠易互通先行将这些没有MD5加密的手机号码先进行了加密处理,再用于拉通,还能反向查出来MD5对应的手机号码的明文或者密文,也就是传上来的原值。
数据拉通最终形成的One ID,包括Open ID、Union ID、Device ID、手机号、cookie等不同来源数据的数组,以及不同外部系统自己的ID。例如除了CRM,One ID还与呼叫中心的数据进行打通,呼叫中心生成的用户的ID也纳入ID拉通的范畴。
悠易全域CDP先找到前端用户行为发生时的CRM ID,拉通之后,用拉通后的OneID再找到后端CRM ID对应的手机号码,接下来就可以进行短信发送等各项营销活动。