仲志成,iCDO原创志愿者
使用归因模型前,要做好哪些准备工作呢?笔者总结出了8个,并不是这8个中的每一条都适用于每一个人,但每个人应该都会从这个8条中找到自己适用的部分。
先简单介绍一下归因模型。
在互联网数据领域,归因模型主要是指:一种、一组规则或算法,用于确定用户通过多个渠道访问时,将业绩功劳分配给哪一个渠道。每款归因模型都有各自适用的场景,应用中通常结合业务,来找到最合适的那款。希望了解主流归因模型的同学可以查看我们互联网数据官2016年12月发布的《【分析方法】十一种营销归因模型大诠释》这篇文章。戳一下链接: 查看!
进入正题,8个坑挨个说。
第1坑:数据分析的前提是有数据:该监控的没监控或者监控错了,那就不要再琢磨什么归因了!
数据分析的前提是有数据:该监控的没监控或者监控错了,那就不要再琢磨什么归因了,对不对!
网站、HTML5还好说,小步快跑,快速迭代,立即修改,就好了嘛。
可是APP咋办啊?之前常见的方法是:版本更新的时候,补、修正监控。可是这种方法存在两个问题:
- 问题1:一些用户并不会更新版本或者说更新版本比较慢,这就导致你补、修的数据变得正常要一段时间之后,这期间数据还是漏的或者错的;再想一想那些跨版本更新(例如,1.2050版本后一直没更新,直到3.0488版本才更新)的用户,这数据还能看了吗?想想就觉得头疼。
- 问题2:这次的更新照样可能遗漏或者出错。╮(╯▽╰)╭!这就导致了APP的数据如果开始没规划好,后面就乱的一B。不要说归因了,分析都不靠谱。
万幸,某度的移动统计和某IO的无埋点(或者叫可视化埋点),让APP也能小步快跑,快速迭代,立即修改!
这里给APP监控的朋友一个建议:选择监控工具的时候,为了能归因,先看它能不能让你“小步快跑,快速迭代,立即修改”,如果答案是否定的,最好别选!
第2坑:程序化广告到底投在了哪里:广告在哪里都不知道,归的哪门子因啊!
在2016年底、2017年初的一个项目里,一个从事数字广告16年的资深顾问对笔者说:“我从来没见过百度网盟能有这么好的效果,这么高的转化率,这么低的CPA(每次转化的成本)······”然后,这位大佬头头是道的分析了效果这么好的原因。笔者只是给他截了下面这张图:
上面的截图是4万个黑名单列表。有些同学可能会觉得是4万这个数字,量变引发质变了。但笔者告诉你,4万仅仅是百度网盟资源总量的2%左右。
由于这才是这位大佬16年数字广告经验中唯一的变量,所以他也只好赞同:黑名单列表是最重要的了。
下面笔者以百度网盟为例,简单和大家说明:如何把广告具体出现在哪里和最终的转化穿起来!
如果使用百度统计,那没的说——无缝对接;但不没用百度统计咋办呢?
最佳解决方案:直接装一个百度统计呗,这有啥说的啊!
有些同学会想:我希望在其它工具里能看到百度网盟的广告到底投放到了哪里?其实很简单,只要在监控工具广告标记的来源字段里,调用公开接口(URL通配符){placement}即可!举个例子,utm标记里这么做:utm_source={placement}就OK了。想知道更多百度广告公开接口的同学,可以百度:百度商业开发者中心,或者戳此链接:http://t.cn/R6mTW4n
提醒一下使用广告监控工具的同学,这类公开接口必须放在程序化广告平台端(即:包含广告标记字段的着陆页链接必须直接作为推广链接),经过程序化广告平台的数据库,才会获取到对应的真实来源。没看懂的同学,请看下面的示意图:
PS:即使这么做了,还是有些“小网盟”到底把广告投在了哪里,我们不知道!因为这些小网盟,并没有把广告到底投放到哪里“告诉”百度网盟,所以百度网盟也没办法告诉我们,这在程序化广告领域是个比较常见的现象。笔者作为代运营人员采取的应对手段是:预算有限,这些“小网盟”直接不投;预算富余,测试投放!如果你是收返点的代理,直接当我没说怎么应对哈。
第3坑:一人多设备,手机+电脑+pad,成了3个人:不跨屏,无归因!
- UID(一般是注册名)强账号体系。老流氓腾讯之所以会被一些人说成BAT最后剩下的那个,就是因为它有这个东西。腾讯在这方面的布局可谓精心,一些小网站直接是QQ或者微信号注册。这种方法的优点是:简单粗暴,行之有效!成本低、好实现、准确度高(已知的最低准确率是80%,最高的超过95%)。缺点是:像腾讯这么广阔用户群的公司比较少,UID的覆盖率比较低,接近50%的就是极其高了,多数是三分之一左右。
- 大数据方法。对于这个被说烂了的词,咱们直接说优缺点。优点:大多数人都可以识别。缺点:成本高、不容易实现,已知比较高的准确率是80%,数据不能冷启动(开始没数据的时候,跨不了屏)。
- 前两种方法结合。这个好理解,直接上优缺点。优点:覆盖面最大,准确度最高。缺点:成本最高,最不容易实现。
总结至如下表格:
序号 | 方法 | 优点 | 缺点 |
1 | UID | 成本低、易实现、精度高 | 不登录,不跨屏
覆盖率低 |
2 | 大数据 | 大多数屏可跨 | 成本高、难实现、精度有限、数据不能冷启动 |
3 | UID+大数据 | 覆盖面最大,精度最高 | 成本最高,最不易实现 |
认真看并且思考的朋友这个时候可能意识到了:既不登陆,也没多少数据的人,跨不了屏!所以说,由于有些屏是跨不了的,有些因就是没法归的。
第4坑:公司好几个域名,数据全乱套了:域都不跨,还想归因?!
这样与实际情况不符的数据,不会有人认为它能做归因吧。
笔者果断做了跨域,由于不同工具有差别,这里就不说如何实现的了。
第5坑:网站流量统计工具的第一方cookie行吗?:人都不认识,还能归因吗?
一个有趣的问题出现了,2个人,11个设备,至少19个User Agent(电脑每个浏览器算一个User Agent、移动设备APP算一个、微信里算一个),3个平台:网站、APP、微信,一个账号,一个公司;京东到底会算成几个UV?(唯一身份用户)
按照绝大多数流量统计工具计算方法:不登录的情况下,一个User Agent算一个UV,至少19个UV;登录情况下,基于UID的强账号体系是1个UV;基于算法的话常见的是1-至少19个UV;UID+算法是1-2个UV。
开篇讲归因模型概念的时候,有提到过归因是基于用户的。如果连用户到底有几个都识别不出来,那么归因纯粹是扯了!一些朋友可能会觉得这个坑和跨屏的坑很像,为什么不是坑4。笔者刻意把它放在跨域这个坑后面,是因为此处笔者要说的是,既跨屏,又跨域的场景。
大家试想一下,笔者坑4里笔者提到的场景:品牌站、电商站两个域名;同时,笔者用百度PC和手百都访问过网站,数据的混乱程度是坑3+坑4。此时,任何仅仅基于第一方cookie作为用户唯一身份标识符的网站流量统计工具都没有办法应对了。
在这个业务场景中,笔者并没有看到特别好的解决方法,只把现在正在使用的一些解决方法说给大家听一听。
- 方法1:使用先进的第三方广告监测工具。广告监测工具的用户唯一身份标识符是第三方cookie(第一方cookie是指:与域名绑定的cookie;第三方cookie是指:与第三方服务器绑定的cookie),不存在跨域的问题,同时结合坑3的解决方法即可。坑3的缺点这个方法都要承受,同时还要承受第三方cookie高丢失率(>30%,第三方cookie丢失率高的一个原因是清理浏览器cookie时,默认保留第一方cookie)。
- 方法2:在数据生态圈内。主要是指3家:百度、腾讯、谷歌。百度统计推广版的用户唯一身份标识符计算时是会把百度广告端的第三方cookie考虑进来的,这甚至是比方法一更好的。腾讯这个老流氓的强账号体系太强了,用户基数基本覆盖全中国,同时基本大家是会登录的,腾讯的产品又基本不存在域名这件事,所以它也可以解决这个问题。谷歌通过adid(可以理解为在谷歌的广告体系内不会被用户删除的第三方cookie)把自己的广告体系整合起来,也可以达到百度统计推广版的效果。但它们的通病是:只能在自己的体系内解决该问题,假设广告主同时投放:百度、腾讯、谷歌、头条、品友,它们就都无奈了。
- 方法3:广告主的DMP系统。从技术上来讲,这3个方法的基础原理其实是一样的。区别在于:数据能够覆盖的范围。毫无疑问,这个方法覆盖的范围是最小的。但出于数据隐私的考虑,有实力的公司,还是会选择这条路。
第6坑:你的流量分析不错,但是它和生意有什么直接关系吗:一切没有财务数据的数据分析都是耍流氓!没有财务数据就别TM归因了,行不行啊!
渠道 | 访问量 | 转化率 |
A | 1,189 | 4.49% |
B | 1,100 | 1.47% |
这时,大多数人判定A渠道的价值更高。但当我们加入另外一个变量成本数据后,会发生什么呢?
渠道 | 访问量 | 转化率 | CPS(RMB) |
A | 1,189 | 4.49% | 14.48 |
B | 1,100 | 1.47% | 3.43 |
现在,你觉得那个渠道价值更高呢?再把收入数据加上呢?
你和你老板说,A渠道转化率是B的3倍,他恐怕不会有什么反应。但你和他说,A渠道的成本是B渠道的4倍,他很可能会皱一下眉。要是你能再告诉他,A渠道赚的钱是B渠道的5倍,相信他会确定A渠道比B渠道好。
上面这个场景只是基础的数据分析,但你应该能感受到,不考虑财务数据的分析,其实没有什么价值。任何一个财务数据的加入,都可能改变最终的分析结果。科学实验、市场调研除外,其它任何不考虑财务数据的数据分析都是在搞笑,结论很可能是站不住脚的。归因是一种分析广告效果的数据分析思想,毫无疑问,不考虑财务数据的归因统统都是在耍流氓!
第7坑:线上线下,数据割裂:不整合,咋归因?
首先,这种分销模式下,数据的及时汇总统计,不现实。
其次,中间的影响因素太多,比如,销售的水平。
再次,对于汽车企业来讲,网站只是一个载体而已,不是生意的全部。
最后,目前这个问题,没有解决方案,或者说没有哪个厂商有资格说自己有解决方案。
以上4点,其它行业也可能会面对,尤其是第2点和第4点,基本上是共性问题。
笔者认为,当下不推荐通过整合线上线下数据进行归因,更加推荐按照网站销售线索单价为基准进行归因,或者不进行归因。目前,整合线上线下数据进行归因的难题是属于科学家的。
第8坑:你这个归因方法是怎么来的:模型都不对,纯粹瞎归因!
笔者在这里和大家聊一聊那些所谓的高级归因模型——以数据为依据的归因模型。这种模型有3类:
- 第一类:用一个玄而又玄的算法,建立模型,可以自动调参,号称可以应对所有场景。
- 第二类:用好几个算法,各自建立模型,每个算法对应不同的应用场景,并且可以自动调参,需要人工选择此时应该用哪个模型。
- 第三类:用好几个算法,各自建立模型,每个算法对应不同的应用场景,并且可以自动调参,同时有个场景识别算法,自动判定此时应该用哪个模型。
显而易见,第一类最不靠谱,笔者就不点名了,只告诉你这是家在大数据领域学术不端行为屡屡被发现的世界知名互联网公司干的;第三类最靠谱,同样不点名,只告诉大家是2016年上市的中国大数据公司。
最后,告诉大家,如果你们公司没有特别强的实力,就别考虑以数据为依据的归因模型了。直接采购也好,自己开发也罢,成本都太高了。另外,如果你的流量比较小,也别考虑以数据为依据的归因模型,正如坑3中提到的,数据是不能冷启动的,流量小这种模型都不能运转。
总结一下归因8坑:
- 监控失误
- 不知道广告到底投放在了哪里
- 不跨屏
- 不跨域
- 既没跨屏又没跨域
- 没有财务数据
- 没有线下数据
- 归因模型本身不对
希望笔者在自己工作经验中,总结出来的归因8坑,对各位看官能有所帮助,谢谢大家!
数据本身毫无价值,有价值的是能用对数据的人。持续关注互联网数据官,让自己成为能用对数据的人。
仲志成,现任职于博众互动。
信仰但不迷信数据,希望思想之花开遍数据沃土。
把当下活成一首诗的互联网数据官志愿者。