数据驱动的
互联网营销和运营

神秘公式 p<0.05 支配了整个硅谷?

本文转载自涵的硅谷成长笔记

这个神秘公式,支配了整个硅谷的产品决策

作者:Han

全文共 4066 字 12 图,阅读需要 9 分钟

———— / BEGIN / ————

我过完年回来上班啦!好兴奋!!因为……终于可以再次见到好基友 Tommy 了……

可我今儿,一打眼就发现他不对,愁眉苦脸的,就问咋滴了呢。

他说:” 哎,最近又收到好多人寄来的刀片儿…… ”

原来,这是用户们在抱怨他的产品不好用呢:

” 这个 App 是脑残吗… ”

” 孤儿产品… ”

哎,我们搞 App 真的很难,因为有太多太多的细节,要做决策了。有一丢丢搞不好,用户就会不开心。

比如,按钮应该放在上面,还是侧面?让用户手机验证,还是密码验证?二维码还是手动输入?等等等等……

关键是人们的要求又不一样!总自相矛盾……

比如你问妹子想吃啥,她嘴上说 ” 随便 “,其实她心里是想说:

这是一道送命题……我们也很无奈啊:我们虽然工资低,但是放假少啊,心累……

那,时间紧迫,竞争压力好大,产品毕竟总要出去的。

到底怎么做决定啊!

最科学的办法,还真不是靠产品经理拍脑袋,也不是靠码农和设计师撕逼,更不是靠高层们微信扔骰子定的。

其实,好多硅谷企业呢,现在都已经有了一套科学方法啦!

最简单地,总结起来就是一个公式:

P<0.05

这是 TM 啥?

这是一个统计学公式,现在已经被硅谷各企业广泛采用,来做产品的决策了!

那应该怎么实用呢?下面我就来给你爆料下,这个不是秘密的公开内幕吧!

案件重现

现在你接到一个产品优化任务,核心 KPI 是要提升一个按钮的点击率。那个按钮可能是 ” 搜索 ” 按钮,可能是 ” 预定 “,也可能是 ” 了解更多 “,等等等等。总之,越多人点击越好。

现有的线上产品方案,那个按钮是一个绿色的。

你知道,因为心理学因素,” 颜色 ” 对用户行为有显著的影响吧。

(不知道也不怕,我之前的文章有介绍过 ” 颜色 ” 在产品里的作用和背后的心理学原理,点这里:王者荣耀和 LOL:真受不了没素质玩家)

于是,你现在想试试把按钮的颜色从绿色改成红色,想看看是不是有更多的人点击。

应该怎么办呢?当然是做实验啦!

好了,现在实验上线开始,你让一半儿的人看到绿色按钮,而另外一半儿的人看到的,则是红色:

实验结束后,你得到的结果是这样的:

A 组,绿色:100 个人看到了这个按钮,没人点击这个按钮

B 组,红色:同样有 100 个人看到,50 个人点击……

结论很明显嘛。

你得出结论:

A 组点击率 0,B 组点击率 50%,B 组高于 A 组,红色有效的促进了用户点击!实验成功!!

是的,很好,到目前为止没有任何问题;这个产品决策很愉快的就决定了,你也成功交差。

下面,咱们看一个稍微复杂一点的例子。

你应该知道,手机的 ” 推送通知 ” 对挽留用户很重要吧?发一个推送,用户没准就会点开好久不用的 App 了——这样就会促进用户对 App 的交互了。

你又知道,现在都流行做个性化推送;之前你们的产品线上运行的可能是一个非个性化的群发通知。

所以,你又有了一个想法:想试试个性化通知内容,是不是更有效呢。

于是,你设计了一个实验,分别给两组人发了不一样的推送通知内容,就像这样:

第一组收到的是非个性的:” 屠龙宝刀点就送!明星都在玩!”

第二组则有一点点个性化:”{$Name ( 玩家姓名 ) },屠龙宝刀点就送!明星都在玩!”

推送发出之后,过了 24 小时的测量周期,你收到的实验结果如下。

第一组,有 95 个人看到了,有 4 个人打开了 App。

第二组,有 107 个人看到了,有 11 个人打开了 App。

跟上面按钮颜色的例子数据处理一样,你开始进行了数据分析:

第一组,是非个性化的推送,接收到推送之后,用户的 App 打开率是 4 / 95 = 4.21%

对于第二组的个性化推送组,App 打开率是 11 / 107 = 10.28%。

于是你直接得出结论:

第二组更好!

事情就……结束了么?

要是在硅谷的话,你会被直接喷回来。

为什么??

因为这个结论,根本不可靠!

两组的打开 App 的行为很有可能只是巧合,是一个完全随机的事情!

比如,你先用左手抛硬币 5 次,发现 2 次硬币正面朝上。

之后再用右手抛硬币 5 次,发现 3 次硬币正面朝上。

于是你得出结论:

右手抛硬币出现正面的概率是 60%,高于左手的 40%。

这明显是错误的。

——因为无论那个手抛硬币,都应该是 50% 的概率而已。

同样的道理,回到推送的分析案例,那凭什么,你在这里就能直接相信这个结果呢?

提高的打开率,真的是因为 ” 个性化 ” 的原因造成的呢,还是仅仅只是一个巧合呢?

对于此,统计学上会有一个概念,叫做 –   “p 值 “。

p 值是啥?

在展开复杂的计算之前,为防止你被绕晕,先直接上一句最最最简单的灵魂总结:

p 值,就是实验结果不能被相信的概率。也就是说,p 值就是 ” 实验结果完全是瞎猫碰到死耗子 ” 的几率。

直觉告诉我们,这个 p 值应该是越低越好,因为越低,他就表示我们的实验越可以被相信。

那么多低是低呢?标准是啥?

硅谷各公司,普遍采用的 p 值标准线是 0.05。如果 p 小于 0.05,那结论就可以被相信了!

下面咱们来计算一下 p 值。

(需要你静下心来读)

统计方法上,我们会先来一个 “无效假设(Null Hypothesis)”:也就是假设结果纯属巧合,也就是假设 ” 个性化 ” 通知根本没啥卵用。

如果没啥用的话,那就是说……两组之间的实际 App 打开率应该相等的 *(此处有简化,详情见文末)。

我们来算一下,第一组的 App 打开率 4/95 = 4.21%。

下面,重点来了:

我们需要计算的是:按照 4.21% 这个打开率,第二组出现 11 个人打开 App 的概率是多少呢?这个概率,就是 ” 无效假设 ” 成立的概率。

无论文科理科,这是一道高考送分题,答案就是:

这个值,就是 p 值, p = 0.0037。

它代表:” 个性化通知 ” 没有任何用处的概率仅为 0.0037。

刚刚说过,p 值的检测标准是 0.05;你看,咱打开率的 p 值小于 0.05,那么就可以说实验可信!” 个性化 ” 通知,对于促进用户打开 App,有效!你们决定上线新产品!

可是就在这时,数据部门,突然给你发来了最新的另一组数据……

实战应用

数据部门告诉你,用户看了推送通知之后,其实还有一些用户有删除 App 的行为发生。

可能是因为看了太多推送太烦了,直接删了 App。

数据是这样的:

现在这样看来,第二组收到个性化推送的人,删除率是 2.8%,高于第一组的 1.1% ——甚至都已经双倍了!

难道是因为用户看到了自己的名字在推送里,很害怕然后就把 App 删掉了?

这可怎么评价啊!!太烦了,要是两组数据结论不同,还怎么上线新产品啊……看来又要撕逼了,哎。

稍等,我们刚刚介绍了 p 值的概念呀!!

赶紧计算一下删除率的 p 值!

经过一番计算,删除率的 p 值等于…… p = 0.1795!!大于 0.05。

什么意思?

p 值大于上面提到的分界线!

也就是说:删除率上升,纯属偶然!

这下好啦!!产品决策清晰了!

相比原来的非个性化推送,我们发现个性化的推送打开率有显著性提升,而删除率则没有显著的统计学差异。

于是,你欢快地决定:上线 ” 个性化推送 ” 功能!! 今晚请大家吃鸡!!

更进一步

你可能会问,为啥这些硅谷企业都选 0.05 这个数字呢?

答案就是:

嗯……其实这个真的就只是一个约定俗成的数值而已。

Tommy 告诉我,提出这个值的人,还是和英国有关。

这是几十年前,英国统计学家 Ronald Fisher 提出来的,后人沿用了而已。

当然,很多产品为了更加可靠,也会使用更低的 p 值 , 比如 0.01。

不仅仅是硅谷这样的工业界啦,在学术界,尤其是统计学支撑的学科;比如心理学,生物医学甚至经济学,”p < 0.05″ 早就被当作常识一样了。

比如,医学领域,有人提出了一种新药。想知道这种新药的效果,那就要进行实验了。

简单来讲,他们会找到一些病人,随机的分成两组,比如每组 20 个人。

双盲测试:医生和患者都不知道分组情况

一组人,作为测试组,会按时吃这种新药。而另一组则是控制组,不会吃这种药。

当然了,也不是啥也不吃。

他们会被要求随便吃点啥,比如吃淀粉片,这东西被称为 ” 安慰剂 “。

因为心里作用也会影响治疗效果,所以不能让他们知道其实他们吃的东西没啥用嘛。

吃安慰剂,就能保证他们不知道自己被分到了控制组。

实验结束之后,会看看哪组人治愈率更高。

这我也是从身边好多医学生物学博士朋友那里知道的:他们经常说,科研狗奋斗一生,就为了那 0.05,其实硅谷的码农们又何尝不是呀~

后记

我告诉 Tommy,你看 “p < 0.05” 对吧,这就意味着,概率上来讲,咱们每上线 20 个产品,其实就会有一个产品是垃圾……所以,别难过了 ,你可能就……恰好是那个垃圾……

然后 Tommy 把我打了一顿

备注

文中 p 值计算过程和描述并不完全准确哈,而是为了可读性,进行了简化。

首先 p 值不是 ” 无效假设 ” 成立的概率,而只是可以 ” 表示 ” 这个概率的大小。

另在案例计算中,因为第一组的 4.21% 也不能代表真实情况。

这里其实是在比较两个样本的分布:特此大感谢我的数据科学家同事 + 朋友 Cora 帮我 Review~实际比较复杂,比如先看成是一个正态分布,然后计算一堆值,再……不说了,你去看统计学课本吧……

但是告诉你一个小秘密:已经有很多开源在线工具可以帮你计算 p 值了 : ( 可见对于文中的例子,打开率 p 值可以为 0.0453。)

另外,感谢我的博士朋友:

(以下为他贡献原文)

其实利用 p 值是频率学派的假设检验方法,而 p 值的滥用已经是科学界的一个严重问题。

2017 年 nature 上有篇文章 redefine statistical significance 是一堆统计学大佬写给科学家群体的,大意是我们认为贝叶斯假设检验的框架更好,但是鉴于科学家普遍没有受过贝叶斯框架的训练,那么为了降低得出错误结论的概率,至少把 p 值的阈值降到 0.005。

———— / END / ————

作者:Han,facebook 美国硅谷总部商业产品全栈软件工程师。先后负责 facebook 中小企业广告及大型电商零售企业广告商业产品开发。微信公众号:涵的硅谷成长笔记(ID:HanGrowth ) ,和我一起向硅谷大牛们发起夸学科学习进击,共同见证进步。

本文由 @Han 原创发布于人人都是产品经理。未经许可,禁止转载

未经允许不得转载:DigiMaxDigiMax » 神秘公式 p<0.05 支配了整个硅谷?
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址