数据驱动的
互联网营销和运营

数据分析之A/B测试的十个黄金准则

“我并未在试验中失败,我只是成功找到了100种错误的做法。——本杰明•富兰克林”

在进行线上市场营销时,A/B测试是用来衡量网页上的元素变化对性能指标的影响。比如针对所有访问者或特定部分人群点击率、注册、购买等等。互联网营销人员经常会用A/B测试的方法来优化广告策略,进而实现收入或转化率的提升。但是,如果并未采用正确的方法进行测试,产生的结果也是完全无效,甚至还可能对未来的营销策略造成误导。今天,在本文中将会为大家介绍,如果进行一场成功的A/B测试。

这项名为“假设检验”的基本方法,与证明医疗疗法是否有效,或炎热天气导致冰淇淋销售增加的情况相同。但是成功的A / B测试是什么呢?我们如何相信结果?运行成功的A / B测试或失败的A / B测试的区别依赖于数据测试的方法和有效性。

首先我先来为大家介绍一些A/B测试会使用到的基本术语。

A/B测试术语

  1. 需求声明

通常是指一个假设性的声明,内容是有关网站页面的变化和可能造成的影响。该假设可能是真实的,也可能是虚构的。最理想的状态是可以基于一定的数据或者事实依据之上。在A/B测试中,该需求声明一般是有关访客及访客对该变量可能有的反应。例如,将网站上的CTA按钮上的文案从“提交信息注册”改为“注册获取免费试用资格”之后,关注网站的注册转化率是否提升。

  1. 相关性

相关性是指网页设计的变化和访客针对该变量的反馈之间的关系。但这并不特指这两者之间存在因果联系。

  1. 因果关系

在统计学中,“因果关系”是指作为客观现象之间引起与被引起的关系。虽然我们在进行A/B测试时可以对相关性进行衡量,但是实际上我们并不能通过数据得出两者之间存在因果关系的确切结论。通常情况下,都是一因多果或者多因一果的关系。因为总会有一些潜在的影响因素会被我们忽略,或者无法衡量。

  1. 统计意义(或置信水平)

在A/B测试中,统计置信有时候指的是变体胜过原型的几率,衡量的是不同变体在测试效果中显现出来的差异概率是真实的,而绝非偶然。95%的置信水平意味着只有5%的几率被排除。但即使是百分之九十九的置信水平也不一定意味着结果是绝对可靠的,这仅仅意味着错误率要小得多(在这种情况下是1%),而且所有模型的假设都是有效的。我们也应该记住,统计是否有意义跟样本大小有关。

  1. 样本大小

样本大小是指参与测试的人数。一般来说,样本量越大,得到的结果相对就越可靠。也就是说,选择正确的测试方法,根据变量的具体情况(A/B测试或多变量测试)基于足够大的样本量,对于快速获取正确结论至关重要。

首要的是确保你的测试是有效的!

统计推理的一个最基本的目标就是根据当前有限的数据得出可以被复用的结论。当我们在页面上执行A/B测试时,大家都习惯于依赖其“统计意义”来获取测试结果。但,有时一个微小的变化有可能也会导致测试结果发生巨大的差异,最终改变结论所谓的“统计意义”。所以,坚持一套严格的方法论可以为你带来更可靠的结果,从而得到更靠谱的结论。

重点来啦,下面为大家介绍进行A/B测试的10条黄金准则

  1. 高置信等级——尽可能的让你的置信区间接近99%,尽量减少得出错误结论的可能性。
  2. 耐心——不要过早的下结论。如果根据尚未成熟的结果得出结论,最终只会适得其反,给到你错误的洞察和引导。开始进行测试后,首先要做的就是等待样本量到达预期量级,这样才能得到更为靠谱的结果。心急吃不了热豆腐啊朋友~
  3. 将测试的时间拉长或进行持续性的测试——如果你并不相信当前测试结束后呈现的结果,并且希望排除掉所有潜在错误的可能性,那么我建议你将测试的时间周期拉长。这样就会有更大的样本容量,进而增加测试数据的统计意义。
  4. 进行A/A测试——首先向不同的人群展示同一个版本的页面。在大部分案例中,如果其中一个页面变体获得了较高的置信区间,那通常说明在本次测试中可能存在技术性的错误。大部分的A/B测试工具使用的都是标准P值来衡量报告的可信度,该阈值通常为05.但是实际上这个阈值是有问题的,因为当数据量级不够多的时候,这些测试工具得到具有统计意义的结论通常都是——靠运气……这通常是因为并不是所有的假设模型都是有效的。
  5. 要么有足够大的样本量,要么尽可能减少变体数量——如果你可以基于足够大的样本量进行测试,那你获得的测试结果会更具统计意义,也就是说最终你将可以得到更为可靠的测试结果。或者,你的样本量相对较小,那就建议在一次测试中尽可能的减少参加测试的变体数量,以保证结果的可靠性。
  6. 只对有意义的点进行测试——并不是页面上所有的元素都需要一一进行测试。原则上说,进行A/B测试时,首要推荐的是距离转化点最近的路径上的关键元素。
  7. 不要想当然的得出因果关系的结论——作为市场营销人员,我们经常根据我们对客户的心理判断做出下一步行动的决策。我们通常都相信自己可以根据客户的反馈做出适当的应对策略。但是实际上,以上这些都是我们基于自己的过往经验,通过直觉做出的判断。A/B测试就是让我们减少对直觉的依赖,而要更多的依赖于具体的数据和客观呈现的现象。
  8. 不要轻易相信任何文献——即便是一些非常有名的案例研究,因为这些案例可能并不适合你当前的情景。要时刻记得,真实测试的结果的可信度要远高于所谓的著名案例研究,毕竟有时所谓案例研究的数据因为表现太过良好,实际上反而并不具备代表性。
  9. 将测试结论应用于其他场景时降低期望值——通常情况下,在成功的运行了一次A/B测试后,根据表现较好的变体得出的优化结论的效用通常都会降低。这种现象被称为“均值回归”(均值回归,起初是金融学的一个重要概念。均值回归是指股票价格、房产价格等社会现象、自然现象(气温、降水),无论高于或低于价值中枢(或均值)都会以很高的概率向价值中枢回归的趋势。根据这个理论,一种上涨或者下跌的趋势不管其延续的时间多长都不能永远持续下去,最终均值回归的规律一定会出现),这种现象无法通过预先量化或者纠正某些操作就可以避免。因此,为了降低损失,避免得出错误的结论,一旦测试结束,请降低对测试结论使用价值的期望。
  10. 不断测试,持续思考和学习——周遭的环境是在不断变化的,所以你的思维和观点也同样需要不断的变化,以适应周遭的环境。要注意,所有传统的A/B测试的工具的缺点是,这些工具最终只能指导你对你的网站页面进行静态的改变。从长远看,这可能并不适合所有来你的网站的访客(也包括潜在访客)。换句话说,通过一些短期的测试,将表现较好的变体展现给你所有的访客,这是一个相对较短视的做法。 最好的结果是可以通过动态的选择,让网站可以用不同的版本呈现给适合的人群,以保证更好的用户体验,“千人千面”的用户体验一定要好于“千篇一律”的同版场景。

小结

最后,我想说,本文中虽然给到了一些统计学中常见的概念,但是我本人并不是统计学专家,其实我是一个营销人员。希望本文可以给到你一些有关A/B测试的灵感和帮助。

 

作者简介

Yaniv Navot是一位转化率优化爱好者和Dynamic Yield的效果营销专家,主要关注网站优化和网络分析。

原文链接:http://online-behavior.com/testing/success

译者简介

李睿,iCDO翻译志愿者。

未经允许不得转载:DigiMaxDigiMax » 数据分析之A/B测试的十个黄金准则
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址