在产品迭代或运营优化策略上,聪明的团队总是会为同一个增长目标提供多个解决方案,如何择其一还能保证最终效果是最优的,很多时候,就会用数据来辅助决策。这时候,A\B测试就显得必不可少,对于这样的科学实践,方法论显得尤为重要,译文即为原作者总结的A/B测试的10条准则。
以下为译文:
规则一:抛弃固有的认知
很多时候,我们会基于用户的属性信息,特别是年龄,性别,地域或收入来认识他们,尽可能不要酱紫,曾经用户的信息是寻找目标用户的最佳方式(或唯一方式),的确,他现在也依然重要,但在线上市场,我们有了非常多的切入点去一对一去探索用户最真实需求的能力。
规则二:明确当前指标值
转化率优化是你急需着手的目标,但是,在进行高风险的A/B测试之前,需要提前确定一个基准线,如果不知道当前的转化率,又怎么能知道未来的测试是否成功呢?
规则三:别人的经验不一定适用于你
如果某一转化率优化策略适用于所有产品,那还有什么必要测试呢?这样的话,所有人只需要借(chao)鉴(xi)即可。其实,区别还是很大的。
假设A公司是卖鞋的电商平台,B公司是企业级服务的平台,很明显,就算他们有相同的客户,购买决策周期也完全不一样,对A公司而言,把购买按钮从红色换成绿色可能会带来15%的销量增长,But,放到B公司,却不一定有同样的结果。
规则四:尽可能保证变量唯一
当做AB测试时,一次测试只测试一个变量有助于让结果更有说服力。
规则五:在没达到置信水平时不要下结论
在AB测试中,统计置信是指当同一个测试再次被进行时,有同样结果的可能性。换句话说,是看你测试结果的确定性。
举例,假如你在做一项购物车页面的A/B测试,A代表使用单选按钮,B代表使用下拉菜单,假设B带来了75%的转化提升。那么,B方案胜出?
还真不一定,这里还有其他需要考虑的点:
1、样本大小
样本大小会对置信度产生相当的影响。还是以上述例子来说,如果你的样本是4个人,就意味着只有3个人选择了下拉菜单,从起步来说还算不错,但当样本量扩大到1000时,我们想要保持相同转化率的可能性是微乎其微的,也就是说,当下我们的测试结果置信度非常低。
2、置信水平
在一个500的样本量里,99%的用户都选择了下拉菜单,你判断出错的可能性较小(因为容错率小)。但如果只有51%的用户选择了下拉菜单而49%的用户选择了单选按钮,那随机性就不得不考虑了,所以你需要继续测试直到有一个较高的置信水平。
3、用户规模
如果你的总用户量是25w而你的样本量是25,同样也会出现一个比较低的置信水平。
规则六:循序渐进(walk before you run)
由于用户的认知和预期的变化,CRO也会是一个变化的目标,所以,犯错在所难免,重要的是在过程中总结经验,这样会为之后的测试产生累积价值。
规则七:多维度收集用户反馈
用户测试从未如此重要,也从未如此简单,就算你没有个牛逼的用研团队,也可以选择很多免费(或花费很少)的工具进行用户调研。
比如
1、Peek
一个可以很简单并且可以让你快速收集用户对网站的定性反馈
- 优点:反馈比较客观、细致而且免费
- 缺点:无法测试目标用户群之外的用户。而且,耗时太久,所以要收集数量巨大的反馈比较困难
2、Amazon Turk
通过定量分析(比如问卷调研)帮助你在短时间内收集到上千真实用户的反馈
- 优点:价格亲民,可扩展性强,数量级大,可以预设置一些条件
- 缺点:通常是通过问卷调研来做,或者可以理解为需要人为操作。
当然了,有用户反馈总比没有好
规则8:用户行为数据可能和结果性数据有矛盾
结果性数据固然重要,但要注意很多时候可能没有行为数据来的真实。
比如,你急着要打印一些重要文件好去开会,刚打印了3页就发现需要换墨盒了。 那么你会怎么处理呢?先停下来,想想你内心真实的答案是啥。
你也许会说你会换掉墨盒然后继续打印。对,这是一个最终结果。
然而,在一个真实的场景里,其实你已经踢了打印机四次,清空了卡纸,猛戳了7次“取消”键。然后才换了墨盒。 你归整文件时,你又把咖啡洒在了体恤上,简直生无可恋……然后不得不调整会议时间。在结果性数据中,其实你并不会刻意去就你的想法撒谎。毕竟你也确实换了墨盒。 但是如果仅凭结果性数据,就会漏掉很多细节。
规则9:明确定义你的目标值
实验前,明确或预估一个目标值。心里有个目标,然后围绕目标来优化,一定程度上可以理解为KPI
规则10:不要测试那些影响较小的因素
基于业务的核心价值去做实验,聚焦能提升产品核心价值的因素。
分享干货我们是认真的,更多干货尽在爱盈利!