乌合统计学 | 分散性与变异性的量度：方差&标准差

关注

来源： 4851 2017-03-29

回顾之前的问题

某APP的DAU非常高，所以打算在首页进行弹窗广告的售卖。为了不影响用户体验，不能每次都启动弹窗，需要一定的命中策略。那么公司对广告弹窗策略进行两组小流量测试，得到用户点击量如下图：

乌合统计学 | 分散性与变异性的量度：方差&标准差

再之前的分享中，我们讲了全距、四分位数、百分位数和箱线图，同时运用他们对两种广告投放策略进行分散性对比，也得到了结论反馈给广告投放方，不过他们结论并不认可，他们说：

“全距和四分位距仅告诉我们最大值和最小值之间的差值，却无法告诉我们策略一和策略二得到这些最高点击量和最低点击量的频率，以及策略一和策略二中更接近数据中心的用户点击量的频率----而这却对我们投放方很重要。”

那么还有什么其他方法让我们算出两种策略的稳定性和分散性呢？（上节内容详见：乌合统计学 | 分散性与变异性的量度：百分位数&箱线图）

变异性比分散性更具体

其实广告投放方希望选中的策略命中稳定些，从而使用户的点击量稳定些。

实现以上目的一个方法是：观察每个数值与均值的距离。如果我们能够算出各个数值与均值的某种平均距离，就有办法量度变异性和分散性。结果越小，述职与均值的距离越近。

乌合统计学 | 分散性与变异性的量度：方差&标准差

“看这张图是不是说明我们只要算出数值与均值的平均距离就行了啊？”

计算平均距离

假想你有三个数值：1、2、9，均值为4.如果我们求出这几个数值与均值的平均距离，结果如何呢？

乌合统计学 | 分散性与变异性的量度：方差&标准差

我勒个去，各个数值与均值的平均距离总是为0，这怎么搞啊？

“等一下亲，我有两个问题哈。等式中为什么会出现-5？我会以为距离是5，距离怎么是负数呢？”

由于μ小于9，因此9至μ的距离为负数；1和2都小于μ，因此距离均为正数。这正是各个距离相互抵消的原因。

“那我们不能去距离的绝对值计算平均距离吗？”

绝对值这个似乎很直观，但在实际应用中，统计师很少这样做。

我们可以用方差计算差异性

为了防止抵消，我们得像个办法把所有数字变为正数，或许先求出各个距离的平方数就OK了，我们试着用原来的三个数值算一下：

乌合统计学 | 分散性与变异性的量度：方差&标准差

由于我们使用了各个述职与均值的距离的平方数，所有这次我们得到了一个有意义的数。

这种量度数据分散情况的方法称为方差。方法是量度数据分散性的一种方法，是数值与均值的距离的平方数的平均值。

乌合统计学 | 分散性与变异性的量度：方差&标准差

上面的公式要计算每一个x的（x-μ）的平方，所有所处理的数据越多，就越容易出错，尤其有众多小数时。所以下面是一个能较快算方差的方法：

乌合统计学 | 分散性与变异性的量度：方差&标准差

“But，我们为什么要考虑距离的平方呢？这算不上直观啊？”

标准差才是更直观的量度方法

那位同学说的是，我们真正想要的是这样一个数：能根据与均值的距离---而不是距离的平方指出分散性。

所以我们取方差的平方根，我们将此结果成为标准差。

所以上文中方差为12.67的标准差为为12.67的平方根，约等于3.56。也就是说，典型值与均值的距离是3.56。根据方差的特性，所以标准差越小，数值距离均值就越近，那么变异性就越小，分散程度也小。

标准差也有自己的专用符号 δ，即希腊字符“西格玛”的小写，为了求出 δ，先计算方差，然后取其平方根，公式如下：

乌合统计学 | 分散性与变异性的量度：方差&标准差

“我感觉方差标准差好麻烦的说，话说我为啥要关注数据变异程度？这很重要吗？求出一批数据的平均数不行吗？”

举个例子吧。话说你从必胜客订了一份儿披萨，当东西送到的时候你发现披萨的一般烧焦了，而另一半全生，这是你感受如何？

“neng死它！！！！”

不过从均值来看，你的食物是以最合适的温度烹饪的呀，对么？---So，均值显然没有体现事情的真相，它欺骗了你。其实你需要知道的是变异程度，方差就为此而来。方差会根据均值体现的典型值，指出你该期望各个数值相对于这个典型值如何变化的。

“soga，均值给出了平均数，方差给出了分散程度。话说方差是怎么办到的呢？”

方差其实是指出了数据与均值的距离---平均而言。假定有一批数据的标准差为3cm，你可以当作这是在说：平均而言，这些数值与均值的距离是3cm。

“那是不是说方差和标准差还是小一点、稳定一点好呢？”

也不完全是，关键看应用场景。就像我们觉得例子，广告投放方希望寻找用户点击量波动小的策略进行投放，他巴不得每天点击量都一模一样呢；比如你正在研究一家大公司的工资，那么方差和标准差自然大一点比较好喽。

实例带入

这次我们方差和标准差的方式来测试一下，两组策略的用户点击量哪一个更加稳定呢，数据如下：

乌合统计学 | 分散性与变异性的量度：方差&标准差

将数据带入方差计算公式：

乌合统计学 | 分散性与变异性的量度：方差&标准差

两个策略的均值为1000，策略一的标准差说明在典型情况下，用户点击量与均值距离为73，同理策略二的标准差说明在典型情况下，用户点击量与均值距离为602。因此策略一的用户点击量最稳定。

经过这样一个例子的讲解大家是不是对方差和标准差有了大概的了解呢？

再来个例子

假设有两个广告命中策略：第一个策略的命中率为70%，标准差为20%；第二个策略命中率为40%，标准差为10%。

在某一次测试中，策略一的命中率为75%，策略二的命中率为55%。从两个策略的历史命中记录看，哪个策略表现更好呢？

“So easy！策略一更好被！它的命中率为75%呢，策略二才55%！”

NO，NO，NO，75%听起来命中率很高，但是我们并不是在研究每一个策略的均值和标准差。每一个策略情况都高于自己的均值，但相比策略命中的记录是记录，哪个策略表现更好呢？

乌合统计学 | 分散性与变异性的量度：方差&标准差

至于如果判断两个策略哪个表现更好，敬请期待：

分散性与变异性的量度：标准分（Z分）

作者：刘震宇，58赶集产品经理，中科院心理研究所在读，产品心理学提出者。（公众号：乌合之众[shehuixinlixue]）

本文由专栏作者 @乌合之众原创发布于产品社区（www.aiyingli.com），未经许可，禁止转载。

爱盈利-运营小咖秀（aiyingli.com）始终坚持研究分享移动互联网App运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

未来低成本游戏将遭遇比过去更艰难的生存困境

在五年前的移动游戏市场，开发团队往往以快制胜。但现在情况已经大不一样，开发团队必须具备更强的稳定性和可靠性。这意味着游戏公司需要不同层级的领导力，以及指导游戏产品研发的不同思维方式。如果一家公司什么都做，那就等同于没有战略，随着时间推移，玩家的品味和....

Clash of Clans和Boom Beach将上演同室操戈？

MarkSorrel：我喜欢《ClashofClans》。我已经玩了一年了，并且花了过去一个月时间才开始思考它与书籍的联系。尽管我非常沉迷于该游戏，但还是发现了新颖而有趣的设计。新即时道具，或者平衡感，或者行为提示。你只要花些可以发现其中的新内容。当....

2014年手游行业：高速增长的四大动力

移动游戏行业本身具有开放周期短、变现能力强的特点，移动网络游戏审批速度提高将缩短游戏从开发到面世的时间，缩短移动网游游戏开发周期，将进一步刺激行业创新活力，利好游戏公司营收。该政策是否能重新点燃手机游戏投资热潮，缩短审批程序给移动游戏市场带来重要利好....

苹果回应艳照门：怪只怪明星密码太好猜

据国外媒体报道，苹果公司今日就好莱坞艳照门事件举办了一场新闻发布会，表示众位明星私密照的泄露并非来自于iCloud的系统漏洞，而是由于她们的密码太好猜，黑客才对她们的账号进行了定向攻击。近日曝出的好莱坞艳照门事件在业界引起了轩然大波，有至少一百位明星....

25元“高价”手游《纪念碑谷》：给游戏加点艺术范儿？

自从《flappybird》毫无征兆的一跑而红后，可以说，已经没有人知道玩家想要什么了。之后，2048、别踩白块等游戏的火爆也让游戏开发者们突然发觉，原来许多玩家也喜欢这些没有漂亮画面的、看上去无聊的游戏，画面好看的游戏突然不再像过去那样过分受待见了....

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

乌合统计学 | 分散性与变异性的量度：方差&标准差

回顾之前的问题

变异性比分散性更具体

评论

相关文章推荐

未来低成本游戏将遭遇比过去更艰难的生存困境

Clash of Clans和Boom Beach将上演同室操戈？

2014年手游行业：高速增长的四大动力

关于谷歌VR平台Daydream 你必须知道的5件事

据科技网站CNET报道，在今天的GoogleI/O大会上，谷歌为我们带来了全新VR平台Daydream，今年晚些时候，该平台将随AndroidN一同发布。其实从形式上来看，谷歌这次的VR产品与三星GearVR类似，智能手机依然是该VR平台的大脑。下面....

苹果回应艳照门：怪只怪明星密码太好猜

25元“高价”手游《纪念碑谷》：给游戏加点艺术范儿？

友情链接