你又一次被“真实数据”欺骗了

数据对于产品、运营决策来说有重大参考价值，但是在现实生活中这些精心测量的“真实数据”却往往出错，问题在于什么？又该如何针对性地解决？

你又一次被“真实数据”欺骗了

当公司需要推出一个新产品（服务，管理，市场）前，我们总是需要收集一些数据来说服股东（或者我们自己），这个产品一定会大卖。

这时候，就是各种图表粉墨登场的时候了：饼状图，柱状图，条形图，折线图……

（这里本来应该有一张图，但是大家看了太多的PPT，我就不放了。）

我们讲的头头是道，下面的听众也频频点头。“看起来这个产品一定会广受好评”，我们心里想。

然而，到了真正到了产品销售阶段时，我们却发现，根本没有用户愿意买账。

我们明明是严格按照规范收集数据，仔细的进行科学分析，每个步骤也有专人监督。这些真实数据为何不能反映真实的市场需求？

我们收集的所谓“真实数据”其实是假的。

大多数人认为，假数据只有在故意造假的情况才可能出现。而我认为，有些时候，错误的收集方式也会产生“假数据”。

那么，为何我们会收集到“假数据”呢？

一、社会期许

“您喜欢喝什么口味的果汁？”我相信很多人都会如实回答。

“您和妻子/丈夫关系好吗？”这个问题就很难得到准确答案。

与之类似的还有：

您的月收入多少？
您认为自己聪明吗？
您对自己外貌评价如何？

在社会科学中，这叫做社会期许误差。人们更倾向于向他人展现正面形象，所以在回答问题时，更倾向于申报“良好行为”来符合社会的期望。

这也是为何很多真正的抑郁症患者倾向于隐瞒自己的病情，因为他们希望能够符合周围环境对他的期望。而社会期望人的性格是积极外向的，这样导致了很多抑郁症患者很难对家庭袒露心迹。

我最近看的一本书，《Everybody Lies》，就展示了这样有趣的现象：在社交网站上，在短句“我的丈夫是”之后，最常见的形容词的前五名是：“最好的”，“最好的朋友”，“最棒的”，“令人惊讶的”，“可爱的”。

而在搜索引擎上,前五名，除了一个“最棒的”以外，其他四个却变成了：“刻薄的”，“混账”，“同性恋”，“讨人厌的”。

这也就证明了上面的观点：人们在可能被他人审视的时候会更倾向突出其好的一面，而在匿名且隐私的环境中才能表达真实的自己。

二、幸存偏差

假设我们来采访一下几个名人，他们的成功有什么必经之路：

乔布斯：我辍学了。
盖茨：我辍学了。
扎克伯格：我辍学了。
布特林：我辍学了。

总结：辍学才能成功。

这里出现了什么样的错误呢？

在统计学中，幸存者偏差是一种很常见的现象。即过分关注因为某些经历而幸存的人或事物，并且将这些经历定义为常识。

我们很容易找到类似的例子：

章鱼保罗在2010年世界杯中连续7次猜对比赛结果——其他猜错的动物没有被报道。

2016美国总统大选时，CNN的民调显示：希拉里支持率更高——调查时主要选择了民族党支持者。

很多喜欢看直播的人认为：主播收入高，外表光鲜，所以自己也要当主播——头部主播占据了全部主播收入的80%以上。

三、胡乱回答

前段时间，我对YouTube上的视频进行过一个粗略统计。

结果是：一个在大多数人理解下的优秀视频，其观看量、点赞量、点踩量的比例一般为10000：100：2（这个数据只是一个预估，请不要作为考量方式）。

而且，不论是视频多么优秀，总是会有点踩的人。

这种“故意破坏他人体验的点踩”在社会心理学中叫做向下社会比较。

这种情况往往是那个人遇到了某些挫折，通过降低自我评价的参照系（即让他人的评价降低），来维持积极的自我评价。

这也是网络上的喷子和键盘侠，往往都是在现实生活中遇到了不顺心的事情的人的主要原因。

四、分析错误

在不久前，我看到某个电影院的大数据分析：看《战狼2》的观众，有89%的人购买了冷饮。而看《前任3》的观众，有73%的人购买了热饮。

数据分析得出的结论是，看动作片的观众更喜欢冷饮来清凉自己的紧绷的神经。而看爱情片的观众更喜欢用热饮来温暖自己的内心。

战狼2：2017年7月27日上映——夏天。

前任3：2017年12月29日上映——冬天。

其实分析员只要看看上映时间就知道，观众选择热饮或者冷饮的根本原因是天气问题，和电影本身没有任何关系。

这种在统计学中被称为混淆了相关性和因果性。即分析时过分注重于数据之间的关系比较，并且将这种关系直接定义为结论。

五、人为造假

就在两周前，著名心脏专家皮耶罗·安韦萨涉嫌数据造假的新闻轰动了整个病理学界。由于他的31篇学术论文造假，直接导致大量相似的研究直接作废，各种研究经费的损失高达数亿美元。

那么，他是怎么做的呢？

他在分析数据前，直接将自己的假说认定为正确的，然后用很多数据去“凑”自己的假说，如果数据不对，就换方式来重新将数据“生产”出来。

这种手法，在很多欧美政客手上就用的炉火纯青。特朗普就转发过“旧金山犯罪统计局”的统计数据。该数据显示，黑人是犯罪的主要根源。而实际上：“旧金山犯罪统计局”根本就不存在。
你又一次被“真实数据”欺骗了

人们很容易相信数字所带来的权威性。而这种利用数据来说谎的方式，就是利用了这一点。

这五个问题，导致了调查数据很难真实反映出用户的需求，从而扰乱了我们的判断能力。

那么，我们如何才能减少这些问题对数据结果造成影响呢？

六、解决方法

1. 社会期许——匿名回答

社会期许误差的产生，是由于被访者担心自己的负面情绪或者状态不被社会所接受。

那么最有效的办法就是：为受访者创造一个完全匿名的，保密的环境。

正如天主教堂里的告解室一样，完全密封的匿名环境，加上神父的严格保密，让信徒可以安心的忏悔自己的罪行。

投票箱就是一个很有效的匿名方式。例如美国的国家大选，为了避免大家因为敏感的投票话题引起争执，采用了投票箱的方式，保护了投票者的隐私。

另外一个解决方式是随机化回答。

方式是将问题分为两类，敏感性问题与非敏感性问题。我们想要知道敏感性问题的答案，而我们已知非敏感性问题的答案。我们可以通过非敏感问题的答案来反推出敏感问题的答案。

举个例子，假设我们想要推出一个新式男性增高垫，但是不知道使用增高垫的人数比例，我们可以设置两个问题：

敏感性问题：“您是否使用了增高垫？”

非敏感性问题：“您的电话尾号是否是1？”

我们先在黑箱里放置两个小球，一个红色一个蓝色。在回答问题前，要求受访者在黑箱里取一个球，但是这个球的颜色只有受访者知道。

然后告诉受访者，如果他抽的是红球，就回答“您是否使用了增高垫？”。如果抽的是蓝球，就回答“您的电话尾号是否是1？”。但是回答者只用回答“是”或“否”。

那么，当我们收集到足够多的数据后，我们可以得知受访者回答“是”的比例（设为a）。

由于我们知道，电话尾号为1的可能性为10%，而抽到红球或蓝球的几率各为50%，那么我们就很容易依靠下面的公式推断出使用增高垫的人（设为x）比例。

你又一次被“真实数据”欺骗了

3. 幸存偏差——用户分层

幸存者偏差是由于受访者的样本过于相似，导致了数据结果并不能代表所有的用户。

由于我们无法对于对所有的用户进行普查，那么最容易的办法，就是从每一个层次的用户抽取数人进行调查。

例如，我们想要对打车软件优惠券的使用情况进行调查。我们就需要将用户分为四类：

之前使用过打车软件，后来使用过优惠劵（老用户）
之前使用过打车软件，后来没有使用过优惠券（未涉及用户）
之前没有使用过打车软件，后来使用过优惠券（新用户）
之前没有使用过打车软件，后来没有使用过优惠券（潜在用户）

从每种类别的用户中，我们选取数人来进行抽查。在每个层级的人群中，我们也要尽量将年龄，性别，职业等等区分开来，这样才能减少幸存者偏差带来的数据偏差。

3. 胡乱回答——显示进度

大多数时候，受访者还是愿意配合采访的。让受访者不愿意配合采访的原因只有两种：外界因素和内部因素。

由于我们无法控制受访者的外部因素（心情不好，急于做事，性格内向等等），那么我们只能减少内部因素造成的影响。

所以，我们需要尽可能减少受访者对调查感到厌烦的可能性。

你们是否发现：当你安装一个软件时，就会有一个进度条显示安装的进程。而且，进度条并不是匀速前进的？

这是因为，进度条可以明确的告诉我们，我们还需要多久的等待。而非匀速前进的原因，则是经过了科学家的试验，证明相对于非匀速来说，匀速的进度条更容易让人感到不耐烦。

所以，在收集数据时，如果是访问的模式，就需要在开始访问前，告诉受访者访问的时长，并且将长问题穿插在短问题中。如果是调查问卷的模式，就需要在前面写明问题的数量，并且在其中配上进度显示（例如：已回答25%的问题）。

4. 分析错误——关注外因

我们在分析数据的时候，如果仅仅关注数据本身，就很容易出现混淆相关性和因果性的状况。

所以，在数据分析时，一定要考虑到外界因素所带来的影响。

正如第一台ATM机发明前，巴克莱银行对于用户对于ATM机的态度进行过一次调查，用户的数据反馈指出：相对于冷冰冰的机器，大家更喜欢热情服务的柜员。

然而银行发现：由于工会的强烈要求，导致银行必须考虑在周末放假。而很多领取周薪的工人只有在周末才有时间去银行取钱，那么这些工人的需求就很难满足了，所以银行依然决定推出ATM机。

结果大家都知道了，现在全球有着高达300万台ATM机为我们服务，也没有人觉得从ATM机器里面取钱有任何不妥。

所以相对于单纯的相信数据，更好的方式是将数据作为一个参考，但是根据实际情况来进行判断。

5. 人为造假——规避问题

人为造假的问题是最难以解决的，因为这个是调查者自己所决定的。

现如今在学术界，最广泛使用的办法就是让调查者签署一个保证书，利用保证书来约束调查者的行为准则。

然而在公司中，这样的的方式并不太合适。学术界出现了造假问题，那么这个人今后就无法再进行学术类工作。而公司员工的流动性更大，造假的调查者完全可以去其他公司继续工作。

我们只有从员工素质的提升和对数据的真实性进行反复检验，从而对于数据的人为造假进行规避。

总结一下：

社会期许——为受访者创造匿名调查环境
幸存偏差——将受访者分层次调查
胡乱回答——让受访者不对问题产生厌烦
分析错误——收集外界因素造成的影响
人为造假——提升员工素质，检验数据真实性

如果按照这些方式去做，我们的调查数据准确度就能够极大的提升。

本文由 @卤豆干原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议。

爱盈利-运营小咖秀(www.aiyingli.com) 始终坚持研究分享移动互联网App运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

想了解更多移动互联网干货知识，请关注微信公众号运营小咖秀（ID: yunyingshow）

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

你又一次被“真实数据”欺骗了

一、社会期许

二、幸存偏差

三、胡乱回答

四、分析错误

五、人为造假

六、解决方法

1. 社会期许——匿名回答

3. 幸存偏差——用户分层

3. 胡乱回答——显示进度

4. 分析错误——关注外因

5. 人为造假——规避问题

评论

相关文章推荐

如何提出正确的产品需求？这里有一个方法框架

网易PM教你如何做好To B交付项目外包决策

给想转型产品经理的几点建议！

互联网产品研发是个“吸金黑洞”？

产品心理学：你需要掌握的分析模型

服务天猫、美团等1万多款App，用户过亿，点乐的精准营销帮大众点评增长了1亿用户

友情链接