文:范秦
文源:范范而谈
运营小咖秀声明:严禁任何形式的转载、部分转载;违者必究!
故事背景
冰冰在上周五的日报写到:
数据分析发现,在社区内回复过n个帖子以下的用户的平均停留天数在n天左右(机智如我,怎么会泄露公司数据呢,木哈哈)。
而回复n+2个帖子及以下的用户的平均停留天数增加到接近n+2天。
计划激励用户增加回复数以促进用户留存。
于是我决定给大家讲讲数据分析中,相关关系和因果关系的坑。
相关关系≠因果关系
看数据有新的有趣发现,给个大大的鼓励!
但是要搞清楚问题,再对症下药,不能头疼医头脚疼医脚。
“数据只能告诉我们相关关系,而不是因果关系”
当我们发现AB同高同低时:
有可能A→B
有可能B→A
有可能A→X→B
还有可能X→A且X→B,而当你过度人为A↑时会损伤X,以至于B↓
晕的话,容我举个栗子
比如说HR要立项研究降低员工流失率。
观察数据
低离职率部门,工作10小时/天
高离职率部门,工作7小时/天
发现规律
项目负责人很激动,发现了规律——离职率和工作时间负相关哇!
行动方案
于是,他发文规定高离职率部门工作10小时才能下班。
实践结果
过段日子,结果很可能是,被人为延长了工作时间的部门,离职率进一步恶化。
反思总结
显然,正常情况下,工作时间A和离职率B之间并不存在因果关系,但它们都受到员工对工作喜好度X影响:
喜爱自己的工作,更愿意花时间在工作上
不喜欢工作,则换工作的意愿与行动力更强
当你人为大幅提升了工作时间超出了人们可承受的阈值,则会导致本来就不怎么喜欢这份工作的人从中立态度变为抵触态度,心生厌烦,自寻短见寻找下家。
言归正传,说社区项目
再回来审视一下你的社区活跃度数据,新户回帖量A和留存天数B存在正相关关系。不能直接下判断A→B
应该思考的是行为背后的动因:
用户为什么而来?
他们为什么流失?
影响B的真正机制是怎样的?
随手就可以举出3种其他可能性
1
有可能,新用户习惯是每天回N篇帖子(目前N=1)——所以你看到活跃天数长的新用户,自然回帖量多,所以这是B→A(新户回帖量A=新户活跃天数B*新户日均回帖量N)。你去鼓励用户多回帖,有可能只是改变了日均发帖量N↑,这种行为只能导致新户回帖总量A↑,而对于新户活跃天数B没有影响。
2
有可能,用户来社区的目的是获取有价值信息——找到的感兴趣的内容越多,则回复越多;找到的感兴趣的内容越多,则活跃天数越长;你找到的这两个指标都是对社区内容偏好X的因变量,而非互为因果(我上文说的X→A,X→B)——如果真相是这样,那你应该考虑如何引导新用户表达内容偏好更快找到他需要的高价值内容。盲目在行为层面鼓励用户回复,会提升水帖占比,提升用户找到有价值信息的难度,可能会损害用户对社区内容的偏好程度,反而降低了用户的活跃天数。
3
有可能,用户来社区的目的是让自己买车这件事儿不这么寂寞,想要融入一个群体——回帖越多,认识新朋友的概率越大,融入社区的概率越大,因此活跃天数越长(A→X→B)——如果你发现了认识新朋友是回帖数量A与活跃天数B之间非常重要的中介变量,就没必要舍近求远去影响A,直接在X上做文章就行了,比如说是不是可以给新用户推荐一些社区的又爱交朋友又有水平的热心用户,推荐他们去跟这些人互动交朋友?
饿肚子的总结陈词
瞧,我在饿肚子的情况下,很快就能举出3种看起来符合逻辑的可能性——当然我也知道,也都是假设,在我们彻底做完分析、调研前,没有人知道真相是什么。
建议你再看看用户的回帖时间分布数据,以及找处于流失临界点的用户做做调研,好好聊聊,看看背后的真相到底是什么,搞清楚了再出能够治本的方案。
数据的启示,就像给我们在黑暗森林寻宝时开了一盏路灯。欢欣鼓舞是应该的,但是要时刻提醒自己,被灯照亮的并不是这个森林的全部,那些打开宝藏的机关与致命的陷阱,都往往藏在明暗交界的地带,需要我们行动起来,进一步观察、思考、确认。