“忘掉大数据”之“建模术”：数据挖掘还原用户的生活场景

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。

作者：吴显洋

建模无疑是大数据里面最艺术的部分，也是最令大数据从业者痴迷、得意的领域，一个好的模型就是一篇作品，是一首诗，令人心旷神怡。建模、模型并不是什么新鲜事物，它们早已出现在很多场合，譬如“产品模型”、“推荐模型”、“营销模型”、“挖掘模型”等等。但，它们有什么不同?

建模的幻影有千万种，有些人做过，有些人没做过，我们该如何看待?建模是不是需具备很多专业知识，非专业人士无法掌握?小白杨的所思所想，都在下面的文字。

一、建模并不神秘：让数据产生新的数据

一些建模的观点已在前面的道与法两篇体现，归纳如下：

建模的本质就是让数据产生新的数据。人类、智能体的认知、行动需要用到不同的数据(Know->行动)，如果这个数据没有被直接掌握，那就要基于已知的事实数据推测，这个过程就是“建模”，得到的结果就是一个新的“数据”。

建模就是在做侦探，都是利用已掌握的大量的、不完整的、不一定可信的事实数据推导还原事实的全部。几乎所有的领域都涉及建模。

模型分三大类，但万变不离其宗。

第一类，利用已知的事实数据计算推测相关联的其它事实数据，譬如应用人的属性、行为数据推测它的消费需求;

第二类，利用已知的事实数据计算推测规律性的数据，譬如基于历史的购买记录分析商品的销售趋势、细分比较等;

第三类，利用已知的细节事实数据组合建立对事实全局的认识(数据)，譬如从生效时间、适用区域及客户群、定价等维度建立产品模型，其实就是综合这些细节数据形成了一个“产品”的“数据”。

对“新”的数据的认识不要拘泥于一定要和以前的数据不一样，多个数据组合形成新的含义也是一种新的数据。

数据是人类对世界的观测，把客观世界抽样、采集到数字世界里面，建模就是要在数字世界里面把客观事实还原回来、预测它的发展。有趣的是，在数字世界里面，可以打破客观物质的当前认知局限，任意交叉组合，从而有无限创新的可能。

总结一下，建模本质就是对已知数据的组合、简单或者复杂的计算处理，最终转换成一个新的数据，从而影响行动。

不同类型建模差别很大，接下来我们将聚焦到数据营销领域来探讨，部分观点不具备普适性。

二、建模的六大误区

误区一：会用工具等于会建模?数据挖掘大多遵循CRISP-DM流程，弄来很多的数据维度(有甚者上百种)，选取某一种算法，找来训练集训练出一堆莫名其妙的规则，输出的目标用户特征谁也说不清楚，只能告诉你支持度、置信度多少。这个过程本来是没有问题的，前提条件是有明确的挖掘方向。但是很多人都错把业务目标当挖掘方向了。

真正的建模应该从业务目标开始，先基于业务目标理解客户分解挖掘方向(特征明显的群体)，再找数据用算法关联推导。懂工具能很好的完成挖掘方向到目标结果的过程，但业务目标到挖掘方向这个过程就不是只掌握工具就能够胜任的了。锐的洞察挖掘方向、正确的数据选取是建摸的核心能力，比掌握工具更加重要!

误区二：建模不与实际销售场景相结合!某央企(莫乱猜)各省公司大数据成功案例满天飞，模型成功率动辄30-40%。笔者看到的时候自惭形愧，也一直很纳闷，做了这么多年精准营销，大部分模型的营销成功率都是几个百分点，两位数以上的凤毛麟角，怎么别人的水平都已经赶超美帝了!后来终于搞明白，原来他们的目标客户在各种渠道成功下单都算，不管是否施加了营销动作，而我们只统计针对目标用户采取营销动作的直接转化下单。他们得意于挖出目标用户的精准，其实，这些模型的高成功率只能说明这批用户自然转化率高，找出这些用户并无实质意义，因为不施加任何动作用户就已经购买了，挖它出来干嘛?

建模必须与实际销售场景结合，要么找出自然转化率高的用户采取更低成本的接触方式转化，要么找出一批用户施加营销动作后较自然转化大大提升!

误区三：盲目使用、过度依赖训练集!训练集是个双刃剑，正确使用能充分发挥技术算法的价值，而滥用则陷入误区。前面说的某央企案例，其实训练那些模型并不困难，不就把各渠道成功下单用户作为训练集嘛，掌握工具的新手都能做出来。训练集要与准备施加的营销动作一致的才有意义。

训练集还要有代表性，譬如历史的数据是和大客户谈妥对其所有员工批量转化的，以这些数据为训练集就没有任何意义。营销场景初始往往没有训练集，必须跳出“训练集”局限。

误区四：要相关不要因果!《大数据时代》作者提出这个观点的时候，其实并不是要放弃追求因果，而是找出相关关系后，更迫切的是接下来怎么做，因果关系可以慢慢研究。这一点被很多人误读，世间没有无缘无故的爱，也没有无缘无故的恨，两个事物相关度很高，背后必定有一串的因果链条，如果找不到，那可能是因为训练集的问题导致伪相关，我们就要警惕了。

误区五：过于迷信算法!大道至简，有效的东西一定是简单的。非要复杂，那一定是因为没找到或者没掌握关联度更高的原始数据。算法并不能解决所有问题，没有好的数据基础，它无能为力。建模涉及到很多关键要素，比拼的是综合实力，在同等条件下，努力提升算法才是有意义的。

误区六：盲目追求数据精度!高的精度意味着更高的成本，对应更少的数据规模，如何取舍就要运用“法”篇说的ROI原则了。

三、建模七术

1、场景驱动

建模的第一件事情是搞清楚应用场景，提炼卖点、利益点，哪些是能打动用户的关键要素。从“命中目标”和“命中营销特性”这两个方面去思考我们要找什么样的用户，匹配什么样的关键特征。

2、迭代建模

建模要用互联网思维“小步快跑，快速迭代”，快速对消费者需求做出反应，否则数据会失去时效。因此我们应从简单开始入手，采用简单算法快速输出数据，后续在实战中不断检验、修正、迭代优化，不断提升数据的精准性。

3、场景还原

确定业务目标后，还原用户的生活场景，设想用户的需求场景，再考察数据能否关联。理解生活，数据挖掘会很简单。商业最终解决的是人们的物质文化需求，你想挖掘什么样的群体，先从生活中去理解它，它在什么场景下需要这些产品，有什么行为习惯，在我们的数据中留下了哪些蛛丝马迹?譬如“外围女”这个群体，你too simple对她们一无所知，就很难把她们找出来。为了挖掘“工业区人群”，我们特地组织前往厂区调研他们购买手机、上网、生活习惯等情况，为了挖掘“出租车司机”，我们打车的时候对他们进行了访谈。

五个方面理解还原。

身份属性：譬如商务精英消费能力高使用Iphone手机比例高

状态变化：譬如夜间位置变换，推测用户搬家了有宽带需求

行为表达：譬如在社交网络、搜索引擎等互联网上表达了对目标商品的关注

习惯偏好：譬如喜欢日本料理、西餐厅的人群超60%使用Iphone手机

关系推测：譬如和快递员交互的用户，我们推测它是一个电商消费者

对于任何一个业务目标，都可以从上述五个方面还原与业务目标相关联的场景，还原足够多的场景，就可以挖掘出足够规模的用户数据。

4、找数据关联

还原出场景后，就要找数据进行关联。有些我们可以基于直接数据进行输出，没有直接的数据，则找间接数据选取算法进行推导，而间接数据的选取，可继续应用上述五个方面场景还原的方法。至于具体如何清洗数据、缺省异常值处理、算法选取、误差分析等等那些实操细节，文章很多。

5、快速收敛

建模是人与机器协作的结果，核心参与者是人，建模方向由人来确定，数据维度的选取主要是人(机器辅助验证)，算法也是人设计的，机器所起的所用是训练迭代，而机器储存的数据相对人脑太单一，人对数据结果、应用结果进行解读，及时输入一些理解能加快收敛的速度。

6、少即是多

挖掘的目标不仅仅是“有需求”，而是“能转化”，因为好的营销场景、文案，能激发那些原来看起来没有需求的用户的购买欲望，而即使是有需求的用户，如果不能直击它的痛点、愉悦点，也难以转化。

好的模型应尽量简单，很多复杂规则的模型有可能命中率高，但实际营销应用的时候，往往难以与营销特性相匹配，效果不一定好;而简单模型特征明显，全力聚焦用户特性策划营销动作，更能引起用户共鸣，产生兴趣进而购买。

7、高质量的数据才是硬道理

正是因为我们没有直接数据，所以我们只能找其它数据间接推导，如果我们掌握的数据与目标关联度很高，那么算法可以很简单，否则无论算法多么的先进，效果也是有一个瓶颈的。

与其花大力气建模，笔者更愿意前瞻性的解决数据源问题，收集更多更有效的数据。笔者更愿意当一个数据架构师，也一直自命数据架构师。

最后总结一下，建模其实并不神秘，本质上是让数据产生新的数据。而建模关键是要还原用户的生活场景，找准方向，找到合适的数据关联推导，快速校验迭代收敛。

via:数据分析网

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » “忘掉大数据”之“建模术”：数据挖掘还原用户的生活场景

爱盈利-运营小咖秀始终坚持研究分享移动互联网App数据运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号