聚类、K-Means、例子、细节(1/2)

关注

来源： 3031 2017-02-23

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。

聚类、K-Means、例子、细节(1/2)

作者：程Sir

一、聚类

今天说聚类，但是必须要先理解聚类和分类的区别，很多业务人员在日常分析时候不是很严谨，混为一谈，其实二者有本质的区别。

分类其实是从特定的数据中挖掘模式，作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器，一开始的时候可能什么都不过滤，在日常使用过程中，我人工对于每一封邮件点选“垃圾”或“不是垃圾”，过一段时间，Gmail就体现出一定的智能，能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中，其实是给每一条邮件打了一个“标签”，这个标签只有两个值，要么是“垃圾”，要么“不是垃圾”，Gmail就会不断研究哪些特点的邮件是垃圾，哪些特点的不是垃圾，形成一些判别的模式，这样当一封信的邮件到来，就可以自动把邮件分到“垃圾”和“不是垃圾”这两个我们人工设定的分类的其中一个。

聚类的的目的也是把数据分类，但是事先我是不知道如何去分的，完全是算法自己来判断各条数据之间的相似性，相似的就放在一起。在聚类的结论出来之前，我完全不知道每一类有什么特点，一定要根据聚类的结果通过人的经验来分析，看看聚成的这一类大概有什么特点。

二、K-Means

聚类算法有很多种(几十种)，K-Means是聚类算法中的最常用的一种，算法最大的特点是简单，好理解，运算速度快，但是只能应用于连续型的数据，并且一定要在聚类前需要手工指定要分成几类。

下面，我们描述一下K-means算法的过程，为了尽量不用数学符号，所以描述的不是很严谨，大概就是这个意思，“物以类聚、人以群分”：

首先输入k的值，即我们希望将数据集经过聚类得到k个分组。
从数据集中随机选择k个数据点作为初始大哥(质心，Centroid)
对集合中每一个小弟，计算与每一个大哥的距离(距离的含义后面会讲)，离哪个大哥距离近，就跟定哪个大哥。
这时每一个大哥手下都聚集了一票小弟，这时候召开人民代表大会，每一群选出新的大哥(其实是通过算法选出新的质心)。
如果新大哥和老大哥之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛)，可以认为我们进行的聚类已经达到期望的结果，算法终止。
如果新大哥和老大哥距离变化很大，需要迭代3~5步骤。

三、傻冒案例

说这个案例傻冒，是因为实在过于简单而且无任何现实意义，唯一的用处是提高对于K-Means的感性认识。

我搞了6个点，从图上看应该分成两推儿，前三个点一堆儿，后三个点是另一堆儿。现在手工执行K-Means，体会一下过程，同时看看结果是不是和预期一致。

1.选择初始大哥：

我们就选P1和P2

2.计算小弟和大哥的距离：

P3到P1的距离从图上也能看出来(勾股定理)，是√10 = 3.16;P3到P2的距离√((3-1)^2+(1-2)^2 = √5 = 2.24，所以P3离P2更近，P3就跟P2混。同理，P4、P5、P6也这么算，如下：

P3到P6都跟P2更近，所以第一次站队的结果是：

组A：P1

组B：P2、P3、P4、P5、P6

3.人民代表大会：

组A没啥可选的，大哥还是P1自己

组B有五个人，需要选新大哥，这里要注意选大哥的方法是每个人X坐标的平均值和Y坐标的平均值组成的新的点，为新大哥，也就是说这个大哥是“虚拟的”。因此，B组选出新大哥的坐标为：

P哥((1+3+8+9+10)/5，(2+1+8+10+7)/5)=(6.2，5.6)

综合两组，新大哥为P1(0，0)，P哥(6.2，5.6)，而P2-P6重新成为小弟

4.再次计算小弟到大哥的距离：

这时可以看到P2、P3离P1更近，P4、P5、P6离P哥更近，所以第二次站队的结果是：

组A：P1、P2、P3

组B：P4、P5、P6(虚拟大哥这时候消失)

5.第二届人民代表大会：

按照上一届大会的方法选出两个新的虚拟大哥：

P哥1(1.33，1) P哥2(9，8.33)，P1-P6都成为小弟

6.第三次计算小弟到大哥的距离：

这时可以看到P1、P2、P3离P哥1更近，P4、P5、P6离P哥2更近，所以第二次站队的结果是：

组A：P1、P2、P3

组B：P4、P5、P6

我们发现，这次站队的结果和上次没有任何变化了，说明已经收敛，聚类结束，聚类结果和我们最开始设想的结果完全一致。

下文阅读：聚类、K-Means、例子、细节(1/2)

原文>>>

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » 聚类、K-Means、例子、细节(1/2)

爱盈利-运营小咖秀始终坚持研究分享移动互联网App数据运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

B站：App下架整顿时间从7月26日持续到8月25日

导语：7月30日晚间消息，B站公告称，App下架整顿时间从7月26日持续到8月25日，临时下架不会对现有用户造成影响。7月30日晚间消息，B站公告称，App下架整顿时间从7月26日持续到8月25日，临时下架不会对现有用户造成影响。以下为公告原文：近日....

数据运营丨头部App已无价值，中尾部应用才是应用商店挖开“金矿”的钥匙

19亿美金，刷新了应用商店平台的最高价值，3年后，同为应用商店排名前八的豌豆荚被阿里以2亿美金的价格收购，行业变化竟如此之快。豌豆荚、应用宝、百度手机助手们最辉煌的日子已经过去，现在的应用商店不仅要打破自身生存困境，而且还要面临跟手机厂商自带的应用商....

江狼：大数据营销-赋能

文：江狼介绍：阿里妈妈事业部联盟业务总监文源：运营小咖秀举办运营干货沙龙之阿里健康望京站严禁任何形式的转载、部分转载；违者必究！如有合作咨询，请联系微信：顽皮木偶（微信号：kuko1028）嘉宾分享文章资料：点击下载嘉宾分享PPT资料：点击下载密码:....

让数据收集技术走出非洲，肯尼亚数据收集初创公司 Bamba 获得 110 万美元种子轮融资

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。Bamba是一家非洲数据收集....

扛住100亿次请求如何做一个“有把握”的春晚红包系统？（PPT下载）

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。羊年春晚摇一摇活动已经落下帷....

艾瑞咨询：衣食住行类APP垂直化发展趋势明显多家房产企业布局手机移动端

导语：移动应用是企业吸引移动端用户、占据用户移动端上网入口重要举措。衣食住行类APP定位不断聚焦、垂直化发展趋势愈发明显。移动APP发展迅速，衣食住行类APP垂直化趋势明显当前，随着智能终端的快速普及和移动网民的高速增长，以及移动终端操作系统的日臻完....

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

聚类、K-Means、例子、细节(1/2)

一、聚类

二、K-Means

三、傻冒案例

评论

相关文章推荐

B站：App下架整顿时间从7月26日持续到8月25日

数据运营丨头部App已无价值，中尾部应用才是应用商店挖开“金矿”的钥匙

江狼：大数据营销-赋能

让数据收集技术走出非洲，肯尼亚数据收集初创公司 Bamba 获得 110 万美元种子轮融资

扛住100亿次请求如何做一个“有把握”的春晚红包系统？（PPT下载）

艾瑞咨询：衣食住行类APP垂直化发展趋势明显多家房产企业布局手机移动端

友情链接

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

一、聚类

二、K-Means

三、傻冒案例

评论

相关文章推荐

B站：App下架整顿时间从7月26日持续到8月25日

数据运营丨头部App已无价值，中尾部应用才是应用商店挖开“金矿”的钥匙

江狼：大数据营销-赋能

让数据收集技术走出非洲，肯尼亚数据收集初创公司 Bamba 获得 110 万美元种子轮融资

扛住100亿次请求 如何做一个“有把握”的春晚红包系统？（PPT下载）

艾瑞咨询：衣食住行类APP垂直化发展趋势明显 多家房产企业布局手机移动端

友情链接

扛住100亿次请求如何做一个“有把握”的春晚红包系统？（PPT下载）

艾瑞咨询：衣食住行类APP垂直化发展趋势明显多家房产企业布局手机移动端