用KNIME进行情感分析 | 上

关注

来源： 2741 2017-02-22

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。

用KNIME进行情感分析 | 上

文 | 数据挖掘课程小组沈浩老师

这个案例展示了如何利用KNIME对社交媒体数据进行情感分析。

案例中的数据抓取的是Slashdot网站首页内容，由FundaciónBarcelona Media4提供。Slashdot是1997年成立一家非常受欢迎的科技新闻站。Slashdot网站首页的主要内容就是网友发布的新闻以及网友在评论区展开的讨论。案例使用的数据共包含约41337条评论，这些评论主要是11000多名Slashdot用户对163篇政治报道的讨论。

用KNIME进行情感分析 | 上

图1

研究思路

我们的研究目的是区分不同用户的情感取向。我们将通过对用户撰写的评论和文章的词语进行分析、做出用户情感取向判断。也就是说，我们通过测量用户(非匿名)撰写的评论和文章时使用的正面的情感、态度、观点词汇的数量以及负面情感、态度和观点词汇的数量，来判定该用户情感取向。用户使用正面词汇越多，其情感取向偏向正面，反之亦然。

此处涉及到标记词汇极性的问题，在这里我们使用MPQA主观词库来标记词汇的极性。MPQA是一个公开的词库，其中包含了关于词汇极性的数据。

研究流程

用KNIME进行情感分析 | 上

图2

首先读取从Slashot上获取的数据，选取报道主题为“interviews”的评论，删除匿名文章和匿名评论。然后将剩下的非匿名评论转化为文档方便之后的分析。与此同时，另外一边首先读取MPQA主观词汇，提取出词汇和极性，并且拆分为正面词汇和负面词库方便之后的标记。最后，DictionaryTagger节点将每个情感标记到评论中每个词语上。

用KNIME进行情感分析 | 上

图3

现在所有评论中的词汇都被标记成了正面或负面，我们就可以开始计算工作。我们要计算每个评论中的正面或负面词汇数量和每个用户共使用的正面或负面词汇数量。通过user id我们可以整合每个用户不同评论中的正面词汇和负面词汇。在流程图中对应的是Documentscoring和User scoring。最后，我们为不同情感取向的用户标注颜色，整理数据并制成散点图。

结果展示

下图是用户使用词汇的散点图，纵坐标是正面词汇，横坐标是负面词汇。绿色的用户情感取向正面;灰色代表用户情感取向既不是正面，也不是负面;红色代表情感取向负面。

用KNIME进行情感分析 | 上

图4

左上角红箭头指的用户是Duc Ruby，他是情感取向最正面的用户，也是经常在Slashdot上发表评论的用户。他使用的正面词汇数量是51，负面词汇数量是10，我们用正面词汇数量减去负面词汇数量得出其情感指数是40，即情感取向最正面的用户。

右下角红箭头指的用户是whytakemine，他是情感取向最负面的用户，也是经常在Slashdot上发表评论的用户。他使用的正面词汇数量是16，负面词汇数量是25，我们用正面词汇数量减去负面词汇数量得出其情感指数是-9，即情感取向最负面的用户。

左下角圆圈部分代表了大部分中立用户，他们在Slashdot上发表的评论很少，这也是无法判断其情感取向的可能原因。

总体而言，本次案例介绍的是如何利用社交媒体UGC内容对用户进行情感分析。其实，情感分析只是对用户进行了归类，它主要还是用于后续的其他研究，如结合社会网络，对其中的Leader和Follower做进一步分析。

数据挖掘课程小组沈雅婷 | 张帅祯 | 谭耀华

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » 用KNIME进行情感分析 | 上

爱盈利-运营小咖秀始终坚持研究分享移动互联网App数据运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

入门新手如何系统地学习数据挖掘？

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。数据挖掘：What？Why？....

运营人必须了解的数据基础知识（二）

背景：在下宇大神的运营群里，难免经常会和大家讨论运营的话题，每每涉及到数据的时候，总得重新解释很多基础的概念，比如什么叫PV、UV，什么叫次日留存率。所以发现很多互联网运营的新人，甚至很多老鸟，都对数据指标一知半解。所以觉得有必要开个课给大家科普一下....

DataEye的数据商业化反思

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。文|汪祥斌快春节了写点东西。....

日活近2亿后，百度App提出三大战略方向

早在今年的百度开发者大会上，百度方面公布了百度App的日活跃用户为1.9亿，接近2亿规模。这一数据意味着，平均每天13个中国人中，就有2个人会使用一次百度App进行搜索，或信息流内容的获取。在移动互联网流量见顶的当下，为何百度搜索的移动端产品日活还能....

大数据跨界，从这里开始

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。文|blogchong首先，....

董老师开讲了《大数据入门》2015.01.17硅谷创业协会讲座笔记：同学们好，今天的讲座主题是大数据入门，我的大纲如下首先自我介绍一下，我叫董飞，目前在硅谷的一家做在线教育公司Coursera做数据工程师，之前本科南开大学毕业，加入创业公司酷迅，做实....

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

用KNIME进行情感分析 | 上

评论

相关文章推荐

入门新手如何系统地学习数据挖掘？

运营人必须了解的数据基础知识（二）

DataEye的数据商业化反思

日活近2亿后，百度App提出三大战略方向

大数据跨界，从这里开始

董飞专栏：大数据入门——大数据相关技术、Hadoop生态、LinkedIn内部实战

友情链接