11大Java开源中文分词器的使用方法和分词效果对比

关注

来源： 2562 2017-02-22

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。

11大Java开源中文分词器的使用方法和分词效果对比

作者：liuchi1993

本文的目标有两个：

1、学会使用11大Java开源中文分词器

2、对比分析11大Java开源中文分词器的分词效果

本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。

11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口：

11大Java开源中文分词器的使用方法和分词效果对比

从上面的定义我们知道，在Java中，同样的方法名称和参数，但是返回值不同，这种情况不可以使用重载。

这两个方法的区别在于返回值，每一个分词器都可能有多种分词模式，每种模式的分词结果都可能不相同，第一个方法忽略分词器模式，返回所有模式的所有不重复分词结果，第二个方法返回每一种分词器模式及其对应的分词结果。

在这里，需要注意的是我们使用了Java8中的新特性默认方法，并使用stream把一个map的value转换为不重复的集合。

下面我们利用这11大分词器来实现这个接口：

1、word分词器

11大Java开源中文分词器的使用方法和分词效果对比

2、Ansj分词器

11大Java开源中文分词器的使用方法和分词效果对比

3、Stanford分词器

11大Java开源中文分词器的使用方法和分词效果对比

4、FudanNLP分词器

11大Java开源中文分词器的使用方法和分词效果对比

5、Jieba分词器

11大Java开源中文分词器的使用方法和分词效果对比

6、Jcseg分词器

11大Java开源中文分词器的使用方法和分词效果对比

7、MMSeg4j分词器

11大Java开源中文分词器的使用方法和分词效果对比

8、IKAnalyzer分词器

11大Java开源中文分词器的使用方法和分词效果对比

9、Paoding分词器

11大Java开源中文分词器的使用方法和分词效果对比

10、smartcn分词器

11大Java开源中文分词器的使用方法和分词效果对比

11、HanLP分词器

11大Java开源中文分词器的使用方法和分词效果对比

现在我们已经实现了本文的第一个目的：学会使用11大Java开源中文分词器。

最后我们来实现本文的第二个目的：对比分析11大Java开源中文分词器的分词效果，程序如下：

11大Java开源中文分词器的使用方法和分词效果对比

运行结果如下：

11大Java开源中文分词器的使用方法和分词效果对比

完整代码看这里

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » 11大Java开源中文分词器的使用方法和分词效果对比

爱盈利-运营小咖秀始终坚持研究分享移动互联网App数据运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

数据运营丨95后争晒包子头，in app与A站告诉你二次元IP该怎么玩？

在前不久结束的ChinaJoy现场，AC娘灵魂级饰物包子头在线下异常火爆，成为二次元最火的一个IP。七夕期间，影像社交平台in和中国二次元文化的发源地AcFun弹幕视频网展开的一次深度合作，将这一热度由线下带入线上。inapp为A站定制了4款包子头贴....

拼多多下架风波背后，应用APP们生存不易？

今天，拼多多又被迫上“头条”了。起因是有媒体报道说在AppStore搜索拼多多，只有商家版可用，买家版无法获取。随后，拼多多官方回应这是技术bug问题，且只是短期下架，将在产品紧急修复后尽快上架。就着拼多多自带强大舆论属性的体质，一时间各种猜测也甚嚣....

数据运营丨被曝资金链紧张、大规模裁员小黄车快黄了？

导语：一个正确可见的单车商业模式并未形成。车辆损耗和运营成本远超预期，整个充满变量的财务模型只是空中楼阁。对戴威和ofo来说，刚刚过去的周末并不轻松。6月1日，有消息称ofo由于资金链紧张，总部已经开始大规模裁员，同时高管层变动剧烈，曾任COO的张严....

易观智库：中国大数据产业生态图谱2016(附下载）

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。以下内容来自易观智库：大数据....

数据运营丨百度Q1财报亮眼：加入信息流的百度APP正在加速抢占用户时间

北京时间4月27日凌晨，百度公布了Q1季度的财报，财报显示，百度本财季总营收为人民币209亿元（约合33.3亿美元），同比增长31%；第一财季净利润为人民币67亿元（约合11亿美元），同比增长277%。这是一份超出华尔街预期的财报。受此影响，百度股价....

数据运营丨淘宝推“特价版”APP、提“消费分级”，打击拼多多的路还有多长？

导语：实际上，面对拼多多的迅速起势（两年做到3亿注册用户，月GMV400亿元），阿里已在公关、抢夺用户等方面做出不少反击，包括公开点名拼多多售假、推出淘宝亲情账号业务、春晚广告等等。这些举措直指拼多多的核心特点：低价商品和极度下沉的人群。淘宝昨天正式....

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

11大Java开源中文分词器的使用方法和分词效果对比

评论

相关文章推荐

数据运营丨95后争晒包子头，in app与A站告诉你二次元IP该怎么玩？

拼多多下架风波背后，应用APP们生存不易？

数据运营丨被曝资金链紧张、大规模裁员小黄车快黄了？

易观智库：中国大数据产业生态图谱2016(附下载）

数据运营丨百度Q1财报亮眼：加入信息流的百度APP正在加速抢占用户时间

数据运营丨淘宝推“特价版”APP、提“消费分级”，打击拼多多的路还有多长？

友情链接

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

评论

相关文章推荐

数据运营丨95后争晒包子头，in app与A站告诉你二次元IP该怎么玩？

拼多多下架风波背后，应用APP们生存不易？

数据运营丨被曝资金链紧张、大规模裁员 小黄车快黄了？

易观智库：中国大数据产业生态图谱2016(附下载）

数据运营丨百度Q1财报亮眼：加入信息流的百度APP正在加速抢占用户时间

数据运营丨淘宝推“特价版”APP、提“消费分级”，打击拼多多的路还有多长？

友情链接

数据运营丨被曝资金链紧张、大规模裁员小黄车快黄了？