最近项目需要用到中文分词,实现词云和情感分析的效果。
因为不是十分重要的业务,第一反应是想着接入外部云厂商的 API 接口:
利用大公司的机器学习模型资源,快速实现需求,我这边可以腾出时间继续做活动项目。
虽然刚过完年,但是感觉事情还是不少——很多东西都没有做好,好多代码还得优化、迁移等等。
看了腾讯云的接口,太贵了。按数据量估计一天要好多人民币!
麻了麻了……还是自己做吧哈哈!
不得不说,Go 结巴
分词非常好用,相比其他库,它速度飞快!
原版是 C++ 实现的,但我的开发语言主要是 Go,作者也给了 Go 的绑定:
https://github.com/yanyiwu/gojieba
照着官方的 Demo,很快就完成了第一版。太强大了!
不过有些句子,分词结果并不符合预期。
比如 我是奥斯卡,速来,带我飞,快点进群
这句话,
速来
被硬生生拆分成两个字,
带我飞
变成 带我
、飞
。