标签 "Trie" 下的文章

最近项目需要用到中文分词,实现词云和情感分析的效果。

因为不是十分重要的业务,第一反应是想着接入外部云厂商的 API 接口:

利用大公司的机器学习模型资源,快速实现需求,我这边可以腾出时间继续做活动项目。

虽然刚过完年,但是感觉事情还是不少——很多东西都没有做好,好多代码还得优化、迁移等等。

看了腾讯云的接口,太贵了。按数据量估计一天要好多人民币!

麻了麻了……还是自己做吧哈哈!

不得不说,Go 结巴 分词非常好用,相比其他库,它速度飞快!

原版是 C++ 实现的,但我的开发语言主要是 Go,作者也给了 Go 的绑定:

https://github.com/yanyiwu/gojieba

照着官方的 Demo,很快就完成了第一版。太强大了!

不过有些句子,分词结果并不符合预期。

比如 我是奥斯卡,速来,带我飞,快点进群 这句话,

速来 被硬生生拆分成两个字,

带我飞 变成 带我

阅读全文