最近项目需要用到中文分词,实现词云和情感分析的效果。

因为不是十分重要的业务,第一反应是想着接入外部云厂商的 API 接口:

利用大公司的机器学习模型资源,快速实现需求,我这边可以腾出时间继续做活动项目。

虽然刚过完年,但是感觉事情还是不少——很多东西都没有做好,好多代码还得优化、迁移等等。

看了腾讯云的接口,太贵了。按数据量估计一天要好多人民币!

麻了麻了……还是自己做吧哈哈!

不得不说,Go 结巴 分词非常好用,相比其他库,它速度飞快!

原版是 C++ 实现的,但我的开发语言主要是 Go,作者也给了 Go 的绑定:

https://github.com/yanyiwu/gojieba

照着官方的 Demo,很快就完成了第一版。太强大了!

不过有些句子,分词结果并不符合预期。

比如 我是奥斯卡,速来,带我飞,快点进群 这句话,

速来 被硬生生拆分成两个字,

带我飞 变成 带我

阅读全文

使用消息队列,我们肯定希望不丢消息,也就是消息队列组件,需要保证消息的可靠交付。消息交付的可靠性保障,有以下三种承诺:

  • 最多一次(at most once):消息可能会丢失,但绝不会被重复发送。
  • 至少一次(at least once):消息不会丢失,但有可能被重复发送。
  • 精确一次(exactly once):消息不会丢失,也不会被重复发送。

默认是一般是 至少一次,也就是 Broker 收到并成功提交消息,并且 Producer 成功应答才会认为消息已经发送。

某些情况下,比如网络波动等,导致应答没有成功送达,会导致 Producer 重试,从而导致消息的重复发送。

阅读全文

这段时间工作的需求多了不少,文章开始越来越水了。

实在抱歉,时间真的很仓促。

本次分享的是一个函数——根据首尾字符串截取中间的字符串。

虽然这个函数非常简单,但是真的很好用!也很常用!

比如 “我今天真的很高兴” 这句话,要把 今天 截取出来:

常规的方式是 strings.Index 出位置,然后根据字符串(今天)的长度,返回词的内容。

如果是 HTML 呢?比如获取链接地址:

<a href='https://m.baidu.com/'>跳转到百度</a>

这个时候你还想用 strings.Index 吗?

我是不想用的!太麻烦了。而用我的这个函数,就很方便了!

直接 StringCut(s, "href='", "'", false) 就可以轻松拿到链接地址!非常通用,无需关心越界问题。

func StringCut(s, begin, end string, withBegin bool) string {
    beginPos := strings.Index(s, begin)
    if beginPos == -1 {
        return ""
    }
    s = s[beginPos+len(begin):]
    endPos := strings.Index(s, end)
    if endPos == -1 {
        return ""
    }
    result := s[:endPos]
    if withBegin {
        return begin + result
    } else {
        return result
    }
}

附带单元测试,包含了很多例子,如果还有特殊情况,欢迎补充(找 bug 哈哈):

阅读全文

容器化,是指使用容器技术(Docker/containerd等)运行应用程序(容器),并使用容器编排技术(例如 K8s)来管理这些容器。

我在之前的文章 《使用 Dockerfile 构建生产环境镜像》 提及普通的虚拟机部署存在的问题:

为什么有这篇文章,是因为我在真正做容器化改造的时候,发现公司生产环境存在大量的坑:

  • 传统虚拟机部署,基本依赖克隆或者手工编译。由于人力原因,SRE 历来单传,编译出来的 PHP、扩展等二进制版本不一致;
  • 项目开发人员痛苦不堪——他没办法模拟出接近于线上一致的环境(碰不到摸不着,各种扩展版本都要自己去编译);
  • 新人入职都会灵魂拷问你一句——我怎么把线上的代码跑起来?
  • ……

另外,传统的虚拟机部署,还存在成本浪费——虚拟机无法做到容器的资源隔离和扩缩容,资源利用率不高。

所以我们可以发现,有以下几点好处:

一、环境的高度一致性

  • 容器需要制作镜像文件,描述环境的构建过程,也就意味着它可以保证环境的高度一致
  • 无论本地环境或者生产环境,由于 Dockerfile 的存在,不同的操作系统也可以兼容
  • 高度一致性带来了环境的统一,统一的环境有利于 CI/CD 流程,结合自动化技术提升效率

二、资源隔离

  • 以往虚拟机容易因为混合部署,而某些应用耗费内存过大,导致程序 OOM 崩溃,而容器由于资源隔离,不会互相影响
  • 合理分配每个容器的资源,有利于提高资源利用率,降低资源成本
  • 通过 Linux Cgroups 技术(Linux Control Group)限制资源上限;通过 Linux NameSpace 机制修改进程看到的外部资源的 “视图”

三、轻量级

  • 相比虚拟机,容器启动速度在秒级别
  • 容器为进程,通过 Linux NameSpace 机制和 unionFS,使得进程本身看起来好像拥有一个隔离的环境和文件系统(实际上还是宿主机的一个进程)

容器化是未来的一大趋势!让我们拥抱云原生吧!

最后更新时间 2023-07-07.

macwk.com 在 2022-10-05 关站,域名停止解析,已经打不开了。

翻了很多资料,收集了几个网站作为替代,大家有需要可以试试,如果有更好的麻烦告诉我哈哈!

网站语言为中文,资源免费,推荐:

网站语言为英文,资源免费,推荐:

网站语言为中文,部分软件需要会员或赞助才能下载,不推荐: