java 如何计算两个汉字的相似度？如何获得一个汉字的相似汉字？

2023-04-20 0 0 0

详情介绍
常见问题

核算汉字类似度

情形

有时候我们期望核算两个汉字的类似度，比方文本的 OCR 等场景。用于识别纠正。

完成

引入 maven

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>nlp-hanzi-similar</artifactId>
    <version>1.3.0</version>
</dependency>

java 完成

double rate1 = HanziSimilarHelper.similar('末', '未');

回来对应的类似度：

0.9629629629629629

回来一个汉字的类似列表

情形

找到类似的汉字，有很多有趣的场景。

完成

List<String> list = HanziSimilarHelper.similarList('爱');
Assert.assertEquals("[爰, 爯, 受, 爭, 妥, 憂, 李, 爳, 叐, 雙]", list.toString());

开源地址

为了便于大家学习，上述代码已开源

github.com/houbb/nlp-h…

在线体验

在线体验

拓宽阅览

NLP 中文形近字类似度核算思路

中文形近字类似度算法完成，为汉字 NLP 尽一点绵薄之力

当代中国最贵的汉字是什么？

NLP 开源形近字算法补完计划（完结篇）

NLP 开源形近字算法之形近字列表（番外篇）

开源项目在线化中文繁简体转换/灵敏词/拼音/分词/汉字类似度/markdown 目录

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

免费下载或者VIP会员资源能否直接商用？

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。
提示下载完但解压或打开不了？

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们。
找不到素材资源介绍文章里的示例图片？

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。
付款后无法显示下载地址或者无法查看内容？

如果您已经成功付款但是网站没有弹出成功提示，请联系站长提供付款信息为您处理
购买该资源后，可以退款吗？

源码素材属于虚拟商品，具有可复制性，可传播性，一旦授予，不接受任何形式的退款、换货要求。请您在购买获取之前确认好是您所需要的资源