核算汉字类似度
情形
有时候我们期望核算两个汉字的类似度,比方文本的 OCR 等场景。用于识别纠正。
完成
引入 maven
<dependency>
<groupId>com.github.houbb</groupId>
<artifactId>nlp-hanzi-similar</artifactId>
<version>1.3.0</version>
</dependency>
java 完成
double rate1 = HanziSimilarHelper.similar('末', '未');
回来对应的类似度:
0.9629629629629629
回来一个汉字的类似列表
情形
找到类似的汉字,有很多有趣的场景。
完成
List<String> list = HanziSimilarHelper.similarList('爱');
Assert.assertEquals("[爰, 爯, 受, 爭, 妥, 憂, 李, 爳, 叐, 雙]", list.toString());
开源地址
为了便于大家学习,上述代码已开源
github.com/houbb/nlp-h…
在线体验
在线体验
拓宽阅览
NLP 中文形近字类似度核算思路
中文形近字类似度算法完成,为汉字 NLP 尽一点绵薄之力
当代中国最贵的汉字是什么?
NLP 开源形近字算法补完计划(完结篇)
NLP 开源形近字算法之形近字列表(番外篇)
开源项目在线化 中文繁简体转换/灵敏词/拼音/分词/汉字类似度/markdown 目录