文字识别OCR开源框架的对比–Tesseract vs EasyOCR

​前言:

OCR文字识别在目前有着比较好的应用,也出现了很多的文字识别软件,但软件是面向用户的。对于我们技术人员来说,有时难免需要在计算机视觉任务中加入文字识别,如车牌号识别,票据识别等,因此软件对我们是没用的,我们需要自己实现文字识别。

在文字识别方面,主要有两款主流的开源框架Tes软件工程seract和Easy计算机视觉技术OCR。本文讨论了 Tesseract 和 EasyOCR 使用 Python API 之间的主要区别,包括安装、使用示例、准确率和推理速度方面的对比。

使用示例

Tesseract

安装: pip install pytesseract pill卷积神经网络ow

使用示例:

f卷积核rom PIL import Ima可视化编程ge

import pytesseract

text=pytesseract.image_to_string(Image.open(filename))

p计算机视觉rint(text)

这只是一个简单的使用示例,在实际应用中,图像并非理想情况,还需要对图像进行一定的预处软件测试卷积神经网络以更好地识别。如去除椒盐噪声可视化是什么意思,去除干扰物,如在车牌识别中还会利用矩形框检测框出车牌所在位置,并放大,以更好地字符串是什么意思进行车牌号识别。

EasyOCR

安装:pip i卷积神经网络nstall easyocr

使用示例

import easyocr

reader = easyocr.Reader([‘ch_sim’, ‘en’])

text = reader.readtext(‘filename’)

print(text)

注:easyocr还会输出文字在图片中的坐标。

准确率

在参考链接[2]中进行了一项实验,使用1000张含字母的图片和1000张含数字的图片分别使用Tesseract和EasyOCR进行测试。

含字母的输入图像如下图所示:

文字识别OCR开源框架的对比--Tesseract vs EasyOCR
文字识别OCR开源框架的对比--Tesseract vs EasyOCR

含数字的输入图像如下图所示:

文字识别OCR开源框架的对比--Tesseract vs EasyOCR
文字识别OCR开源框架的对比--Tesseract vs EasyOCR

经过测软件商店试得出下面两个开源框架的准确率对比

文字识别OCR开源框架的对比--Tesseract vs EasyOCR
文字识别OCR开源框架的对比--Tesseract vs EasyOCR​ 如上图所示,Tesseract 在字母识别方面做得更好,而 EasyOCR 在数字识别方面做得更好。

卷积是什么意思外,软件工程它们在识别某些字符时存在完全不同的问题。例如,Tesseract 倾向于将诸如 29977.23 之类的东西识别为 2997.23,或者将carrier 识别为 cartier字符。另一方面,EasyOCR 更有可能将 94268.1 识别为 94268,或者advances 识别为 atvances。卷积神经网络的工作原理这两个单词识别的举例表明这两个框架对单个字母软件的识别倾向。

推理速度

文字识别OCR开源框架的对比--Tesseract vs EasyOCR
文字识别OCR开源框架的对比--Tesseract vs EasyOCR

在速度方面,Tesse卷积积分ract 在 CPU 上的表现优于 EasyOCR,而 EasyOCR 在软件库 GPU 上的表现更好。

结论

Tesseract 在字母识别方面表现卷积公式更好,而 EasyOCR 在数字方面表现更好。如果图片包含大量字母,可以考虑字符是什么 Tesseract。此外,EasyOCR 的输出是小写的。如果大写对处理很重要,还应该使用 Tesseract。另一方面,如果图片中包含大量数字,建议 EasyOCR。

参考链接

blog.csdn.net/fatesunl可视化管理ove…

medium.com/swlh/ocr-en…

在公众号中回复关键字 “技术总结” 可获取以下文章的汇总pdf。

文字识别OCR开源框架的对比--Tesseract vs EasyOCR
文字识别OCR开源框架的对比--Tesseract vs EasyOCR

其它文章

计算机视觉专业术语总结(一)构建计算机视觉的知识体系

欠拟合与过拟合技术总结

归一化方法总结

论文创新的常见思路总结

CV方向的高效阅读英文文献方法总结

计算机视觉中的小样本学习综述

知识蒸馏的简要概述

优化OpenCV视频的读取速度

NMS总结

损失函数技术总结

注意力机制技术总结

特征金字塔技术总结

池化技术总结计算机视觉就业

数据增强字符常量方法总结

CNN结构演变总结(一)经典模型

CNN结构演变总结(二)计算机视觉和机器视觉的区别轻量化模型

CNN结构演变总结(三)设计原则

如何看待计算机视觉未来的走向

CNN可视化技术总结(一)-特征可视化编程图可视化

CNN可视化技术总结(二)-卷积核可视化

CNN可卷积是什么意思视化技术总结(三)-类可视化

CNN可视化技术总结(四)-可视化工具与项目

发表评论

提供最优质的资源集合

立即查看 了解详情