用Python写了一个图像文字识别OCR工具

引言

最近在技术交流群里聊到一个关于图像文字识别的需求，在工作、生活中常常会用到，比如票据、漫画、扫描件、照片的文本提取。

博主基于 PyQt + labelme + PaddleOCR 写了一个桌面端的OCR工具，用于快速实现图片中文本区域自动检测+文本自动识别。

识别效果产品生命周期如下图所示：

所有框选区域为OCR算法自动检测，右侧列表有每个框对应的文字内容；点击右侧“识别结果”中的文本记录，python123然后点击“复http 500制到剪贴板”即可复制该文本内容。

功能列表

文本区域检测+文字识别
文本区域可视化
文字内容列表
图像、文件夹加载
图像滚轮缩放查看
绘制区域、编辑区域
复制所选文本识别结果

OCR部分

图漫画后浪免费第8章像文字检测+文字识别算法，主要借助paddleo产品设计cr实现。

创建或者选择一个虚拟环境，安装需要用到的第三方库。

condacreate-nocrcondaactivateocr

安装框架

如果你没有NVIDIA GPU，或GPU不支持CUDA，可以python编程安装CPU版本：

#CPU版本pipinstallpaddlepaddle==2.1.0-ihttps://mirror.baidu.com/pypi/simple

如果你的GPhttps和http的区别U安装过CUDA9或python语言CUDA10，cuDNN 7.6+，可以选择下面这个GPU版本：

#GPU版本python3-mpipinstallpaddlepaddle-gpu==2.1.0-ihttps://mirror.baidu.com/pypi/simple

安装 PaddleOhttps域名CR

安装paddleocr：

pipinstall"paddleocr>=2.0.1"#推荐使用2.0.1+版本

版面分析，需要安装 Layout-Parser：

pip3install-Uhttps://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

测试安装是否成功

安装完成后，测试一张图片--image_dir ./imgs/11.jpg，采用中英文检测+方向分类器+识别全流程产品领域的偏好：

paddleocr--image_dir./imgs/11.jpg--use_angle_clstrue--use_gpufalse

输出一个lishttps域名t：

用Python写了一个图像文字识别OCR工具

在python中调用

from paddleocr import PaddleOCR, draw_ocr
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
img_path = './imgs/11.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    print(line)

输出结果是一个list，每个item包含了文本框，文字和识python怎么读别置信度：

[[[24.0, 36.0], [304.0, 34.0], [304.0, 72.0], [24.0, 74.0]], [‘纯臻营养护发素’, 0.964739]] [[[24.0, 80.0], [172.0, 80.0], [172.0, 104.0], [24.0, 104.0]], [‘产品信息/参数’, 0.98069626]] [[[24.0, 109.0], [333.0, 109.0], [333.0, 136.0], [24.0, 136.0]], [‘（45元/每公斤，100公斤起订）’, 0.9676722]] ……

界面部分

界面部分基于pyqt5实现，其中pyqt GUI程序开发入门和环境配置，详见一篇博客(具体见文末)。

主要步骤：

界面布局设计

在QtDesigner中拖拽控件，完成程序界面布局，并保存*.ui文件。

用Python写了一个图像文字识别OCR工具

利用 pyuic 自动生成界面代码

在 pycharm 的项目文件结构中找到*.ui文件，右键——External Toohttp://192.168.1.1登录ls——pyuic，会在ui文件同级目录下自动生成界面 ui 的 PythoHTTPn 代码。

用Python写了一个图像文字识别OCR工具

编写界面业务类http代理

业务类 MainWindow 实现程序逻辑和算法功能，与前面第2步生成的ui实现解耦，避免每次修改ui文件会影响业务代码。ui产品设计专业界面上的控件可以通过self._ui.xxxOb漫画猫jectName访问。

class MainWindow(QMainWindow):
 FIT_WINDOW, FIT_WIDTH, MANUAL_ZOOM = 0, 1, 2
 def __init__(self):
  super().__init__()  # 调用父类构造函数，创建QWidget窗体
  self._ui = Ui_MainWindow()  # 创建ui对象
  self._ui.setupUi(self)  # 构造ui
  self.setWindowTitle(__appname__)
  # 加载默认配置
  config = get_config()
  self._config = config    
  # 单选按钮组
        self.checkBtnGroup = QButtonGroup(self)
        self.checkBtnGroup.addButton(self._ui.checkBox_ocr)
        self.checkBtnGroup.addButton(self._ui.checkBox_det)
        self.checkBtnGroup.addButton(self._ui.checkBox_recog)
        self.checkBtnGroup.addButton(self._ui.checkBox_layoutparser)
        self.checkBtnGroup.setExclusive(True)

实现界面业务逻辑

对主界面上的按钮、列表、绘图控件进行信号槽连接。自定义的槽函数不用专门声明，如果是自定义的信号http 302，需要在类__ini产品营销策略t__()前加上yourSignal= pyqtSignal(args)。

这里以按钮响应函数、列表响应函数为例。按钮点击的信号是clicked，listWidget列表切换选择的信号是itemSelectionChanged。

# 按钮响应函数
self._ui.btnOpenImg.clicked.connect(self.openFile)
self._ui.btnOpenDir.clicked.connect(self.openDirDialog)
self._ui.btnNext.clicked.connect(self.openNextImg)
self._ui.btnPrev.clicked.connect(self.openPrevImg)
self._ui.btnStartProcess.clicked.connect(self.startProcess)
self._ui.btnCopyAll.clicked.connect(self.copyToClipboard)
self._ui.btnSaveAll.clicked.connect(self.saveToFile)
self._ui.listWidgetResults.itemSelectionChanged.connect(self.onItemResultClicked)

5. 运行看看效果

运行python main.py即可启动GUI程序。

打开图片→选择语言模型ch（中文）→选择文本检测+识别→点击开始，检测完的文本区域会自动画框，并在右侧识别结果——文本Tab页的列表中显示。

用Python写了一个图像文字识别OCR工具

所有检测出文本的http 404区域列表，在识别结果——区域Tpython怎么读ab页：

用Python写了一个图像文字识别OCR工具

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

用Python写了一个图像文字识别OCR工具

引言

功能列表

OCR部分

安装框架

安装 PaddleOhttps域名CR

测试安装是否成功

在python中调用

界面部分

界面布局设计

利用 pyuic 自动生成界面代码

编写界面业务类http代理

实现界面业务逻辑

5. 运行看看效果

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

用Python写了一个图像文字识别OCR工具

引言

功能列表

OCR部分

安装框架

安装 PaddleOhttps域名CR

测试安装是否成功

在python中调用

界面部分

界面布局设计

利用 pyuic 自动生成界面代码

编写界面业务类http代理

实现界面业务逻辑

5. 运行看看效果

评论(0)

提示：请文明发言 取消回复

近期文章

近期评论

提示：请文明发言取消回复