Python 图片文字识别的实现之PaddleOCR - 教程之家

前言

什么是OCR?

光学字符识别（Optical Character Recognition, OCR），是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。简而言之，检测图像中的文本资料，并且识别出文本的内容。

那么有哪些应用场景呢？

其实我们日常生活中处处都有ocr的影子，比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中，机器学习已经越来越多的扮演着重要角色，也不再是神秘的东西。

OCR的技术路线是什么呢？

ocr的运行方式如下图，输入->图像预处理->文字检测->文本识别->输出。

Python 图片文字识别的实现之PaddleOCR

本文主要是介绍一个博主使用的比较好的OCR开源项目，在这里分享给大家——PaddleOCR。

项目Github地址: PaddleOCR地址

我会按照刚接触的状态，梳理一下验证使用该项目的过程。

项目使用

先把项目从github上clone下来，慢慢分析。

项目结构

首先我们看一下项目的构造。

Python 图片文字识别的实现之PaddleOCR

发现项目有中文的介绍说明，这就很方便了，点开按照官方的说明开始操作。

环境部署

点开README.md,，可以从文档教程中看到第一步就是教你如何安装环境。

Python 图片文字识别的实现之PaddleOCR

由于内容过多，我就做个概括，方便大家直接上手。

1、安装Anaconda，构造虚拟环境

这里可以参考我的另一篇文章，里面很详细：Python 机器学习第一章环境配置图解流程

官方给的是python3.8的虚拟环境，我们也构造一个，打开Anaconda Prompt。

Python 图片文字识别的实现之PaddleOCR

输入命令：

conda create -n paddle_env python=3.8

激活环境：

conda activate paddle_env

2、依赖包下载

paddlepaddle安装

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

layoutparser安装

pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

Shapely安装，这个需要下载，下载地址：Shapely下载地址

我选的是这个

Python 图片文字识别的实现之PaddleOCR

安装命令：

pip install Shapely-1.8.0-cp38-cp38-win_amd64.whl

paddleocr安装

pip install paddleocr -i https://mirror.baidu.com/pypi/simple

好的，环境有点多，都安装好了就开始上手使用吧。

测试代码

官方给出了两种模式，一是命令行执行，一是代码执行。为了直观的看到配置，我这里使用的是代码模式。

准备一张带文字的图片

Python 图片文字识别的实现之PaddleOCR

测试代码如下

#!/user/bin/env python
# coding=utf-8
"""
@project : ocr_paddle
@author  : huyi
@file   : test.py
@ide    : PyCharm
@time   : 2021-11-15 14:56:20
"""
from paddleocr import PaddleOCR, draw_ocr
 
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False,
                lang="ch")  # need to run only once to download and load model into memory
img_path = './data/2.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    # print(line[-1][0], line[-1][1])
    print(line)
 
# 显示结果
from PIL import Image
 
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

代码说明

1、因为我的电脑没有显卡，所以设置了use_gpu=False。

2、显示结果部分会将识别的文字用框标出来，并且展示识别的结果。

验证一下

Python 图片文字识别的实现之PaddleOCR

我们看到，打印的内容有识别出来的每句话所在的图片位置，以及识别结果和可信度。而上面的结果图中，将每句话对应的文字都框了出来。效果很不错！

参数补充

官方还给出了一些参数，可以调整输出的内容。可以参看quickstart.md文件。参数补充：

- 单独使用检测：设置`--rec`为`false`
- 单独使用识别：设置`--det`为`false`

官方还提供一个标准的json结构输出数据

PP-Structure的返回结果为一个dict组成的list，示例如下

```shell
[{ 'type': 'Text',
'bbox': [34, 432, 345, 462],
'res': ([[36.0, 437.0, 341.0, 437.0, 341.0, 446.0, 36.0, 447.0], [41.0, 454.0, 125.0, 453.0, 125.0, 459.0, 41.0, 460.0]],
[('Tigure-6. The performance of CNN and IPT models using difforen', 0.90060663), ('Tent ', 0.465441)])
}
]
```

总结

总的来说，这个项目还是很有意思的，训练的部分我就不多赘述了，毕竟准备数据挺麻烦的。回头我再想想这个项目可不可以魔改成好用的工具。

我们根本不需要最后的落脚点，只要不断前进就好了，只要不停下，道路就会不断延伸。——《进击的巨人》

如果本文对你有帮助的话，请不要吝啬你的赞，谢谢！

Python 图片文字识别的实现之PaddleOCR

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录环境准备 PDF 背景的应用场景设置纯色背景使用平铺图片作为背景实用技巧与高级应用封装背景管理工具类常见应用场景示例背景设计的最佳实践常见问题与解决...

目录背景如何将正整数转化为罗马数字完整的代码运行背景TkDocs tutorial 里介绍了 Tkinter，其中有 A First (Real) Example 一文，这篇文章里有一个使用 Tkinter 生成图形...

一、time 模块time模块是Python标准库中最基础、最常用的模块之一。它提供了各种处理时间的方法和函数，如获取当前时间、格式化时间、计算时间差等。time模块大部分函数的底...

目录 1. 安装与卸载 Poetry 2. 查看 Poetry 版本 3. 查看 Poetry 的位置 4. 依赖安装 Poetry 的优势在现代软件开发中，Python 因其简洁和强大的功能而广受欢迎。然而，随着项目...

目录引言使用Python保存PPT中的所有形状为图像文件用Python保存PPT中带格式设计的图片为图像文件引言将PowerPoint演示文稿中的形状（幻灯片中的内容元素，包括文本框、图形...

目录前言用Python删除PDF文档页边距前言在处理PDF文档时，有时候我们会遇到PDF文件带有较大的页边距的情况。这样过大的页边距不仅浪费了页面空间，而且在打印或电子阅读时也...

目录环境介绍类和函数区别封装性：状态保持：可重用性：继承和多态：设计模式：代码组织：执行流程：参数传递：返回值：上下文管理：总结环境window10，pyc...

目录一、JWT的介绍二、JWT的组成 1、Header（头部） 2、Payload（负载） 3、Signature（签名）三、Python写JWT 1、安装Jwt 2、使用JWT 3、解密JWT 总结一、JWT的介绍JW...

目录视频转换成 GIF 图形的重要性 1. 增强表达效果 2. 适应性强 3. 文件大小优化 4. 易于创建和编辑 5. 吸引用户注意力 6. 简化获取信息的步骤用python实现视gif...

目录一、XPATH概念二、常用规则与方法 1.f12例子: 2.节点获取文本 3.属性匹配 4. 属性获取 5.iframe标签处理三、同级节点元素定位四、关键字定位五、定位...

目录

前言

项目使用

项目结构

环境部署

1、安装Anaconda，构造虚拟环境

2、依赖包下载

测试代码

参数补充

总结

可能感兴趣的文章

热门文章