ocr用了哪些算法技术（开源精选基于飞桨的OCR工具库-PaddleOCR）

《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期分享的PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力使用者训练出更好的模型，并应用落地。

ocr用了哪些算法技术（开源精选基于飞桨的OCR工具库-PaddleOCR）(1)

项目特性

PPOCR系列高质量预训练模型，准确地识别效果

超轻量ppocr_mobile移动端系列：检测（3.0M）方向分类器（1.4M）识别（5.0M）= 9.4M
通用ppocr_server系列：检测（47.1M）方向分类器（1.4M）识别（94.9M）= 143.4M
支持中英文数字组合识别、竖排文本识别、长文本识别
支持80 多语言识别，详见多语言模型

丰富易用的OCR相关工具组件

半自动数据标注工具PPOCRLabel：支持快速高效的数据标注
数据合成工具Style-Text：批量合成大量与目标场景类似的图像

支持用户自定义训练，提供丰富的预测推理部署方案
支持PIP快速安装使用
可运行于Linux、Windows、MacOS等多种系统

效果展示

ocr用了哪些算法技术（开源精选基于飞桨的OCR工具库-PaddleOCR）(2)

ocr用了哪些算法技术（开源精选基于飞桨的OCR工具库-PaddleOCR）(3)

快速安装

经测试PaddleOCR可在glibc 2.23上运行，您也可以测试其他glibc版本或安装glic 2.23 PaddleOCR 工作环境

PaddlePaddle 2.0.0
Python3.7
glibc 2.23
cuDNN 7.6 (GPU)

1. （建议）准备docker环境。第一次使用这个镜像，会自动下载该镜像，请耐心等待。

# 切换到工作目录下 cd /home/Projects # 首次运行需创建一个docker容器，再次运行时不需要运行当前命令 # 创建一个名字为ppocr的docker容器，并将当前目录映射到容器的/paddle目录下如果您希望在CPU环境下使用docker，使用docker而不是nvidia-docker创建docker sudo docker run --name ppocr -v $PWD:/paddle --network=host -it paddlepaddle/paddle:latest-dev-cuda10.1-cudnn7-gcc82 /bin/bash 如果使用CUDA10，请运行以下命令创建容器，设置docker容器共享内存shm-size为64G，建议设置32G以上 sudo nvidia-docker run --name ppocr -v $PWD:/paddle --shm-size=64G --network=host -it paddlepaddle/paddle:latest-dev-cuda10.1-cudnn7-gcc82 /bin/bash 您也可以访问[DockerHub](https://hub.docker.com/r/paddlepaddle/paddle/tags/)获取与您机器适配的镜像。 # ctrl P Q可退出docker 容器，重新进入docker 容器使用如下命令 sudo docker container exec -it ppocr /bin/bash

2. 安装PaddlePaddle 2.0

pip3 install --upgrade pip 如果您的机器安装的是CUDA9或CUDA10，请运行以下命令安装 python3 -m pip install paddlepaddle-gpu==2.0.0 -i https://mirror.baidu.com/pypi/simple 如果您的机器是CPU，请运行以下命令安装 python3 -m pip install paddlepaddle==2.0.0 -i https://mirror.baidu.com/pypi/simple 更多的版本需求，请参照[安装文档](https://www.paddlepaddle.org.cn/install/quick)中的说明进行操作。

3. 克隆PaddleOCR repo代码

【推荐】git clone https://github.com/PaddlePaddle/PaddleOCR 如果因为网络问题无法pull成功，也可选择使用码云上的托管： git clone https://gitee.com/paddlepaddle/PaddleOCR 注：码云托管代码可能无法实时同步本github项目更新，存在3~5天延时，请优先使用推荐方式。

4. 安装第三方库

cd PaddleOCR pip3 install -r requirements.txt

基于Python预测引擎推理

inference 模型（paddle.jit.save保存的模型）一般是模型训练，把模型结构和模型参数保存在文件中的固化模型，多用于预测部署场景。训练过程中保存的模型是checkpoints模型，保存的只有模型的参数，多用于恢复训练等。与checkpoints模型相比，inference 模型会额外保存模型的结构信息，在预测部署、加速推理上性能优越，灵活方便，适合于实际系统集成。

文本检测模型推理

文本检测模型推理，默认使用DB模型的配置参数。当不使用DB模型时，在推理时，需要通过传入相应的参数进行算法适配，细节参考下文。

1. 超轻量中文检测模型推理

# 下载超轻量中文检测模型： wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_det_infer.tar tar xf ch_ppocr_mobile_v2.0_det_infer.tar python3 tools/infer/predict_det.py --image_dir="./doc/imgs/00018069.jpg" --det_model_dir="./ch_ppocr_mobile_v2.0_det_infer/"

可视化文本检测结果默认保存到./inference_results文件夹里面，结果文件的名称前缀为'det_res'。结果示例如下：

ocr用了哪些算法技术（开源精选基于飞桨的OCR工具库-PaddleOCR）(4)

通过参数limit_type和det_limit_side_len来对图片的尺寸进行限制， limit_type可选参数为[max, min]， det_limit_size_len 为正整数，一般设置为32 的倍数，比如960。

参数默认设置为limit_type='max', det_limit_side_len=960。表示网络输入图像的最长边不能超过960，如果超过这个值，会对图像做等宽比的resize操作，确保最长边为det_limit_side_len。设置为limit_type='min', det_limit_side_len=960 则表示限制图像的最短边为960。

2. DB文本检测模型推理

首先将DB文本检测训练过程中保存的模型，转换成inference model。以基于Resnet50_vd骨干网络，在ICDAR2015英文数据集训练的模型为例（模型下载地址 )，可以使用如下命令进行转换：

python3 tools/export_model.py -c configs/det/det_r50_vd_db.yml -o Global.pretrained_model=./det_r50_vd_db_v2.0_train/best_accuracy Global.save_inference_dir=./inference/det_db

可视化文本检测结果默认保存到./inference_results文件夹里面，结果文件的名称前缀为'det_res'。结果示例如下：

ocr用了哪些算法技术（开源精选基于飞桨的OCR工具库-PaddleOCR）(5)

注意：由于ICDAR2015数据集只有1000张训练图像，且主要针对英文场景，所以上述模型对中文文本图像检测效果会比较差。

ocr用了哪些算法技术（开源精选基于飞桨的OCR工具库-PaddleOCR）

最新推荐

热门推荐