File size: 2,212 Bytes
230c9a6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
..  _algorithm_ocr:
==========================
光学字符识别(OCR)算法
==========================

简介
====================

光学字符识别(OCR)是指对图片中的文字块进行检测和识别。


模型使用
====================

在配置好环境的情况下,直接执行 ``scripts/ocr.py`` 即可运行OCR算法脚本。

.. code:: shell

   $ python scripts/ocr.py --config configs/ocr.yaml


模型配置
--------------------

.. code:: yaml

   inputs: assets/demo/ocr
   outputs: outputs/ocr
   visualize: True
   tasks:
      ocr:
         model: ocr_ppocr
         model_config:
            lang: ch
            show_log: True
            det_model_dir: models/OCR/PaddleOCR/det/ch_PP-OCRv4_det
            rec_model_dir: models/OCR/PaddleOCR/rec/ch_PP-OCRv4_rec
            det_db_box_thresh: 0.3

- inputs/outputs: 分别定义输入文件路径和输出路径
- visualize: 是否对模型结果进行可视化,可视化结果会保存在outputs目录下。
- tasks: 定义任务类型,当前只包含一个OCR任务
- model: 定义具体模型类型, 当前仅提供PaddleOCR模型
- model_config: 定义模型配置
- lang: 定义语种,默认语种ch支持中英文文字的检测和识别
- show_log: 是否打印检测识别过程的日志
- det_model_dir: 定义PaddleOCR检测模型的路径,指定路径不存在时,会自动下载模型权重到该路径
- rec_model_dir: 定义PaddleOCR识别模型的路径,指定路径不存在时,会自动下载模型权重到该路径
- det_db_box_thresh: 检测框筛选阈值,置信度低于该阈值的框会被舍弃


多样化输入支持
--------------------

PDF-Extract-Kit中的OCR脚本支持 ``单个图像/PDF文件````包含图像/PDF文件的目录`` 等输入形式。


可视化结果查看
--------------------

当config文件中 ``visualize`` 设置为 ``True`` 时,可视化结果会保存在 ``outputs`` 参数指定的目录下。

.. note::

   可视化可以方便对模型结果进行分析,但当进行大批量任务时,建议关掉可视化(设置 ``visualize`` 为 ``False`` ),减少内存和磁盘占用。