python处理pdf的库（Python处理PDF神器PyMuPDF的安装与使用）

1、PyMuPDF简介1. 介绍

在介绍PyMuPDF之前，先来了解一下MuPDF，从命名形式中就可以看出，PyMuPDF是MuPDF的Python接口形式。

MuPDF

MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。

MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时获得最高保真度。

这个观察器很小，速度很快，但是很完整。它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。

命令行工具允许您注释、编辑文档，并将文档转换为其他格式，如HTML、SVG、PDF和CBZ。您还可以使用Javascript编写脚本来操作文档。

PyMuPDF

PyMuPDF(当前版本1.18.17)是支持MuPDF(当前版本1.18.*)的Python绑定。

使用PyMuPDF，你可以访问扩展名为“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外，大约10种流行的图像格式也可以像文档一样处理:“.png”，“.jpg”，“.bmp”，“.tiff”等。

2. 功能

对于所有支持的文档类型可以：

解密文件
访问元信息、链接和书签
以栅格格式（PNG和其他格式）或矢量格式SVG呈现页面
搜索文本
提取文本和图像
转换为其他格式：PDF, (X)HTML, XML, JSON, text对于PDF文档，存在大量的附加功能:它们可以创建、合并或拆分。页面可以通过多种方式插入、删除、重新排列或修改(包括注释和表单字段)。
可以提取或插入图像和字体
完全支持嵌入式文件
pdf文件可以重新格式化，以支持双面打印，色调分离，应用标志或水印
完全支持密码保护:解密、加密、加密方法选择、权限级别和用户/所有者密码设置
支持图像、文本和绘图的 PDF 可选内容概念
可以访问和修改等级 PDF 结构
命令行模块"python -m fitz…"具有以下特性的多功能实用程序新:布局保存文本提取!脚本fitzcliy .py通过子命令“gettext”提供不同格式的文本提取。特别有趣的当然是布局保存，它生成的文本尽可能接近原始物理布局，周围有图像的区域，或者在表格和多列文本中复制文本。

加密/解密/优化
创建子文档
文档连接
图像/字体提取
完全支持嵌入式文件
保存布局的文本提取(所有文档)

2、安装

PyMuPDF可以从源码安装，也可以从wheels安装。

对于Windows, Linux和Mac OSX平台，在PyPI的下载部分有wheels。这包括Python 64位版本3.6到3.9。Windows版本也有32位版本。从最近开始，Linux ARM架构也出现了一些问题——查找平台标签manylinux2014_aarch64。

除了标准库，它没有强制性的外部依赖项。只有在安装了某些包时，才会有一些不错的方法:

Pillow：当使用Pixmap.pil_save()和 Pixmap.pil_tobytes()时需要
fontTools：当使用Document.subset_fonts()时需要
pymupdf-fonts 是一个不错的字体选择，可以用于文本输出的方法

使用pip安装命令：

pip install PyMuPDF

导入库：

import fitz

关于命名fitz的说明

这个库的标准Python导入语句是import fitz。这是有历史原因的:MuPDF的原始渲染库被称为Libart。

在Artifex软件获得MuPDF项目后，开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”。Fitz最初是作为一个研发项目，以取代老化的Ghostscript图形库，但却成为了MuPDF的渲染引擎(引用自维基百科)。

3、使用方法1. 导入库，查看版本

import fitz print(fitz.__doc__) PyMuPDF 1.18.16: Python bindings for the MuPDF 1.18.0 library. Version date: 2021-08-05 00:00:01. Built for Python 3.8 on linux (64-bit).

2. 打开文档

doc = fitz.open(filename)

这将创建Document对象doc。文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档，或创建新的空PDF。您还可以将文档用作上下文管理器。

3. Document的方法和属性

python处理pdf的库（Python处理PDF神器PyMuPDF的安装与使用）(1)

示例：

>>> doc.count_page 1 >>> doc.metadata {'format': 'PDF 1.7', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'creator': '', 'producer': '福昕阅读器PDF打印机版本 10.0.130.3456', 'creationDate': "D:20210810173328 08'00'", 'modDate': "D:20210810173328 08'00'", 'trapped': '', 'encryption': None}

4. 获取元数据

PyMuPDF完全支持标准元数据。Document.metadata是一个具有以下键的Python字典。它适用于所有文档类型，但并非所有条目都始终包含数据。元数据字段为字符串，如果未另行指示，则为无。还要注意的是，并非所有数据都始终包含有意义的数据——即使它们不是一个都没有。

python处理pdf的库（Python处理PDF神器PyMuPDF的安装与使用）(2)

5. 获取目标大纲

toc = doc.get_toc()

6. 页面(Page)

页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像，并搜索文本字符串。• 对于PDF文档，可以使用更多的方法向页面添加文本或图像。

首先，必须创建一个页面Page。这是Document的一种方法：

page = doc.load_page(pno) # loads page number 'pno' of the document (0-based) page = doc[pno] # the short form

这里可以使用任何整数-inf<pno<page_count。负数从末尾开始倒数，所以doc[-1]是最后一页，就像Python序列一样。

更高级的方法是将文档用作页面的迭代器：

for page in doc: # do something with 'page' # ... or read backwards for page in reversed(doc): # do something with 'page' # ... or even use 'slicing' for page in doc.pages(start, stop, step): # do something with 'page'

希望能给你带来一些帮助

python处理pdf的库（Python处理PDF神器PyMuPDF的安装与使用）

最新推荐

热门推荐