最全总结!聊聊 Python 操作PDF的几种方法
作者 | 陈熹 来源 | 早起Python 前言 本文主要涉及: os 模块综合应用 glob 模块综合应用 PyPDF2 模块操作 基本操作 PyPDF2 导入模块的代码常常是: from PyPDF2 import PdfFileReader, PdfFileWriter 这里导入了两个方法: PdfFileReader 可以理解为读取器 PdfFileWriter可以理解为写入器 接下来通过几个案例进一步认识这两个工具的奇妙之处,用到的示例文件是5个发票的pdf 每个发票的PDF都由两页组成: 合并 第一个工作是将5个发票pdf合并成10页。这里读取器和写入器应该怎么配合呢? 逻辑如下: 读取器将所有pdf读取一遍 读取器将读取的内容交给写入器 写入器统一输出到一个新pdf 这里还有一个重要的知识点:读取器只能将读取的内容一页一页交给写入器。 因此,逻辑中第1步和第2步实际上不是彼此独立的步骤,而是读取器读取完一个pdf后,就将这个pdf全部页循环一遍,挨页交给写入器。最后等读取工作全部结束后再输出。 看一下代码可以让思路更清楚: from PyPDF2 import PdfFileReader, PdfFileWriterpath = r'C:\Users\xxxxxx'pdf_writer = PdfFileWriter()for i in range(1, 6):