pdfparser

PHP 读取PDF文件内容之PdfParser

爷,独闯天下 提交于 2020-08-12 02:47:54
PdfParser,一个独立的PHP库,提供了多种工具来从PDF文件提取数据,不支持加密的PDF文件 官方文档: https://www.pdfparser.org/documentation 使用composer安装依赖包: composer require smalot/pdfparser 安装成功后如下图: 创建index.php文件,引入autoload.php文件: include 'vendor/autoload.php'; 1.一次性读取文件中的所有内容: include 'vendor/autoload.php' ; $parser = new \Smalot\PdfParser\Parser(); $pdf = $parser ->parseFile('document.pdf' ); $text = $pdf ->getText(); // 将所有内容读取到一个字符串中 echo $text ; 2.分页读取: include 'vendor/autoload.php' ; $parser = new \Smalot\PdfParser\Parser(); $pdf = $parser ->parseFile('document.pdf' ); $pages = $pdf ->getPages(); // 分页信息 foreach ( $pages as

fpdf fpdi 操作pdf文件 写入中文汉字

徘徊边缘 提交于 2020-08-11 04:31:25
  今天给公司做一个线上合同签约功能,用户签约后 生成pdf版的文件 。网上搜了搜大概都是用fpdf进行操作的 , 通过fpdi 可以进行读取pdf模板。 在通过继承fpdf 操作现有的pdf文档 。 功能很简单,用户手写用页面canvas生成图片,图片保存png到服务器 。然后粘贴图片到对应的pdf模板上。 但是在实际操作上就出现了问题。国外的fpdf 对中文支持并不是很好,在pdf上加入中文汉字的时候,会出现乱码。 而且他只提供文件夹中的几种字体。而且这几种字体都是英文字体,所以无法正常支持汉字的写入。 下面说一下具体的解决方案: 1. https://github.com/DCgithub21/cd_FPDF 下载代码  2. 将上一步的源码放入vendor中 3. 修改composer源码 修改 fpdi中的 fpdfTpl.php 将他基础的fpdf类改成 咱们刚才引入的代码 而之前引入的代码再继承fpdf   4.编写相关代码    /* * * 合成pdf * @param $sgin_img * @param $order_sn * @return string * @throws \setasign\Fpdi\PdfParser\CrossReference\CrossReferenceException * @throws \setasign\Fpdi

Python-PDF转为Word

非 Y 不嫁゛ 提交于 2020-04-24 03:04:50
手把手 | 20行Python代码教你批量将PDF转为Word 作者 | 丁彦军 给各位带来了一个免费简单快速的方法,手把手教你用 Python 批量处理PDF格式文件,获取自己想要的内容,存为word形式。 在实现PDF转Word功能之前,我们需要一个python的编写和运行环境,同时安装好相关的依赖包。 对于python环境,我们推荐使用PyCharm。 在本地 电脑 环境, anaconda 提供了非常便利的安装和部署。 PDF转Word功能所需的依赖包如下: PDFParser(文档分析器) PDFDocument(文档对象) PDFResourceManager(资源管理器) PDFPageInterpreter(解释器) PDFPageAggregator(聚合器) LAParams(参数分析器) 前期准备工作 说明:本文是在Windows7下使用python最新的3.6版本 1.安装pdfminer3k模块 安装 anaconda 后,直接可以通过pip安装 2.若安装不成功,可以试试下面方法 首先下载pdfminer3k:https://pypi.python.org/pypi/pdfminer3k;然后安装pdfminer,将下载好的pdfminer3k解压到D:或其他合适的盘符,通过win+r 打开运行窗口,输入cmd;输入D:切换到D盘,cd

Read specific value based on label name from PDF in C#

淺唱寂寞╮ 提交于 2019-12-23 15:29:20
问题 I have an asp.net Core 2.0 C# application which read/parse the PDF file and get the text. In this I want to read specific value which have specific label name. You can see the below image I want to get the value 171857 which is Invoice number and store it in database. I have tried below code to read the pdf using iTextSharp . using (PdfReader reader = new PdfReader(fileName)) { StringBuilder sb = new StringBuilder(); ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); for