python读取docx文件,就是如此简单
中文编码问题总是让人头疼(尤其是mac本),想要用 Python读取word中的内容 。用open()经常报错,通过百度搜索+问身边小伙伴发现了 Python有专门读取.docx的模块python_docx 。本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步! 01:问题抛出与引入 import docx path = "C:\\Users\\qin\\Desktop\\1.docx" file_object=open(path,'rb') print(file_object.read()) #输出结果如下所示: b'PK\\x03\\x04\\x14\\x00\\x06\\x00\\x08\\x00\\x00\\x00!\\x00J\\xbc\\x02qm\\x01\\x00\\x00 (\\x06\\x00\\x00\\x13\\x00\\x08\\x02[Content_Types].xml \\xa2\\x04\\x02(\\xa0\..... 一个很简单的docx文件,打印出来的结果却不是我们想要的。对此引入一个十分好用的docx模块,下面就详细介绍该模块的一些基本操作。 02:安装docx模块 pip install python_docx 03:新建文档对象 import docx from