Microsoft Word文件格式DOC / DOCX很著名,因为文字处理器支持多种功能来组织和解释信息。同样,HTML文件格式有助于在Web应用程序中显示信息。
在本文中,我们将学习使用Java将Word文件(DOC / DOCX)转换为HTML。以下是我们将在此处探讨的一些用例: 如果想要测试这项新功能,可点击这里下载最新版试用。
- 使用Java将Word(DOC / DOCX)转换为HTML
- 使用Java将DOCX转换为HTML5
- 使用Java将受密码保护的Word文件转换为HTML
- 使用Java将Word转换为MHTML
①使用Java将Word(DOC / DOCX)转换为HTML
可以按照以下步骤将Word转换为HTML:
- 加载带有DOC或DOCX扩展名的源Word文件
- 将文件另存为输出HTML
下面的代码示例显示了如何使用Java将DOCX转换为HTML:
// Load the document from disk. Document doc = new Document(dataDir + "TestFile.docx"); // Save the document into HTML. doc.save(dataDir + "Document_out.html", SaveFormat.HTML);
输入DOCX文件预览
输出HTML文件预览
②使用Java将DOCX转换为HTML5
HTML5是HTML的最新版本。我们注意到在Aspose.Words API中对支持HTML5的重复请求。因此,支持DOCX到HTML的转换,可以通过以下步骤转换文件:
- 加载输入的DOCX文件
- 设置SaveFormat时设置HtmlSaveOptions
- 设置HtmlVersion.HTML_5的枚举值
- 保存输出文件
下面的代码段显示了如何在Java中将DOCX转换为HTML5:
// Load the document from disk. Document doc = new Document(dataDir + "TestFile.docx"); HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML); opts.setHtmlVersion(HtmlVersion.HTML_5); opts.setExportImagesAsBase64(true); opts.setExportPageMargins(true); doc.save(dataDir + "TestFile.html", opts);
③使用Java将受密码保护的Word文件转换为HTML
DOC或DOCX文件有时受密码保护或使用密码加密。也可以将此类文件转换为HTML。但是,在加载Word文件时需要密码。可以按照以下步骤将DOCX转换为HTML:
- 初始化LoadOptions类的对象
- 设定密码
- 加载加密的DOCX文件
- 将DOCX转换为HTML
同样,以下代码示例显示了如何使用Java将受密码保护的DOCX文件转换为HTML:
LoadOptions options = new LoadOptions(); options.setPassword("aspose"); // Load the document from disk. Document doc = new Document(dataDir + "TestFile.docx" , options); //Save the document in HTML format. doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);
④使用Java将Word转换为MHTML
MHTML文件是包含嵌入式内容和媒体的单个文件。您可以按照以下步骤将Word文件(DOC / DOCX)转换为MHTML:
- 加载输入的DOCX文件
- 使用SaveFormat.MHTML保存输出MHTML文件
下面的代码段基于此步骤。因此,它显示了如何使用Java将DOCX转换为MHML:
// Load word document from disk. Document doc = new Document(dataDir + "TestFile.docx"); // Save the document into MHTML. doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);
如果您有任何疑问或需求,请随时加入Aspose技术交流群(642018183),我们很高兴为您提供查询和咨询。
来源:oschina
链接:https://my.oschina.net/u/4087915/blog/4407442