利用poi操作word文档 -

haofenglemon

浏览: 240457 次
性别:
来自: 北京

最近访客更多访客>>

huanghaiyun333

xh194910

ayizylusi

liyuan1978

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

利用poi操作word文档

博客分类：

haofeng

Office Excel Apache Microsoft XML

关键字：POI JAVA 批注总页数总字符数
一：认识POI
Apache POI是一个开源的利用Java读写Excel、WORD等微软OLE2组件文档的项目。最新的3.5版本有很多改进，加入了对采用OOXML格式的Office 2007支持，如xlsx、docx、pptx文档。
POI主页：poi.apache.org/

二：POI3.5相关下载
3.5Jar包下载地址
3.5源码下载地址

三：POI组成部分概览
以下是POI的几个重要组成部分，以及各组件的功能概述。

POIFS
POIFS是该项目的最古老，最稳定的一部分。.这是格式化OLE 2复合文档为纯Java的接口。它同时支持读写功能。所有的组件，最终都依赖于它的定义
HSSF 和 XSSF
HSSF: MS－Excel 97-2003（.xls），基于BIFF8格式的JAVA接口。
XSSF：MS－Excel 2007+(.xlsx),基于OOXML格式的JAVA接口。
HWPF 和XWPF
HWPF: MS－Word 97-2003(.doc)，基于BIFF8格式的JAVA接口。只支持.doc文件简单的操作，读写能力有限。本API为POI项目早期开发，很不幸的是主要负责HWPF模块开发的工程师-“Ryan Ackley”已经离开Apache组织，现在该模块没有人维护、更新、完善。
XWPF：MS－Word 2007+(.docx),基于OOXML格式的JAVA接口。较HWPF功能完善。

四：利用POI提取Word文本内容及批注
97-2003:

import org.apache.poi.POITextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
//得到.doc文件提取器
org.apache.poi.hwpf.extractor.WordExtractor doc = new WordExtractor(new FileInputStream(filePath));
//提取.doc正文文本
String text = doc.getText();
//提取.doc批注
String[] comments = doc. getCommentsText();

2007

import org.apache.poi.POITextExtractor;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFComment;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
//得到.docx文件提取器
org.apache.poi.xwpf.extractor.XWPFWordExtractor docx = new XWPFWordExtractor(POIXMLDocument.openPackage(filePath));
//提取.docx正文文本
String text = docx.getText();
//提取.docx批注
org.apache.poi.xwpf.usermodel.XWPFComment[] comments = docx.getDocument()).getComments();
for(XWPFComment comment:comments){
comment.getId();//提取批注Id
comment.getAuthor();//提取批注修改人
comment.getText();//提取批注内容
}
五：利用POI提取Word总页数、总字符数...
97-2003
WordExtractor doc = new WordExtractor(new FileInputStream(filePath));//.doc格式Word文件提取器
int pages = doc.getSummaryInformation().getPageCount();//总页数
int wordCount = doc.getSummaryInformation().getWordCount();//总字符数
2007:

XWPFDocument docx = nnew XWPFDocument(POIXMLDocument.openPackage(filePath));

int pages = docx.getProperties().getExtendedProperties().getUnderlyingProperties().getPages();//总页数
int characters = docx.getProperties().getExtendedProperties().getUnderlyingProperties().getCharacters();// 忽略空格的总字符数另外还有getCharactersWithSpaces()方法获取带空格的总字数。

小技巧：
2007采用了全新的OFFICE OPEN XML格式来存储，跟以前二进制文件格式的office 97-2003（.doc、.xls...）不同，所以可以直接重命名xx.docx的文件为xx.zip,用WinRar打开可以看到office2007的存储文件，其中word/document.xml里面保存了最重要的正文内容，word/comments.xml保存的是批注内容，可以多研究一下这些文件，有助于开发~

Office Open XML 文件格式简介 www.microsoft.com/china/msdn/library/office/office/OfficeOpenXMLFormats.mspx
随着20世纪90年代XML的出现，企业计算客户开始逐渐认识到，在他们所依赖的计算机产品和应用中采用开放的格式和标准所带来的商业价值。IT专业人员将从通用的数据格式中受益匪浅，这种格式可能是XML，因为它拥有被应用程序、平台和Internet浏览器读取的能力。

同样，随着在Microsoft Office 2000中对于XML格式的支持与采用，开发人员开始认识到，他们需要将以前的Microsoft Office版本中的二进制文件格式转换为XML格式。二进制文件（.doc，.dot，.xls，以及.ppt文件）在过去几年中一直肩负着存储和转换数据的重任，而现在它们无法满足新的市场需求的挑战，其中包括轻松地在异构应用之间传递数据，以及允许用户从这些数据中搜集商业信息。

2007 Microsoft Office system为Microsoft Office Excel 2007，Microsoft Office Word 2007，和Microsoft Office PowerPoint 2007采用了基于XML的文件格式，从而延续了这种转移。新的文件格式，称为Office Open XML格式，解决了上述市场需求的问题，同时改变了您基于Microsoft Office文档建立解决方案的方式

分享到：

com.sun.crypto.provider.SunJCE | POI 之二 poi操作解析word

2010-01-13 09:26
浏览 41977
评论(3)
分类:非技术
查看更多

3 楼问道721 2014-11-27

长见识了，新建文档还不行，写入内容后就可以了

2 楼 lqservlet 2013-09-06

可以看到存储文件! 全是xml文件，好多呀。

1 楼步青龙 2013-01-17

直接重命名xx.docx的文件为xx.zip,用WinRar打开可以看到office2007的存储文件你好，我试了试怎么不行啊？需要什么配置吗？谢谢

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

利用poi操作word文档

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

利用poi操作word文档

评论

发表评论

相关推荐

jxl导出excel

生成excel表格

Ext动态树加载问题

Ext 树级联选中子节点

subtree

subtreepanel

com.sun.crypto.provider.SunJCE

POI 之二 poi操作解析word

POI 之一

java 生成xml文件

javascript 应用

端口查询

Eclipse插件

spring简单的下例子

ssh整合报错

MyEclipse中连接Oracle中文版的时候报sql level1的错误

如何在eclipse中添加配置文件dtd描述

双系统grub引导出错

Spring error

SpringAop 报错

最近访客更多访客>>