2013-12-11

作者: Tony Qu

要学习如何读取Word,还要从Word的基本结构说起。

Word的文件格式doc/docx是一种文本描述性格式,其主体是文本,其他的都是描述该文本的属性,这就和英语中的定语和补语差不多。

在此之前,我要先给大家复习下Word的文档结构,通常呢Word文档结构可以分为段落和表格(当然也会有页眉页脚,但这不是重点),而一个表格里面可以包含行和列,有行列自然会有单元格(这个NPOI用户应该非常熟悉,和Excel的概念是一模一样的),每个单元格里面又会包含段落。而每个段落里面可以包含很多个Run。下面的程序就是读取Word中所有段落(不包括表格中的段落)的遍历方式。

这里有一句话用到了Paragraph.Style,这个是每个段落被设置的样式名称,样式分为嵌入式样式和引用样式两种,嵌入式样式是直接写在document.xml里面的样式,而引用样式是引用styles.xml里面的样式。这里的styles.xml很像web中的css文件。

如果要抽取表格中的文本,可以用下面的代码

上面这段代码是我在项目中用到的,它是获得Word中所有在第0个单元格的段落的文本。

Show more