Python讀取word文本操作詳解

2020-01-04 16:03:28

字體：大中小

來源：轉載

供稿：網友

本文研究的主要問題時Python讀取word文本操作，分享了相關概念和實現代碼，具體如下。

一，docx模塊

Python可以利用python/51760.html">python/282441.html">python/286130.html">python/266344.html">python-docx模塊處理word文檔，處理方式是面向對象的。也就是說python-docx模塊會把word文檔，文檔中的段落、文本、字體等都看做對象，對對象進行處理就是對word文檔的內容處理。

二，相關概念

如果需要讀取word文檔中的文字（一般來說，程序也只需要認識word文檔中的文字信息），需要先了解python-docx模塊的幾個概念。

1，Document對象，表示一個word文檔。
2，Paragraph對象，表示word文檔中的一個段落
3，Paragraph對象的text屬性，表示段落中的文本內容。

三，模塊的安裝和導入

需要注意，python-docx模塊安裝需要在cmd命令行中輸入pip install python-docx，如下圖表示安裝成功（最后那句英文Successfully installed，成功地安裝完成，十分考驗英文水平。）

python

注意在導入模塊時，用的是import docx。

也真是奇了怪了，怎么安裝和導入模塊時，很多都不用一個名字，看來是很有必要出一個python版本的模塊管理程序python-maven了，本段純屬PS。

四，讀取word文本

在了解了上面的信息之后，就很簡單了，下面先創建一個D:/temp/word.docx文件，并在其中輸入如下內容。

python

然后寫一段程序，代碼及輸出結果如下：

#讀取docx中的文本代碼示例import docx#獲取文檔對象file=docx.Document("D://temp//word.docx")print("段落數:"+str(len(file.paragraphs)))#段落數為13，每個回車隔離一段#輸出每一段的內容for para in file.paragraphs: print(para.text)#輸出段落編號及段落內容for i in range(len(file.paragraphs)): print("第"+str(i)+"段的內容是："+file.paragraphs[i].text)

運行結果：

================ RESTART: F:/360data/重要數據/桌面/學習筆記/readWord.py ================段落數:13啊我看見一座山雄偉的大山真高啊啊這座山是！真的很高！第0段的內容是：啊第1段的內容是：第2段的內容是：我看見一座山第3段的內容是：第4段的內容是：雄偉的大山第5段的內容是：第6段的內容是：真高啊第7段的內容是：第8段的內容是：啊第9段的內容是：第10段的內容是：這座山是！第11段的內容是：第12段的內容是：真的很高！>>>