C# 實現將 PDF 轉文本的功能

2019-11-17 03:15:44

字體：大中小

來源：轉載

供稿：網友

C# 實現將 PDF 轉文本的功能

更新

　　2014年2月27日：這篇文章最初只描述使用 PDFBox 來解析PDF文件。現在它已經被擴展到包括使用 IFilter 和 iTextSharp 的例程了。

　　這篇文章和對應的Visual Studio項目已經更新到目前最新的 PDFBox 版本（1.8.4）。可以從http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-PRoject/下載包含所有依賴內容的完整項目（要消除依賴關系有點棘手）。

　如何解析 PDF 文件

　　在.NET中從PDF文件里提取文本的幾種主要方法有:

Microsoft 的 IFilter 接口和 Adobe 的 IFilter 實現；
iTextSharp；
PDFBox。

　　不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。

　Adobe PDF IFilter

　　為了使用 IFilter 接口來解析PDF 文件，你需要：

Windows 2000 或者后續版本
Adobe Acrobat 或 Reader 7.0.5+ (或單獨的Adobe PDF IFilter[adobe.com])
IFilter COM 封裝類[dotlucene.net]

　　樣例代碼：

1234567 usingIFilter;//...publicstaticstringExtractTextFromPdf(stringpath){returnDefaultParser.Extract(path);}

　　缺點：

使用了不可靠的 COM 互操作來處理 IFilter 接口 (并且組合 IFilter COM、 Adobe PDF IFilter 特別麻煩)。
需要在目標系統上單獨安裝 Adobe IFilter。如果你需要對其它人發布可索引的解決方案，會很痛苦。

　iTextSharp

　　iTextSharp（http://sourceforge.net/projects/itextsharp/）是一個 java 的PDF 操作庫iText（http://itextpdf.com/）的.NET輸出。它主要著眼于編輯PDF而不是閱讀，但它當然也支持從PDF中提取文本（盡管有點大材小用）。

　　例程:

12345678910111213141516171819 usingiTextSharp.text.pdf;usingiTextSharp.text.pdf.parser;//...publicstaticstringExtractTextFromPdf(stringpath){using(PdfReaderreader=newPdfReader(path)){StringBuildertext=newStringBuilder();for(inti=1;i<=reader.NumberOfPages;i++){text.Append(PdfTextExtractor.GetTextFromPage(reader,i));}returntext.ToString();}}

　　信用證:成員號 10364982

　　缺點：

需要許可證（如果你不喜歡AGPL許可證的話）

　PDFBox

　　PDFBox是另一個Java PDF類庫。它同時也可以與原來的Java Lucene一同使用（參見LucenePDFDocument）。

　　幸運的是，PDFBox有一個使用IKVM.NET開發的.NET版本（只需訪問PDFBox下載頁）。

　　在.NET中使用PDFBox需要引用：

IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8.4.dll

　　并將下列文件復制到bin文件夾下：

commons-logging.dll
fontbox-1.8.4.dll
IKVM.OpenJDK.Util.dll
IKVM.Runtime.dll

　　使用PDFBox解析PDF十分簡單：

12345678910111213141516171819 usingorg.apache.pdfbox.pdmodel;usingorg.apache.pdfbox.util;//...privatestaticstringExtractTextFromPdf(stringpath){PDDocumentdoc=null;try{doc=PDDocument.load(path)PDFTextStripperstripper=newPDFTextStripper();returnstripper.getText(doc);}finally{if(doc!=null){doc.close();}}}