国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計(jì) > 正文

C# 實(shí)現(xiàn)將 PDF 轉(zhuǎn)文本的功能

2019-11-17 03:18:59
字體:
供稿:網(wǎng)友

C# 實(shí)現(xiàn)將 PDF 轉(zhuǎn)文本的功能

 更新

  2014年2月27日:這篇文章最初只描述使用 PDFBox 來解析PDF文件。現(xiàn)在它已經(jīng)被擴(kuò)展到包括使用 IFilter 和 iTextSharp 的例程了。

  這篇文章和對應(yīng)的Visual Studio項(xiàng)目已經(jīng)更新到目前最新的 PDFBox 版本(1.8.4)。可以從http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-PRoject/下載包含所有依賴內(nèi)容的完整項(xiàng)目(要消除依賴關(guān)系有點(diǎn)棘手)。

 如何解析 PDF 文件

  在.NET中從PDF文件里提取文本的幾種主要方法有:

  • Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 實(shí)現(xiàn);

  • iTextSharp;

  • PDFBox。

  不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。

 Adobe PDF IFilter

  為了使用 IFilter 接口來解析PDF 文件,你需要:

  • Windows 2000 或者后續(xù)版本

  • Adobe Acrobat 或 Reader 7.0.5+ (或單獨(dú)的Adobe PDF IFilter[adobe.com])

  • IFilter COM 封裝類[dotlucene.net]

  樣例代碼:

1234567usingIFilter;//...publicstaticstringExtractTextFromPdf(stringpath){returnDefaultParser.Extract(path);}

  缺點(diǎn):

  1. 使用了不可靠的 COM 互操作來處理 IFilter 接口 (并且組合 IFilter COM、 Adobe PDF IFilter 特別麻煩)。

  2. 需要在目標(biāo)系統(tǒng)上單獨(dú)安裝 Adobe IFilter。如果你需要對其它人發(fā)布可索引的解決方案,會很痛苦。

 iTextSharp

  iTextSharp(http://sourceforge.net/projects/itextsharp/)是一個 java 的PDF 操作庫iText(http://itextpdf.com/)的.NET輸出。它主要著眼于編輯PDF而不是閱讀,但它當(dāng)然也支持從PDF中提取文本(盡管有點(diǎn)大材小用)。

  例程:

12345678910111213141516171819usingiTextSharp.text.pdf;usingiTextSharp.text.pdf.parser;//...publicstaticstringExtractTextFromPdf(stringpath){using(PdfReaderreader=newPdfReader(path)){StringBuildertext=newStringBuilder();for(inti=1;i<=reader.NumberOfPages;i++){text.Append(PdfTextExtractor.GetTextFromPage(reader,i));}returntext.ToString();}}

  信用證:成員號 10364982

  缺點(diǎn):

  1. 需要許可證(如果你不喜歡AGPL許可證的話)

 PDFBox

  PDFBox是另一個Java PDF類庫。它同時也可以與原來的Java Lucene一同使用(參見LucenePDFDocument)。

  幸運(yùn)的是,PDFBox有一個使用IKVM.NET開發(fā)的.NET版本(只需訪問PDFBox下載頁)。

  在.NET中使用PDFBox需要引用:

  • IKVM.OpenJDK.Core.dll

  • IKVM.OpenJDK.SwingAWT.dll

  • pdfbox-1.8.4.dll

  并將下列文件復(fù)制到bin文件夾下:

  • commons-logging.dll

  • fontbox-1.8.4.dll

  • IKVM.OpenJDK.Util.dll

  • IKVM.Runtime.dll

  使用PDFBox解析PDF十分簡單:

12345678910111213141516171819usingorg.apache.pdfbox.pdmodel;usingorg.apache.pdfbox.util;//...privatestaticstringExtractTextFromPdf(stringpath){PDDocumentdoc=null;try{doc=PDDocument.load(path)PDFTextStripperstripper=newPDFTextStripper();returnstripper.getText(doc);}finally{if(doc!=null){doc.close();}}}

  編譯后的大小加起來差不多有18MB:

  • IKVM.OpenJDK.Core.dll (4 MB)

  • IKVM.OpenJDK.SwingAWT.dll (6 MB)

  • pdfbox-1.8.4.dll (4 MB)

  • commons-logging.dll (82 kB)

  • fontbox-1.8.4.dll (180 kB)

  • IKVM.OpenJDK.Util.dll (2 MB)

  • IKVM.Runtime.dll (1 MB)

  速度還可以:解析U.S. Copyright Act PDF(5.1 MB)文件用了13秒。

  感謝bobrien100提供的改進(jìn)建議。

  缺點(diǎn):

  1. IKVM.NET依賴 (18 MB)

  2. 速度(尤其是IKVM.NET的啟動時間)

 相關(guān)信息

  • 在SquarePDF.NET上可以看到本文(和后續(xù)更新)。

  原文地址:http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C


發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 葵青区| 虎林市| 黄大仙区| 珠海市| 长丰县| 云和县| 乐至县| 马龙县| 华安县| 巴林右旗| 韶关市| 马关县| 贡嘎县| 建湖县| 博客| 苏州市| 西华县| 封丘县| 温宿县| 无极县| 泗阳县| 滦南县| 望城县| 哈尔滨市| 海淀区| 万州区| 泰宁县| 万全县| 滕州市| 甘泉县| 桐城市| 三门县| 太和县| 屏南县| 望江县| 静宁县| 砚山县| 门源| 莲花县| 惠来县| 南昌市|