国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > C# > 正文

c#實(shí)現(xiàn)將pdf轉(zhuǎn)文本的示例分享

2020-01-24 02:45:26
字體:
供稿:網(wǎng)友

如何解析PDF文件

在.NET中從PDF文件里提取文本的幾種主要方法有:

1、Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 實(shí)現(xiàn);

2、iTextSharp;

3、PDFBox。

不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。

Adobe PDF IFilter

為了使用 IFilter 接口來解析 PDF 文件,你需要:

Windows 2000 或者后續(xù)版本

Adobe Acrobat 或 Reader 7.0.5+ (或單獨(dú)的 Adobe PDF IFilter [adobe.com])

IFilter COM 封裝類 [dotlucene.net]

樣例代碼:

復(fù)制代碼 代碼如下:

using IFilter;
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path);
}

缺點(diǎn):

使用了不可靠的 COM 互操作來處理 IFilter 接口 (并且組合 IFilter COM、 Adobe PDF IFilter 特別麻煩)。

需要在目標(biāo)系統(tǒng)上單獨(dú)安裝 Adobe IFilter。如果你需要對其它人發(fā)布可索引的解決方案,會很痛苦。

iTextSharp
iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一個 Java 的PDF 操作庫iText(http://itextpdf.com/) 的.NET輸出。它主要著眼于編輯PDF而不是閱讀,但它當(dāng)然也支持從PDF中提取文本(盡管有點(diǎn)大材小用)。

例程:

復(fù)制代碼 代碼如下:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser; 
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();

    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }

    return text.ToString();
  }
}

信用證: 成員號 10364982

缺點(diǎn):

需要許可證(如果你不喜歡 AGPL許可證 的話)

PDFBox

PDFBox是另一個Java PDF類庫。它同時也可以與原來的Java Lucene一同使用(參見LucenePDFDocument)。

幸運(yùn)的是,PDFBox有一個使用IKVM.NET開發(fā)的.NET版本 (只需訪問PDFBox下載頁)。

在.NET中使用PDFBox需要引用:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8.4.dll

并將下列文件復(fù)制到bin文件夾下:

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dll

使用PDFBox解析PDF十分簡單:

復(fù)制代碼 代碼如下:

using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util; 
private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}

編譯后的大小加起來差不多有18MB:

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons-logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

速度還可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。

感謝bobrien100提供的改進(jìn)建議。

缺點(diǎn):

IKVM.NET依賴 (18 MB)

速度(尤其是IKVM.NET的啟動時間)

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 镇雄县| 绥中县| 灌阳县| 温州市| 湖口县| 磐石市| 佛冈县| 鸡西市| 甘肃省| 修武县| 马山县| 武功县| 明水县| 虹口区| 阳曲县| 松江区| 富民县| 登封市| 乌鲁木齐县| 策勒县| 黄梅县| 恭城| 昌邑市| 新和县| 平利县| 凤山市| 图们市| 兴宁市| 金昌市| 丹棱县| 滕州市| 崇义县| 甘泉县| 武胜县| 繁峙县| 清丰县| 湖州市| 祁东县| 夹江县| 宜丰县| 牡丹江市|