1. POI提取Word文檔內(nèi)容
POI是Apache開源項目之一,用java實現(xiàn)跨平臺MS Word/Excel文檔解析。 也就是說可以在非Windows平臺提取MS Word/Excel文檔內(nèi)容。 本文采用POI的一個擴(kuò)展Jar包tm-extractors_0.4.jar提取Word文檔內(nèi)容。 Word文檔內(nèi)容如下:(該文檔有2頁,每頁記錄一個組件內(nèi)容),


Java類中Import import org.textmining.text.extraction.WordExtractor;然后在方法中:
PRotected String getText() throws Exception {
WordExtractor extractor=null;
String text=null;
extractor = new WordExtractor();
text=extractor.extractText(in); // in為 FileInputStream(new File("Word文檔地址"));
return text;
}
運(yùn)行結(jié)果如下:
Colimas Component Specification
1. Component: Apache Jakarta POI Java API To access Microsoft Format Files
1.1 Basic Information
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
Alias : POI
Author : http://jakarta.apache.org/poi/index.Html
Version : 0.0.1
Language : Java
Platform : Windows, linux, Unix
Status : Confirmed
Is public? : Y
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
1.2 Developers
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
Apache developer1
Apache developer2
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
新聞熱點(diǎn)
疑難解答