因為難點在于如何去識別并保留網頁中的文章部分,而且刪除其它無用的信息,并且要做到通用化,不能像火車頭那樣根據目標站來制定采集規則,因為搜索引擎結果中有各種的網頁。
抓回一個頁面的數據,如何匹配出正文部分,鄭曉在下班路上想了個思路是:
1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內不含中文的)–>獲取結果。
2. 直接匹配出非鏈接的、 符合在div、p、h標簽中的中文部分???
還是會有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?
這個類是從網上找到的一個php實現的提取網頁正文部分的算法,鄭曉在本地也測試了下,準確率非常高。
使用起來也非常簡單,實例化時傳入網頁的html源碼和相應的編碼,然后直接調用其getContent方法即可返回提取到的正文部分,提取出的文章中可能還會含有少部分鏈接,可以自己后期再修改
新聞熱點
疑難解答