php提取網頁正文內容的例子

2024-05-04 21:54:30

字體：大中小

來源：轉載

供稿：網友

　　因為難點在于如何去識別并保留網頁中的文章部分，而且刪除其它無用的信息，并且要做到通用化，不能像火車頭那樣根據目標站來制定采集規則，因為搜索引擎結果中有各種的網頁。

　　抓回一個頁面的數據，如何匹配出正文部分，鄭曉在下班路上想了個思路是：

　　1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內不含中文的)–>獲取結果。

　　2. 直接匹配出非鏈接的、符合在div、p、h標簽中的中文部分???

　　還是會有不少其它多余信息啊，比如底部信息等。。如何搞?不知道大家有木有什么思路或建議?

　　這個類是從網上找到的一個php實現的提取網頁正文部分的算法，鄭曉在本地也測試了下，準確率非常高。

　　使用起來也非常簡單，實例化時傳入網頁的html源碼和相應的編碼，然后直接調用其getContent方法即可返回提取到的正文部分，提取出的文章中可能還會含有少部分鏈接，可以自己后期再修改

學習交流

硬盤分區如何設置準確的分區空間

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

2024-04-27 13:35:46

2024-04-27 13:33:47

2024-04-24 22:53:44

2024-04-23 19:32:50

2024-04-23 19:25:50

2024-04-23 19:13:19

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本