国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > PHP > 正文

php提取網頁正文內容的例子

2024-05-04 21:54:30
字體:
來源:轉載
供稿:網友

   因為難點在于如何去識別并保留網頁中的文章部分,而且刪除其它無用的信息,并且要做到通用化,不能像火車頭那樣根據目標站來制定采集規則,因為搜索引擎結果中有各種的網頁。

  抓回一個頁面的數據,如何匹配出正文部分,鄭曉在下班路上想了個思路是:

  1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內不含中文的)–>獲取結果。

  2. 直接匹配出非鏈接的、 符合在div、p、h標簽中的中文部分???

  還是會有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?

  這個類是從網上找到的一個php實現的提取網頁正文部分的算法,鄭曉在本地也測試了下,準確率非常高。

  使用起來也非常簡單,實例化時傳入網頁的html源碼和相應的編碼,然后直接調用其getContent方法即可返回提取到的正文部分,提取出的文章中可能還會含有少部分鏈接,可以自己后期再修改

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 扶绥县| 北安市| 得荣县| 晋中市| 抚远县| 松原市| 乳山市| 安陆市| 东阳市| 文山县| 南部县| 乐都县| 水城县| 赫章县| 新兴县| 丹寨县| 阳山县| 扶绥县| 禹城市| 综艺| 新干县| 临高县| 科技| 上虞市| 军事| 博兴县| 武山县| 威信县| 含山县| 光山县| 延安市| 西平县| 边坝县| 广元市| 广南县| 荔浦县| 于田县| 随州市| 龙山县| 长宁区| 柘城县|