国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發(fā) > Linux Shell > 正文

使用shell腳本找出網(wǎng)站的空頁面和404錯誤頁面

2020-07-27 19:12:07
字體:
供稿:網(wǎng)友

早之前記的一個筆記了,之前只是記錄了兩句代碼,放出來的話也是一個低質(zhì)量的頁面,于是設(shè)置為了僅自己可見,今晚抽空補充一下。

記得當?shù)那榫皯?yīng)該是提交sitemap時百度老提示有錯誤的URL,導致sitemap不能正常被抓取,于是在想辦法解決這個問題,所以才有下面這些筆記:用shell批量找出網(wǎng)站空頁面和404錯誤頁面。

廢話不多說,直接上shell代碼:

復制代碼 代碼如下:

time cat sitemap.txt|while read line;do curl -l $line -m 5 --connect-timeout 5 -o /dev/null -s -w "$line "%{http_code}" "%{size_download}"/n";done

前面加了一個time是為了看看代碼執(zhí)行所花的時間

%{http_code}意思是返回HTTP狀態(tài)碼,通過這個狀態(tài)碼我們就能知道該鏈接是正常的200鏈接,還是404錯誤鏈接;

%{size_download}意思是返回當前頁面的大小,如果值太小的話,說明這些頁面很有可能是低質(zhì)量的空頁面,得想辦法剔除掉。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 仪征市| 宜兰市| 开江县| 田阳县| 绥芬河市| 都兰县| 阳西县| 柳林县| 青川县| 金门县| 双流县| 台中县| 巴南区| 武山县| 彩票| 广西| 靖安县| 德清县| 柳河县| 柯坪县| 昭觉县| 榆社县| 习水县| 长白| 铁岭县| 山阴县| 化德县| 宁海县| 湘阴县| 旬阳县| 桃江县| 汤阴县| 德昌县| 宁阳县| 开江县| 平昌县| 开鲁县| 彭泽县| 涟源市| 延川县| 宜良县|