實現(xiàn)方式:
基于內(nèi)存set()基于數(shù)據(jù)庫(包含關(guān)系型如:Oracle、MySQL等,還有非關(guān)系型如:redis、pg等)包含屬性:
保存“爬”過的url保存未“爬”過的url包含方法:
add增加一個urlget獲取一個url實現(xiàn)方式:
urllib2response = urllib2.urlopen(url)if response.getcode()!=200 returnreturn response.read()request實現(xiàn)方式:
beautiful soupsoup = BeautifulSoup(html_doc,'html_parser',from_encoding='utf-8')#獲取所有文字內(nèi)容:soup.get_text()#獲取標簽:soup.find(id="link3")soup.find_all('a',href=re.complie(''))新聞熱點
疑難解答