国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

python正則匹配抓取豆瓣電影鏈接和評(píng)論代碼分享

2020-02-23 05:02:24
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

代碼如下:
import urllib.request
import re
import time

def movie(movieTag):

    tagUrl=urllib.request.urlopen(url)
    tagUrl_read = tagUrl.read().decode('utf-8')
    return tagUrl_read

def subject(tagUrl_read):

    '''
        這里還存在問題:
        ①這只針對(duì)單獨(dú)的一頁(yè)進(jìn)行排序,而沒有對(duì)全部頁(yè)面的電影進(jìn)行排序
        ②下次更新添加電影鏈接,考慮添加電影海報(bào)
        ③需要追加列表
        ④導(dǎo)入到本地txt或excel中
        ⑤在匹配電影名字時(shí)是否可以同時(shí)匹配鏈接與名字、評(píng)分、評(píng)論組成數(shù)組
        ⑥
    '''
#正則表達(dá)式匹配電影的名字(鏈接)、評(píng)分與評(píng)論   
    nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.]+)//"/s+title="(.+)"',tagUrl_read)
    scoreURL = re.findall(r'<span/s+class="rating_nums">([0-9.]+)<//span>',tagUrl_read)
    evaluateURL = re.findall(r'<span/s+class="pl">/((/w+)人評(píng)價(jià)/)<//span>',tagUrl_read)
    movieLists = list(zip(nameURL,scoreURL,evaluateURL))
    newlist.extend(movieLists)
    return newlist

#用quote處理特殊(中文)字符
movie_type = urllib.request.quote(input('請(qǐng)輸入電影類型(如劇情、喜劇、懸疑):'))
page_end=int(input('請(qǐng)輸入搜索結(jié)束時(shí)的頁(yè)碼:'))
num_end=page_end*20
num=0
page_num=1
newlist=[]
while num<num_end:
    url=r'http://movie.douban.com/tag/%s?start=%d'%(movie_type,num)
    movie_url = movie(url)
    subject_url=subject(movie_url)
    num=page_num*20
    page_num+=1
else:
    #使用sorted函數(shù)對(duì)列表進(jìn)行排列,reverse參數(shù)為True時(shí)升序,默認(rèn)或False時(shí)為降序, key=lambda還不是很明白這里的原理
    movieLIST = sorted(newlist, key=lambda movieList : movieList[1],reverse = True)
    for movie in movieLIST:
        print(movie)

time.sleep(3)

print('結(jié)束')

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 三台县| 延安市| 齐齐哈尔市| 恭城| 临颍县| 阿拉善盟| 璧山县| 辽阳市| 长宁县| 武义县| 孝感市| 随州市| 洛阳市| 汝阳县| 遵化市| 武功县| 清镇市| 洞口县| 沭阳县| 梅河口市| 尚志市| 镇宁| 绥化市| 永川市| 泾川县| 临沂市| 镇远县| 英德市| 广安市| 南安市| 宕昌县| 巴楚县| 延安市| 莆田市| 长岭县| 沙雅县| 北辰区| 哈尔滨市| 岱山县| 陵川县| 贵溪市|