国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

用python寫的一個(gè)wordpress的采集程序

2020-01-04 17:42:09
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
在學(xué)習(xí)python的過(guò)程中,經(jīng)過(guò)不斷的嘗試及努力,終于完成了第一個(gè)像樣的python程序,雖然還有很多需要優(yōu)化的地方,但是目前基本上實(shí)現(xiàn)了我所要求的功能,需要的朋友可以參考下
 

在學(xué)習(xí)python的過(guò)程中,經(jīng)過(guò)不斷的嘗試及努力,終于完成了第一個(gè)像樣的python程序,雖然還有很多需要優(yōu)化的地方,但是目前基本上實(shí)現(xiàn)了我所要求的功能,先貼一下程序代碼:

用python寫的一個(gè)wordpress的采集程序

具體代碼如下:

#! /usr/bin/python import os,urllib2,re,time,MySQLdb,sys reTitle          = re.compile('<font[^>]*>(.*?)<//font><font[^>]*') reNeiron         = re.compile('[1-9|A-Z|a-z].*') retiqu          = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$') rezhong          = re.compile('^[^[].*') shijian=1190944000 Str1="//n---------------- BLOG OF YAO" bianhao=2859 for i in range(1,1500):     Str2=""     ltime=time.localtime(shijian)     timeStr=time.strftime("%Y%m%d",ltime)     url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr     print url     a=urllib2.urlopen(url).read()     print "=========================================================================================================="     for titles in map(None,Title):         titles=MySQLdb.escape_string(titles)         print titles     Neiron=re.findall(reNeiron,a)     for i in map(None,Neiron):         x=re.findall(retiqu,i)         for str in x:             str=MySQLdb.escape_string(str)             Str2 += str+"//n"     shijian += 86400     bianhao += 1     try:         conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8")     except MySQLdb.OperationalError,message:         print "like error"     cursor=conn.cursor()     sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (/'1/',/'2011-06-01 22:12:25/',/'2011-05-09 04:12:25/',/'/',/'/',/'Auto Draft/',/'/',/'inherit/',/'revision/',/'open/',/'open/',/'/',/'100-revision/',/'/',/'/',/'2011-06-01 22:12:25/',/'2011-05-09 04:12:25/',/'%s/',/'0/',/'/')" %bianhao     sql2="UPDATE wp_posts SET post_author = 1, post_date = /'2011-06-01 22:12:25/', post_date_gmt = /'2011-06-01 22:12:25/', post_content =/'%s/', post_content_filtered = /'/', post_title = /'%s/', post_excerpt = /'/', post_status = /'publish/', post_type = /'post/', comment_status = /'open/', ping_status = /'open/', post_password = /'/', post_name = /'%s/', to_ping = /'/', pinged = /'/', post_modified = /'2011-06-01 22:12:25/', post_modified_gmt = /'2011-05-09 04:12:30/', post_parent = 0, menu_order = 0, guid = /'http://www.moncleronlineshops.com/?p=%s/' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao)     cursor.execute(sql)     cursor.execute(sql2)     cursor.close()     conn.close()     sys.exit()

下面,我們來(lái)給代碼加些注釋,讓讀者能看的更明白一些,如下:

具體代碼如下

#! /usr/bin/python import os,urllib2,re,time,MySQLdb,sys #加載本程序需要調(diào)用的相模塊reTitle          = re.compile('<font[^>]*>(.*?)<//font> <font[^>]*') # 定義一下取文章標(biāo)題的正則reNeiron         = re.compile('[1-9|A-Z|a-z].*')  #定義一個(gè)取提取文章內(nèi)容的正則(注:這里提取出來(lái)的不是很精細(xì),需要在下面的正則里,再進(jìn)行提取,這里只是取一個(gè)大概)retiqu          = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$') #這里定義一個(gè)正則,將上面reNeiron提取出來(lái)的字符,再進(jìn)行細(xì)化。shijian=1190944000  #這里字義了一個(gè)時(shí)間戳,Str1="//n---------------- BLOG OF YAO" #這個(gè)沒用,開始是準(zhǔn)備加到文章里的,后來(lái)沒加進(jìn)去。bianhao=2859   #這里是wordpress 的文章編號(hào),直接查看wp-posts表的id 字段的最后一個(gè)數(shù)字。for i in range(1,1500): #循環(huán)1500遍,也就是采集1500篇文章。    Str2="" #先賦值給Str2 空值    ltime=time.localtime(shijian)       timeStr=time.strftime("%Y%m%d",ltime) #這兩句將上面的時(shí)間戳改為時(shí)間,樣式為19700101這樣的格式    url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr #定義要采集的網(wǎng)站,將轉(zhuǎn)化后的時(shí)間放在這個(gè)url的最后。    a=urllib2.urlopen(url).read() #將這個(gè)網(wǎng)頁(yè)的源代碼讀出來(lái),賦值給a; #使用 reTitle這個(gè)正則提取出標(biāo)題    print "=========================================================================================================="     for titles in map(None,Title): #上面提取出來(lái)的標(biāo)題前后都有一個(gè) [] 所以我們要寫個(gè)for循環(huán)把前后的[]去掉,并轉(zhuǎn)義成能直接插入mysql庫(kù)的格式。        titles=MySQLdb.escape_string(titles)     Neiron=re.findall(reNeiron,a) #先用reNeiron,取個(gè)大概的內(nèi)容模型出來(lái)。這些都是以逗號(hào)分隔的數(shù)組。    for i in map(None,Neiron): # 我們來(lái)循環(huán)讀出Neiron這個(gè)數(shù)組里的每個(gè)值。        x=re.findall(retiqu,i)#并用 retiqu這個(gè)正則提出精細(xì)出的內(nèi)容。        for str in x:             str=MySQLdb.escape_string(str)             Str2 += str+"//n" #利用這個(gè)循環(huán),我們把內(nèi)容加到一起,并賦值給Str2這個(gè)變量,這個(gè) Str2這個(gè)變量就是所有的文章內(nèi)容。    shijian += 86400 #每循環(huán)一次,就把shijian這個(gè)變量加上一天。    bianhao += 1   #每循環(huán)一次,就把bianhao這個(gè)變量加上一    try: #下面是用mysqldb連接數(shù)據(jù)庫(kù),并嘗試連接是否成功。       conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8")     except MySQLdb.OperationalError,message:         print "like error"     cursor=conn.cursor() #下面是插入wordpress數(shù)據(jù)庫(kù)的兩條語(yǔ)句,我是從mysqlbinlog里面導(dǎo)出來(lái)的,測(cè)試是可以插入數(shù)據(jù)庫(kù),并能正常把內(nèi)容顯示在網(wǎng)頁(yè)的。變量都寫在這兩條語(yǔ)句里。    sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (/'1/',/'2011-06-01 22:12:25/',/'2011-05-09 04:12:25/',/'/',/'/',/'Auto Draft/',/'/',/'inherit/',/'revision/',/'open/',/'open/',/'/',/'100-revision/',/'/',/'/',/'2011-06-01 22:12:25/',/'2011-05-09 04:12:25/',/'%s/',/'0/',/'/')" %bianhao     sql2="UPDATE wp_posts SET post_author = 1, post_date = /'2011-06-01 22:12:25/', post_date_gmt = /'2011-06-01 22:12:25/', post_content =/'%s/', post_content_filtered = /'/', post_title = /'%s/', post_excerpt = /'/', post_status = /'publish/', post_type = /'post/', comment_status = /'open/', ping_status = /'open/', post_password = /'/', post_name = /'%s/', to_ping = /'/', pinged = /'/', post_modified = /'2011-06-01 22:12:25/', post_modified_gmt = /'2011-05-09 04:12:30/', post_parent = 0, menu_order = 0, guid = /'http://www.moncleronlineshops.com/?p=%s/' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao)     cursor.execute(sql)     cursor.execute(sql2) #連接數(shù)據(jù)庫(kù)并執(zhí)行這兩條語(yǔ)句。    cursor.close()     conn.close()  #關(guān)閉數(shù)據(jù)庫(kù)。    sys.exit() 

上面是程序的代碼,采集的是:www.jokeswarehouse.com 的一個(gè)笑話網(wǎng)站。通過(guò) python 的 re 模塊,也就是正則匹配模塊,運(yùn)行相應(yīng)的正則表達(dá)式,進(jìn)行過(guò)濾出我們所需要的標(biāo)題和文章內(nèi)容,再運(yùn)用 python 的mysqldb 模塊,進(jìn)行連接數(shù)據(jù)庫(kù),利用相應(yīng)的插入語(yǔ)句,進(jìn)行插入數(shù)據(jù)庫(kù)。


發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 富民县| 当阳市| 聂荣县| 克什克腾旗| 沙洋县| 南皮县| 辉南县| 鲁甸县| 汉沽区| 中西区| 临汾市| 浑源县| 资兴市| 巴青县| 定远县| 淮安市| 固原市| 新河县| 常宁市| 辽源市| 浠水县| 双柏县| 漾濞| 武宣县| 抚宁县| 山阴县| 双鸭山市| 平安县| 榆中县| 蕉岭县| 台江县| 芦山县| 丁青县| 永春县| 大宁县| 长泰县| 建宁县| 连云港市| 玉龙| 东方市| 扶风县|