国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Java > 正文

Java精確抽取網(wǎng)頁發(fā)布時(shí)間

2019-11-26 14:13:25
字體:
供稿:網(wǎng)友

對網(wǎng)頁中各種不同格式的發(fā)布時(shí)間進(jìn)行抽取,將發(fā)布時(shí)間以規(guī)整的“yyyy-MM-dd HH:mm:ss”格式表示出來,只能盡量追求精確,但是因?yàn)榫W(wǎng)絡(luò)發(fā)布時(shí)間的格式十分靈活,所以做不到百分百地正確抽取

package whu.extract.pubtime.core; import java.util.ArrayList;import java.util.Calendar;import java.util.Collections;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern; import whu.utils.TimeUtil; /** * Created On 2014年3月13日 下午2:49:05 * @description 獲取網(wǎng)頁的發(fā)布時(shí)間  */public class FetchPubTime {  /** 表示url中連續(xù)的8位日期,例如http://www.baidu.com/20140311/2356.html */  private static String url_reg_whole= "([-|/|_]{1}20//d{6})";  /** 表示 用-或者/隔開的日期,有年月日的,例如 http://www.baidu.com/2014-3-11/2356.html */  private static String url_reg_sep_ymd = "([-|/|_]{1}20//d{2}[-|/|_]{1}//d{1,2}[-|/|_]{1}//d{1,2})";  /** 表示 用-或者/隔開的日期,只有年和月份的,例如 http://www.baidu.com/2014-3/2356.html */  private static String url_reg_sep_ym = "([-|/|_]{1}20//d{2}[-|/|_]{1}//d{1,2})";  private static Calendar current = Calendar.getInstance();  /** 格式正確的時(shí)間正則表達(dá)式*/  private static String rightTimeReg = "^((//d{2}(([02468][048])|([13579][26]))[//-/////s]?((((0?[13578])|(1[02]))[//-/////s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[//-/////s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[//-/////s]?((0?[1-9])|([1-2][0-9])))))|(//d{2}(([02468][1235679])|([13579][01345789]))[//-/////s]?((((0?[13578])|(1[02]))[//-/////s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[//-/////s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[//-/////s]?((0?[1-9])|(1[0-9])|(2[0-8]))))))(//s(((0?[0-9])|([1-2][0-3]))//:([0-5]?[0-9])((//s)|(//:([0-5]?[0-9])))))?$";     /**   * @param url   * @param urlContent   * @return   */  public static String getPubTimeVarious(String url,String urlContent) {         String pubTime = getPubTimeFromUrl(url);        //鏈接里面沒有,匹配文本中的    if(pubTime == null)    {      if(urlContent!=null&&!urlContent.trim().equals(""))        return extractPageDate(urlContent);    }         return pubTime;  }     /**從url里面抽取出發(fā)布時(shí)間,返回YYYY-MM-DD HH:mm:ss格式的字符串   * @param url   * @return   */  public static String getPubTimeFromUrl(String url)  {    Pattern p_whole = Pattern.compile(url_reg_whole);    Matcher m_whole = p_whole.matcher(url);    if(m_whole.find(0)&&m_whole.groupCount()>0)    {      String time = m_whole.group(0);      time = time.substring(1,time.length());      //每一步都不能夠超出當(dāng)前時(shí)間         if(current.compareTo(TimeUtil.strToCalendar(time, "yyyyMMdd"))>=0)    {       return time.substring(0,4)+"-"+time.substring(4,6)+"-"+         time.substring(6,8)+" "+"00:00:00";    }    }        p_whole = null;    m_whole = null;    Pattern p_sep = Pattern.compile(url_reg_sep_ymd);    Matcher m_sep = p_sep.matcher(url);    if(m_sep.find(0)&&m_sep.groupCount()>0)    {       String time = m_sep.group(0);       time = time.substring(1,time.length());       String[] seg = time.split("[-|/|_]{1}");       Calendar theTime = Calendar.getInstance();       theTime.set(Calendar.YEAR,Integer.parseInt(seg[0]));       theTime.set(Calendar.MONTH, Integer.parseInt(seg[1]));       theTime.set(Calendar.DAY_OF_MONTH, Integer.parseInt(seg[2]));       if(current.compareTo(theTime)>=0)        {             return seg[0]+"-"+seg[1]+"-"+seg[2]+" "+"00:00:00";        }    }    p_sep = null;    m_sep = null;    Pattern p_sep_ym = Pattern.compile(url_reg_sep_ym);    Matcher m_sep_ym = p_sep_ym.matcher(url);    if(m_sep_ym.find(0)&&m_sep_ym.groupCount()>0)    {       String time = m_sep_ym.group(0);       time = time.substring(1,time.length());       Calendar theTime = Calendar.getInstance();       String[] seg = time.split("[-|/|_]{1}");       theTime.set(Calendar.YEAR,Integer.parseInt(seg[0]));       theTime.set(Calendar.MONTH, Integer.parseInt(seg[1]));       theTime.set(Calendar.DAY_OF_MONTH, 1);       if(current.compareTo(theTime)>=0)      {             return seg[0]+"-"+seg[1]+"-"+"01"+" "+"00:00:00";      }    }         return null;  }      /** 從網(wǎng)頁源碼中取出發(fā)布時(shí)間   * java中正則表達(dá)式提取字符串中日期實(shí)現(xiàn)代碼   * 2013年12月19日15:58:42   * 讀取出2013-12-19 15:48:33或者2013-12-19或者2012/3/05形式的時(shí)間   * @param text 待提取的字符串   * @return 返回日期   * @author: oschina   * @Createtime: Jan 21, 2013   */  public static String extractPageDate(String text) {     boolean containsHMS =false;    String dateStr = text.replaceAll("r?n", " ");    try {       List matches = null;       Pattern p_detail = Pattern.compile("(20//d{2}[-/]//d{1,2}[-/]//d{1,2} //d{1,2}://d{1,2}://d{1,2})|(20//d{2}年//d{1,2}月//d{1,2}日)", Pattern.CASE_INSENSITIVE|Pattern.MULTILINE);       //如果是僅僅抽取年月日,則按照上面的,如果是抽取年月日-時(shí)分秒,則按照下面的      Pattern p = Pattern.compile("(20//d{2}[-/]//d{1,2}[-/]//d{1,2})|(20//d{2}年//d{1,2}月//d{1,2}日)", Pattern.CASE_INSENSITIVE|Pattern.MULTILINE);      //Matcher matcher = p.matcher(dateStr);      Matcher matcher_detail = p_detail.matcher(dateStr);             if(!(matcher_detail.find(0) && matcher_detail.groupCount() >= 1))       {        matcher_detail = p.matcher(dateStr);        containsHMS = true;      }else        matcher_detail = p_detail.matcher(dateStr);      if (matcher_detail.find() && matcher_detail.groupCount() >= 1) {         matches = new ArrayList();         for (int i = 1; i <= matcher_detail.groupCount(); i++) {           String temp = matcher_detail.group(i);           matches.add(temp);         }       } else {         matches = Collections.EMPTY_LIST;       }             if (matches.size() > 0) {         for(int i=0;i<matches.size();i++)        {          String pubTime = matches.get(i).toString().trim();          //取出第一個(gè)值          pubTime = pubTime.replace("/", "-").replace("年", "-").replace("月", "-").replace("日", "-");          if(current.compareTo(TimeUtil.strToCalendar(pubTime, "yyyy-MM-dd"))>=0)          {            if(containsHMS)              pubTime+=" "+"00:00:00";            if(pubTime.matches(rightTimeReg))            {              return pubTime;             }          }        }      } else {         return null;       }            } catch (Exception e) {       return null;     }     return null;  }}

以上就是本文的全部內(nèi)容,希望對大家學(xué)習(xí)java程序設(shè)計(jì)有所幫助。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 舟山市| 固原市| 出国| 平安县| 青神县| 柘城县| 牡丹江市| 嘉兴市| 泽库县| 共和县| 罗平县| 永宁县| 弥渡县| 昆明市| 三明市| 巢湖市| 山阴县| 辽宁省| 钟祥市| 塔河县| 仪陇县| 鹤岗市| 翼城县| 灵川县| 临海市| 辽源市| 曲水县| 定西市| 拜泉县| 承德市| 屏边| 霍城县| 临邑县| 仁化县| 百色市| 安吉县| 姜堰市| 驻马店市| 石阡县| 九龙城区| 三河市|