php把采集內容中圖片地址下載并替換成本地地址

2024-05-04 21:58:10

字體：大中小

來源：轉載

供稿：網友

如果你不是使用工具采集而是直接使用php來采集文章,這樣文章中的地址如果我們下載下來不替換的還是別人網站的地地址,下面我來介紹利用preg_match_all函數不定期把采集內容中圖片地址下載并替換成本地地址.

把字符串中地址全部獲取到一個數組我們利用preg_match_all函數,代碼如下:

<?php

$str='<p><img border="0" src="upfiles/2009/07/1246430143_1.jpg" alt=""/></p>';

$pattern="/<[img|IMG].*?src=['|"](.*?(?:[.gif|.jpg]))['|"].*?[/]?>/";

preg_match_all($pattern,$str,$match);print_r($match);

?>

//結果

Array

(

    [0] => Array

        (

            [0] => <img border="0" src="upfiles/2009/07/1246430143_1.jpg" alt=""/>

        )

    [1] => Array

        (

            [0] => upfiles/2009/07/1246430143_1.jpg

        )

)

有了上面核心函數下面就好做了,代碼如下:

/**

* 獲取替換文章中的圖片路徑

* @param string $xstr 內容

* @param string $keyword 創建照片的文件名

* @param string $oriweb 網址

* @return string

*

*/

function replaceimg($xstr,$keyword, $oriweb){

    //保存路徑

    $d = date('Ymd', time());

    $dirslsitss = '/var/www/weblist/uploads/'.$keyword.'/'.$d;//分類是否存在

    if(!is_dir($dirslsitss)) {

        @mkdir($dirslsitss, 0777);

    }

    //匹配圖片的src

    preg_match_all('#<img.*?src="([^"]*)"[^>]*>#i', $xstr, $match);

    foreach($match[1] as $imgurl){

        $imgurl = $imgurl;

        if(is_int(strpos($imgurl, 'http'))){

            $arcurl = $imgurl;

        } else {

            $arcurl = $oriweb.$imgurl;

        }

        $img=file_get_contents($arcurl);

        if(!emptyempty($img)) {

            //保存圖片到服務器

            $fileimgname = time()."-".rand(1000,9999).".jpg";

            $filecachs=$dirslsitss."/".$fileimgname;

            $fanhuistr = file_put_contents( $filecachs, $img );

            $saveimgfile = "/uploads/$keyword"."/".$d."/".$fileimgname;

            $xstr=str_replace($imgurl,$saveimgfile,$xstr);

        }

    }

    return $xstr;

}