中山php|最优网络中山做网站 中山php建站

最优良人

Posts Tagged With: 采集

php采集程序,提取网页超链接,邮箱或其他特定内容

2012/05/30 at 16:48 » Comments (190)

以下代码从上一篇文章修改而来,专门用于提取网页所有超链接,邮箱或其他特定内容 <?php function fetch_urlpage_contents($url){ $c=file_get_contents($url); return $c; } //获取匹配内容 function fetch_match_contents($begin,$end,$c) { $begin=change_match_string($begin); $end=change_match_string($end); $p = "#{$begin}(.*){$end}#iU";//i表示忽略大小写,U禁止贪婪匹配 if(preg_match_all($p,$c,$rs)) { return $rs;} else { return "";} }//转义正则表达式字符串 function change_match_string($str){ //注意,以下只是简单转义 $old=array("/","$",'?'); $new=array("\/","\$",'\?'); $str=str_replace($old,$new,$str); return $str; } //采集网页 function pick($url,$ft,$th) { $c=fetch_urlpage_contents($url); foreach($ft as $key => $value) { $rs[$key]=fetch_match_contents($value["begin"],$value["end"],$c); if(is_array($th[$key])) { foreach($th[$key] as $old => $new) { $rs[$key]=str_replace($old,$new,$rs[$key]); } } } return $rs; } $url="http://www.zui88.com"; //要采集的地址 $ft["a"]["begin"]='<a'; //截取的开始点<br /> $ft["a"]["end"]='>'; //截取的结束点 $rs=pick($url,$ft,$th); //开始采集 print_r($rs["a"]); ?> more »

php小偷程序,简单的php采集代码

2012/05/30 at 16:08 » Comments (289)

<?php function fetch_urlpage_contents($url){ $c=file_get_contents($url); return $c; } //获取匹配内容 function fetch_match_contents($begin,$end,$c) { $begin=change_match_string($begin); $end=change_match_string($end); $p = "{$begin}(.*){$end}"; if(eregi($p,$c,$rs)) { return $rs[1];} else { return "";} }//转义正则表达式字符串 function change_match_string($str){ //注意,以下只是简单转义 //$old=array("/","$"); //$new=array("\/","\$"); $str=str_replace($old,$new,$str); return $str; } //采集网页 function pick($url,$ft,$th) { $c=fetch_urlpage_contents($url); foreach($ft as $key => $value) { $rs[$key]=fetch_match_contents($value["begin"],$value["end"],$c); if(is_array($th[$key])) { foreach($th[$key] as $old => $new) { $rs[$key]=str_replace($old,$new,$rs[$key]); } } } return $rs; } $url="http://www.zui88.com"; //要采集的地址 $ft["title"]["begin"]="<title>"; //截取的开始点 $ft["title"]["end"]="</title>"; //截取的结束点 $th["title"]["中山"]="广东"; //截取部分的替换 $ft["body"]["begin"]="<body>"; //截取的开始点 $ft["body"]["end"]="</body>"; //截取的结束点 $th["body"]["中山"]="广东"; //截取部分的替换 $rs=pick($url,$ft,$th); ...more »

dede采集的文章在栏目列表页无法显示

2011/08/26 at 23:20 » Comments (412)

利用dedecms的采集功能,大批量采集数据之后,没办法一个一个审核,所有在sql命令行运行了 update `dede_archives` set `arcrank` = 0 批量审核文章,然后运行 update `dede_archives` set `ismake` = -1 把所有文章改成动态浏览 更新首页html之后再最新更新可以看到新发布的文章,但是在栏目列表页不显示最新的数据,原来dede还有一个文章的索引表dede_arctiny,只要运行下面sql把审核状态置为0就正常了 update `dede_arctiny` set `arcrank` = 0 效果如 最优资讯中山新闻频道 more »