最优良人 » 采集

php采集程序，提取网页超链接，邮箱或其他特定内容

lin — Wed, 30 May 2012 08:48:29 +0000

以下代码从上一篇文章修改而来，专门用于提取网页所有超链接，邮箱或其他特定内容

//采集网页
function pick($url,$ft,$th)
{
$c=fetch_urlpage_contents($url);
foreach($ft as $key => $value)
{
$rs[$key]=fetch_match_contents($value["begin"],$value["end"],$c);
if(is_array($th[$key]))
{ foreach($th[$key] as $old => $new)
{
$rs[$key]=str_replace($old,$new,$rs[$key]);
}
}
}
return $rs;
}

$url="http://www.zui88.com"; //要采集的地址
$ft["a"]["begin"]='
$ft["a"]["end"]='>'; //截取的结束点

$rs=pick($url,$ft,$th); //开始采集

print_r($rs["a"]);

php小偷程序，简单的php采集代码

lin — Wed, 30 May 2012 08:08:32 +0000

$url="http://www.zui88.com"; //要采集的地址
$ft["title"]["begin"]=""; //截取的开始点<br /> $ft["title"]["end"]=""; //截取的结束点
$th["title"]["中山"]="广东"; //截取部分的替换

$ft["body"]["begin"]=""; //截取的开始点
$ft["body"]["end"]=""; //截取的结束点
$th["body"]["中山"]="广东"; //截取部分的替换

$rs=pick($url,$ft,$th); //开始采集

echo $rs["title"];
echo $rs["body"]; //输出
?>

dede采集的文章在栏目列表页无法显示

lin — Fri, 26 Aug 2011 15:20:43 +0000

利用dedecms的采集功能，大批量采集数据之后，没办法一个一个审核，所有在sql命令行运行了

update `dede_archives` set `arcrank` = 0

批量审核文章，然后运行

update `dede_archives` set `ismake` = -1

把所有文章改成动态浏览

更新首页html之后再最新更新可以看到新发布的文章，但是在栏目列表页不显示最新的数据，原来dede还有一个文章的索引表dede_arctiny，只要运行下面sql把审核状态置为0就正常了

update `dede_arctiny` set `arcrank` = 0

效果如最优资讯中山新闻频道