找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1705|回复: 1

[求助] 网站抓取

[复制链接]
发表于 2013-3-18 17:02:55 | 显示全部楼层 |阅读模式 来自 中国–河北–石家庄
这个是源码,我试了可行。
<?php
/*
* 如下:           方法有点笨
* 抓取网页内容用 PHP 的正则
* 用JS每隔5分钟刷新当前页面---即重新获取网页内容
*
* 注: $mode中--<title></title>-更改为所需内容(如 $mode = "#<a(.*)</a>#";>获取所有链接)
*
* window.location.;中的http://localhost/baidu/refesh.php
* 更改为自己的URL----作用:即刷新当前页面
*
* setInterval("ref()",300000);是每隔300000毫秒(即 5 * 60 *1000 毫秒即5分钟)执行一次函数 ref()
*
* print_r($arr);输出获得的所有内容 $arr是一个数组 可根据所需输出一部分(如 echo $arr[1][0];)
* 若要获得所有内容 可去掉
*   $mode = "#<title>(.*)</title>#";
   if(preg_match_all($mode,$content,$arr)){
    print_r($arr);
    echo "<br/>";
    echo $arr[1][0];
    }
   再加上 echo  $content;
*/
$url = "http://www.baidu.com"; //目标站
$fp = @fopen($url, "r") or die("超时");


$content=file_get_contents($url);
$mode = "#<title>(.*)</title>#";
if(preg_match_all($mode,$content,$arr)){
  //print_r($arr);
  echo "<br/>";
  echo $arr[1][0];
}
?>
<script language="JavaScript" type="text/javascript">
<--
function ref(){
  window.location.;
}
  setInterval("ref()",300000);
  //-->
</script>

***************************************分割线*************************************************
这个是我改的<?php/*
* 如下:           方法有点笨
* 抓取网页内容用 PHP 的正则
* 用JS每隔5分钟刷新当前页面---即重新获取网页内容
*
* 注: $mode中--<title></title>-更改为所需内容(如 $mode = "#<a(.*)</a>#";>获取所有链接)
*
* window.location.;中的http://localhost/baidu/refesh.php
* 更改为自己的URL----作用:即刷新当前页面
*
* setInterval("ref()",300000);是每隔300000毫秒(即 5 * 60 *1000 毫秒即5分钟)执行一次函数 ref()
*
* print_r($arr);输出获得的所有内容 $arr是一个数组 可根据所需输出一部分(如 echo $arr[1][0];)
* 若要获得所有内容 可去掉
*   $mode = "#<title>(.*)</title>#";
   if(preg_match_all($mode,$content,$arr)){
    print_r($arr);
    echo "<br/>";
    echo $arr[1][0];
    }
   再加上 echo  $content;
*/
$url = "http://baidu.lecai.com/lottery/draw/view/50?phase=2013030&agentId=5555"; //目标站
$fp = @fopen($url, "r") or die("超时");


$content=file_get_contents($url);
$mode = "#<div class=\"draw_content\"(.*)</div>#";
if(preg_match_all($mode,$content,$arr)){
  //print_r($arr);
  echo "<br/>";
  echo $arr[1][0];
}
?>
<script language="JavaScript" type="text/javascript">
<--
function ref(){
  window.location.;
}
  setInterval("ref()",300000);
  //-->
</script>

图片是改动的地方 网页抓取.webp


主要是这个正则写的有问题,别的地方没改,我想要抓取的目标
抓取目标.webp

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2013-3-18 17:06:03 | 显示全部楼层 来自 中国–湖北–武汉
你直接搞个api调用就行了!

http://download.csdn.net/detail/ss_geng/2938047 比如这个

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-22 11:40 , Processed in 0.047331 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表