|
- PHP小偷程序是采集的前身,有了小偷原理才会写采集。这是PHP100<font color="black">创恩IT教育</font>培训给大家上课时候给大家留的作业。随手写了几行大概思路和功能,细节要求采集到里面的邮箱,作者,标题,内容过滤,图片自动下载,入库分类等功能,也供大家参考下:
-
-
-
-
- index.php
- <?php
- $con = file_get_contents('http://it.sohu.com/s2010/5651/s274087241/index.shtml');
- $preg='/·<a href=(.*) target=_blank>(.*)</a>/U';
- preg_match_all($preg,$con,$arr);
- foreach($arr[1] as $id=>$v){
- echo '<a href=view.php?url=$v>'.$arr[2][$id].'</a>
- ';
- }
- ?>
- view.php
- <?php
- $con = file_get_contents($_GET[url]);
- $preg='/<h1>(.*)</h1>/';
- preg_match($preg,$con,$arr);
- echo '<h1>'.$arr[1].'</h1>';
- echo '<hr>';
- $preg2='/<div class='text clear' id='contentText' collection='Y'>(.*)</div>/s';
- preg_match($preg2,$con,$arr2);
- echo $arr2[1];
- ?>
复制代码 |
|