php 模仿蜘蛛抓取内容并分析
header("Content-Type:text/html;charset=gbk");
$message=$_POST['message'];
$contents = @file_get_contents("$message");
if($contents=="Forbidden"){
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, "$message");
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)");
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$contents = curl_exec($ch);
curl_close($ch);
}
preg_match_all("/<title(.*?)</title>/is",$contents,$title);
preg_match_all("/<meta(.*?)>/is",$contents,$meta);
preg_match_all("/<body(.*?)body>/is",$contents,$body);
echo 'title:'.strip_tags($title[0][0]).'<br><br>';
for($i=0;$i<count($meta[0]);$i++){
if(preg_match("/keywords/i",$meta[0][$i])){
preg_match_all("/content="(.*?)"/is",$meta[0][$i],$keywords);
}
if(preg_match("/description/i",$meta[0][$i])){
preg_match_all("/content="(.*?)"/is",$meta[0][$i],$description);
}
}
echo 'keywords:'.strip_tags($keywords[1][0]).'<br><br>';
echo 'description:'.strip_tags($description[1][0]).'<br><br>';
echo 'body:'.strip_tags($body[0][0]);
?>
$path=c:;
echo is_dir($path)?'t':'f';
如果c:、在就是输出t反之就是f
mkdir 作用是用来创建目录下面再来看看简单的is_dir与mkdir实现吧。
private function checkPath($path){
if(is_dir($path)){
return true;
}elseif(@mkdir($path)){
return true;
}
return false;
}
本站原创转注明www.111cn.net/phper/php.html
百度收录查询代码function baidu(){
global $day,$message,$num,$page,$content;
$url="http://www.baidu.com/s?q1=&q2=&q3=&q4=&rn=10&lm=$day&ct=0&tn=downreg&ft=&q5=&q6=$message";
$contents=@file_get_contents($url);
preg_match_all("/百度一下,找到相关网页(.*?)篇/is",$contents,$num);
preg_match_all("/<table border="0" cellpadding="0" cellspacing="0">(.*?)</table>/is",$contents,$content);
preg_match_all("/<div class="p">(.*?)</div>/is",$contents,$page);
}
php ,模拟,搜索引擎,访问网页时是否带有一些相关参数下面我们就来模仿搜索引擎访问网站吧。
<?php
function GetPage($url)
{
$buf=parse_url($url);
if($buf['scheme']=="http")//如果是URL
{
$host=$buf['host'];
$page=$buf['path'];
if(trim($buf['query'])!=="") $page.="?".trim($buf['query']);
$myHeader="GET $url HTTP/1.1rn";
$myHeader.="Host: $hostrn";
$myHeader.="Connection: closern";
$myHeader.="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5rn";
$myHeader.="Accept-Language: zh-cn,zh;q=0.5rn";
$myHeader.="Accept-Charset: gb2312,utf-8;q=0.7,*;q=0.7rn";
$myHeader.="User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.7.6) Gecko/20050226 Firefox/1.0.1 Web-Sniffer/1.0.20rn";
$myHeader.="Referer: http://$host/rnrn";
$server=$host;
$port=80;
$res="";
if(false!==($fp = @fsockopen ($server, $port, $errno, $errstr, 30)))
{
@fputs ($fp, $myHeader);
while (!@feof($fp)) $res.= @fgets ($fp, 1024);
@fclose ($fp);
}
else return false;
if(strlen($res)==0) return false;
return $res;
}
else//如果是本地文件
{
$fileName=$url;
if(false!==@file_exists($fileName))
{
if(false!==($buf=@implode("",file($fileName)))&&@strlen($buf)>0)
{
return $buf;
}
else return false;
}
else return false;
}
}
function GetContent($str,$x,$y){
$tem=strstr($str,$x);
return substr($tem,0, strpos($tem,$y));
}
?>
$magic_quotes_gpc = get_magic_quotes_gpc();
$register_globals = @ini_get('register_globals');
if(!$register_globals || !$magic_quotes_gpc) {
extract($mc->daddslashes($_GET ), EXTR_OVERWRITE);
extract($mc->daddslashes($_POST), EXTR_OVERWRITE);
if(!$magic_quotes_gpc) {
$_SERVER = $mc->daddslashes($_SERVER);
$_COOKIE = $mc->daddslashes($_COOKIE);
}
}
相关文章
- 这篇文章主要介绍了源码分析系列之json_encode()如何转化一个对象,对json_encode()感兴趣的同学,可以参考下...2021-04-22
- PHP去除html、css样式、js格式的方法很多,但发现,它们基本都有一个弊端:空格往往清除不了 经过不断的研究,最终找到了一个理想的去除html包括空格css样式、js 的PHP函数。...2013-08-02
- index.php怎么打开?初学者可能不知道如何打开index.php,不会的同学可以参考一下本篇教程 打开编辑:右键->打开方式->经文本方式打开打开运行:首先你要有个支持运行PH...2017-07-06
- 因此,正确的原子操作是真正被执行过的。是物理执行。在当前事务中确实能看到插入的记录。最后只不过删除了。但是AUTO_INCREMENT不会应删除而改变值。1、为什么auto_increament没有回滚?因为innodb的auto_increament的...2014-05-31
PHP中func_get_args(),func_get_arg(),func_num_args()的区别
复制代码 代码如下:<?php function jb51(){ print_r(func_get_args()); echo "<br>"; echo func_get_arg(1); echo "<br>"; echo func_num_args(); } jb51("www","j...2013-10-04- 这篇文章主要介绍了PHP编程 SSO详细介绍及简单实例的相关资料,这里介绍了三种模式跨子域单点登陆、完全跨单点域登陆、站群共享身份认证,需要的朋友可以参考下...2017-01-25
- 这篇文章主要介绍了PHP实现创建以太坊钱包转账等功能,对以太坊感兴趣的同学,可以参考下...2021-04-20
- 索引并不是时时都会生效的,比如以下几种情况,将导致索引失效: 1.如果条件中有or,即使其中有条件带索引也不会使用(这也是为什么尽量少用or的原因) 注意:要想使用or,又想让索引生效,只能将or条件中的每个列都加上索引 ...2014-06-07
- 这篇文章主要为大家详细介绍了php微信公众账号开发之五个坑,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2016-10-02
PowerShell读取文件内容、替换文件内容、读取限定行的例子
这篇文章主要介绍了PowerShell读取文件内容、替换文件内容、读取限定行的例子,本文使用3个例子来说明实现这3个需求的操作技巧,需要的朋友可以参考下...2020-06-30ThinkPHP使用心得分享-ThinkPHP + Ajax 实现2级联动下拉菜单
首先是数据库的设计。分类表叫cate.我做的是分类数据的二级联动,数据需要的字段有:id,name(中文名),pid(父id). 父id的设置: 若数据没有上一级,则父id为0,若有上级,则父id为上一级的id。数据库有内容后,就可以开始写代码,进...2014-05-31- 这篇文章主要介绍了PHP如何通过date() 函数格式化显示时间,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-11-13
- 今天我给大家分享的是在不刷新页面的前提下,使用PHP+jQuery+Ajax实现多图片上传的效果。用户只需要点击选择要上传的图片,然后图片自动上传到服务器上并展示在页面上。...2015-03-15
- 本文主要讲述了利用Python网络爬虫对指定京东商城中指定商品下的用户评论进行爬取,对数据预处理操作后进行文本情感分析,感兴趣的朋友可以了解下...2021-05-28
- Underscore 是一个 JavaScript 工具库,它提供了一整套函数式编程的实用功能,但是没有扩展任何 JavaScript 内置对象。这篇文章主要介绍了underscore源码分析相关知识,感兴趣的朋友一起学习吧...2016-01-02
- 这篇文章主要介绍了golang与php实现计算两个经纬度之间距离的方法,结合实例形式对比分析了Go语言与php进行经纬度计算的相关数学运算技巧,需要的朋友可以参考下...2016-07-29
- 这篇文章主要介绍了PHP如何使用cURL实现Get和Post请求,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-07-11
- 经常看到有人踩在了PHP路径的坑上面了,感觉有必要来说说PHP中相对路径的一些坑,以及PHP中绝对路径的使用,下面一起来看看。 ...2016-08-24
- 这篇文章主要介绍了thinkPHP中多维数组的遍历方法,以简单实例形式分析了thinkPHP中foreach语句的使用技巧,需要的朋友可以参考下...2016-01-12
- 这篇文章主要介绍了PHP正则表达式过滤html标签属性的相关内容,实用性非常,感兴趣的朋友参考下吧...2016-05-06