PHP正则表达式提取淘宝搜索图片及链接地址

 更新时间:2016年11月25日 17:42  点击:1661
用php正则表达式,实现提取淘宝搜索页面的图面及链接的提取,可用于制作淘宝搜索小偷,做网站淘宝客。以下是我写的演示例子,大家可以适当修改使用。我测试时提取的链接貌似不包含pid,所以可以在超链接输出时再加入,如地址加入:&$pid=mm_17149866_0_0;

程序代码

 代码如下 复制代码

<?php


$keywords=$_GET['word'];//关键词

$p=($_GET['p']-1)*40;//页码

$html = file_get_contents("http://s.taobao.com/search?q=".$keywords."&pid=mm_17149866_0_0&s=".$p."#J_relative");//pid可以自己修改

preg_match_all ("|<img src="(.*)" /></span>|U",$html,$img_array);//提取图片

preg_match_all('/<h3 class="summary"><a .*?href="(.*?)".*?>/is',$html,$match);//提取超链接

$c=count($match[1]);

for($i=0;$i<$c;$i++)

{

  echo '<a href='.$match[1][$i].'><img src="'.$img_array[1][$i].'"></a>';

}

?>

一个简单的PHP防止JS注入正则代码,有需要了解的同学可参考。

例子

 代码如下 复制代码

 $a ="/<script[^>]*?>.*?</script>/si";
 $keyword = preg_replace($a,' ',$_POST['searchword']);

其它方法

 代码如下 复制代码

<?php
$title="<style>ssss{'float:right'}</style>";
$title = strip_tags($title);
if(preg_match('/<style>(.*)</style>|<script>(.*)</script>|<img src=(.*)>/',$title,$info)){
 $title=$info['1'];
}else{
 $title = $title;
}
echo $title;

正则表达式是php中一种超强的数据查找模式了,下面我来给各位入门者介绍在php中正则表达式是如何使用,有需要了解的同学可进入参考。

可以用字符作为一个通配符来代替除换行符(n)之外的任一个字符。例如,正则表达式:
.at
可以与"cat"、"sat"、"#at"和"mat"等进行匹配。主要是用于在搜索文件时

也可以指定一个字符集:
[a-z]at
在方括号([])中的内容都是一个字符类--- 一个被匹配字符所属的字符集合。但是只匹配其中的一个字符。

同时我们也可以给出一个集合。
[aeiou]
可以用来表示元音字母。

也可以用来表示一个范围。也可以是一个范围集:
[a-zA-Z]
这个范围集代表任何的大小字母。

此外,还可以用集合来指明字符不属于某个集。例如:
[^a-z]
可以用来匹配任何不在a和z之间的字符。当把脱胎换骨字符号(^)包括在方括号里面时,表示否。

重复次数
"*"表示这个模式可以被重复0次或更多次,符号"+"则表示这个模式可以被重复1次或更多次。

[[:alnum:]]+
表示至少有一个字母。

子表达式
(very)*large
可以匹配 very large 、 large 、very very large 等。

子表达式记数
可以用在花括号({})中的数字表达式来指定内容允许重复的次数。可以指定一个确切的数字({3}表示重复3次),或者一个重复次数的范围

({2,4}表示重复2~4次),或是一个开底的重复范围({2,}表示至少要重复2次).
例如:
(very){1,3}
表示匹配"very"、"very very"、"very very very"。

定位到字符串的开始或末尾
脱字符号(^)用于正则表达式的开始,表示子字符串必须出现在被搜索字符串的开始字符处,字符"$"用于正则表达式的末尾。表示子字符串必

须出现在字符串的末尾。

例,以下是在字符串开始处匹配bob:
^bob

这个模式将匹配com出现在字符串末尾处的字符串:
com$

最后,这个模式将匹配只包含a到z之间一个字符的字符串:
^[a-z]$

分支

可以使用正则表达式中的一条竖线来表示一个选择。例如,如果要匹配com、edu或net,就可以使用如下所示的表达示:
com|edu|net

匹配特殊字符

如果要匹配特殊字符,例如,.、{或者$,就必须在它们前面加一个反斜杠()。如果要匹配一个反斜杠,则必须用两个反斜杠(\)来表示.

在PHP中,必须将正则表达式模式包括在一个单引号字符串中.

在POSIX正则表达式中,用于方括号外面特殊字符的摘要

字符          意义                字符         意义
         转意字符                              )        子模式的结束
 ^        在字符串开始匹配                  *        重复0次或更多次
 $        在字符串末尾匹配                  +        重复1次或更多次
 .        匹配除换行符(n)之外的字符     {         最小/最大量记号的开始
 |        选择分支的开始(或)                 }        最小/最大量记号的结束
 (        子模式的开始                         ?        标记一个子模式为可选的

在POSIX正则表达式中,用于方括号里面的特殊字符

字符         意义
         转意字符
 ^        非,仅用在开始位置
 -        用于指明字符范围


常用的正则表达式
    1、非负整数:”^d+$”

    2、正整数:”^[0-9]*[1-9][0-9]*$”

    3、非正整数:”^((-d+)|(0+))$”

    4、负整数:”^-[0-9]*[1-9][0-9]*$”

    5、整数:”^-?d+$”

    6、非负浮点数:”^d+(.d+)?$”

    7、正浮点数:”^((0-9)+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$”

    8、非正浮点数:”^((-d+.d+)?)|(0+(.0+)?))$”

    9、负浮点数:”^(-((正浮点数正则式)))$”

    10、英文字符串:”^[A-Za-z]+$”

    11、英文大写串:”^[A-Z]+$”

    12、英文小写串:”^[a-z]+$”

    13、英文字符数字串:”^[A-Za-z0-9]+$”

    14、英数字加下划线串:”^w+$”

    15、E-mail地址:”^[w-]+(.[w-]+)*@[w-]+(.[w-]+)+$”

    16、URL:”^[a-zA-Z]+://(w+(-w+)*)(.(w+(-w+)*))*(?s*)?$”

这些我悼念了32条PHP正则表达式 ,这些正则表达式在网站开发上是经常会使用的正式表达式,有需要的可以收藏一下


1、"^d+$"  //非负整数(正整数 + 0)

 

2、"^[0-9]*[1-9][0-9]*$"  //正整数

 

3、"^((-d+)|(0+))$"  //非正整数(负整数 + 0)

 

4、"^-[0-9]*[1-9][0-9]*$"  //负整数

 

5、"^-?d+$"    //整数

 

6、"^d+(.d+)?$"  //非负浮点数(正浮点数 + 0)

 

7、"^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$"  //正浮点数

 

8、"^((-d+(.d+)?)|(0+(.0+)?))$"  //非正浮点数(负浮点数 + 0)

 

9、"^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$"  //负浮点数

 

10、"^(-?d+)(.d+)?$"  //浮点数

 

11、"^[A-Za-z]+$"  //由26个英文字母组成的字符串 www.netxu.com

 

12、"^[A-Z]+$"  //由26个英文字母的大写组成的字符串

 

13、"^[a-z]+$"  //由26个英文字母的小写组成的字符串

 

14、"^[A-Za-z0-9]+$"  //由数字和26个英文字母组成的字符串

 

15、"^w+$"  //由数字、26个英文字母或者下划线组成的字符串

 

16、"^[w-]+(.[w-]+)*@[w-]+(.[w-]+)+$"    //email地址

 

17、"^[a-zA-z]+://(w+(-w+)*)(.(w+(-w+)*))*(?S*)?$"  //url

 

18、/^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/   //  年-月-日

 

19、/^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/   // 月/日/年

 

20、"^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$"   //Emil

 

21、/^((+?[0-9]{2,4}-[0-9]{3,4}-)|([0-9]{3,4}-))?([0-9]{7,8})(-[0-9]+)?$/     //电话号码 www.netxu.com

 

22、"^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).

(d{1,2}|1dd|2[0-4]d|25[0-5])$"   //IP地址  

 

23、匹配中文字符的正则表达式: [u4e00-u9fa5]

 

24、匹配双字节字符(包括汉字在内):[^x00-xff]

 

25、匹配空行的正则表达式:n[s| ]*r

 

26、匹配HTML标记的正则表达式:/<(.*)>.*</1>|<(.*) />/

 

27、匹配首尾空格的正则表达式:(^s*)|(s*$)

 

28、匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

 

29、匹配网址URL的正则表达式:^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$

 

30、匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

 

31、匹配国内电话号码:(d{3}-|d{4}-)?(d{8}|d{7})?

 


32、匹配腾讯QQ号:^[1-9]*[1-9][0-9]*$

邮箱正则我们要包括所有域名如.com,.cn,org,net等等各种域名,然后就是邮箱地址的组成一般是由字母或者数字开头,中间可以有“-”与“_”符号,但邮箱不能由中文等等。

1,不做总长度判断,长度判断可以自己加上;

2,支持.net.cn,.com.cn这样的域名后缀;

3,邮箱名部分以字母或者数字开头,中间可以有“-”与“_”符号;

4,域名部分以字母或者数字开头,中间可以有“-”与“_”符号;

 代码如下 复制代码

/**
 * 自己修整的一个邮箱正则表达式
 * 琼台博客
 */

echo '<meta charset="utf-8" />';
function c_email($email){
    $reg='/^([a-zA-Z0-9]{1,20})(([_-.])?([a-zA-Z0-9]{1,20}))*@([a-zA-Z0-9]{1,20})(([-_])?([a-zA-Z0-9]{1,20}))*(.[a-z]{2,4}){1,2}$/';
    if(preg_match($reg,$email))
        return true;    
    return false;
}
$email = 'mail@lizhong.me';
$check_result = c_email($email);
if($check_result){
    echo '邮箱格式正确';
}else{
    echo '邮箱格式错误';
}

[!--infotagslink--]

相关文章

  • PHP正则表达式取双引号内的内容

    取双引号内的内容我们如果一个字符串中只有一个可以使用explode来获得,但如果有多个需要使用正则表达式来提取了,具体的例子如下。 写程序的时候总结一点经验,如何只...2016-11-25
  • 一个关于JS正则匹配的踩坑记录

    这篇文章主要给大家介绍了一个关于JS正则匹配的踩坑记录,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-04-13
  • PHP正则表达式之捕获组与非捕获组

    今天遇到一个正则匹配的问题,忽然翻到有捕获组的概念,手册上也是一略而过,百度时无意翻到C#和Java中有对正则捕获组的特殊用法,搜索关键词有PHP时竟然没有相关内容,自己试了一下,发现在PHP中也是可行的,于是总结一下,分享的同...2015-11-08
  • php 验证只能输入汉字、英语、数字的正则表达式

    正则表达式是一门非常有用的并且进行模糊判断的一个功能了,我们下面来看通过正则来验证输入汉字、英语、数字,具体如下。 收藏了正则表达式。可以验证只能输入数...2016-11-25
  • java正则表达式判断前端参数修改表中另一个字段的值

    这篇文章主要介绍了java正则表达式判断前端参数修改表中另一个字段的值,需要的朋友可以参考下...2021-05-07
  • 常用的日期时间正则表达式

    常用的日期时间正则表达式 下面收藏了大量的日期时间正则匹配函数,包括分钟,时间与秒都能达到。 正则表达式 (?n:^(?=d)((?<day>31(?!(.0?[2469]|11))|30(?!.0?2)|29(...2016-11-25
  • PHP正则表达式匹配验证提取网址URL实例总结

    网址规则是可寻的,所以我们可以使用正则表达式来提取字符串中的url地址了,下面一起来看看小编整理的几个PHP正则表达式匹配验证提取网址URL实例. 匹配网址 URL 的...2016-11-25
  • 正则表达式中两个反斜杠的匹配规则详解

    这篇文章主要介绍了正则表达式中两个反斜杠的匹配规则,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-05-07
  • JS中使用正则表达式g模式和非g模式的区别

    这篇文章给大家详细介绍了JS中使用正则表达式g模式和非g模式的区别,非常不错,具有参考借鉴价值,需要的朋友参考下吧...2017-04-03
  • JavaScript利用正则表达式替换字符串中的内容

    本文主要介绍了JavaScript利用正则表达式替换字符串中内容的具体实现方法,并做了简要注释,便于理解。具有一定的参考价值,需要的朋友可以看下...2017-01-09
  • C#正则表达式使用方法示例

    这篇文章主要介绍了C#正则表达式使用方法,大家参考使用...2020-06-25
  • 常用C#正则表达式汇总介绍

    c#正则表达式,用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。...2020-06-25
  • 一文秒懂python正则表达式常用函数

    这篇文章主要介绍了python正则表达式常用函数及使用方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-05-07
  • JS基于正则截取替换特定字符之间字符串操作示例

    这篇文章主要介绍了JS基于正则截取替换特定字符之间字符串操作方法,结合具体实例形式分析了JS基于正则实现针对特殊字符、数字等字符串类型的截取操作相关技巧,需要的朋友可以参考下...2017-02-08
  • Idea使用正则表达式批量替换字符串的方法

    这篇文章给大家介绍了Idea使用正则表达式批量替换字符串的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧...2021-07-21
  • js正则学习小记之匹配字符串字面量

    关于匹配字符串问题,有很多种类型,今天讨论 js 代码里的字符串匹配,因为我想学完之后写个语法高亮练手,所以用js代码当作例子...2021-05-07
  • PHP正则表达式之捕获组与非捕获组

    今天遇到一个正则匹配的问题,忽然翻到有捕获组的概念,手册上也是一略而过,百度时无意翻到C#和Java中有对正则捕获组的特殊用法,搜索关键词有PHP时竟然没有相关内容,自己试了一下,发现在PHP中也是可行的,于是总结一下,分享的同...2015-11-08
  • C# 中使用正则表达式匹配字符的含义

    正则表达式的作用用来描述字符串的特征。本文重点给大家介绍C# 中使用正则表达式匹配字符的含义,非常不错,具有一定的参考借鉴价值,需要的朋友参考下吧...2020-06-25
  • Python验证的50个常见正则表达式

    这篇文章主要给大家介绍了关于利用Python验证的50个常见正则表达式的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-03-11
  • C#编程自学之运算符和表达式

    这篇文章主要介绍了C#运算符和表达式,这是自学C#编程的第五篇,希望对大家的学习有所帮助。...2020-06-25