整理的可以直接用的18个PHP代码函数片段

更新时间：2016年11月25日 15:37 点击：1973

编程很多时候我们是拿来主意，不喜欢重复制造轮子，更何况php本身就是开源所以为了节约工作时间，平时就收集一些非常实用的php代码，现在我把它分享给大家，希望能够帮助php开发者提升工作效率。（建议学习还是自己多写代码）

每位程序员和开发者都喜欢讨论他们最爱的代码片段，尤其是当PHP开发者花费数个小时为网页编码或创建应用时，他们更知道这些代码的重要性。为了节约编码时间，笔者收集了一些较为实用的代码片段，帮助开发者提高工作效率。>>>

1) Whois query using PHP ——利用PHP获取Whois请求

利用这段代码，在特定的域名里可获得whois信息。把域名名称作为参数，并显示所有域名的相关信息。

代码如下

复制代码

2) Text messaging with PHP using the TextMagic API ——使用TextMagic API 获取PHP Test信息

TextMagic引入强大的核心API，可轻松将SMS发送到手机。该API是需要付费。

代码如下

复制代码

the TextMagic PHP lib
require('textmagic-sms-api-php/TextMagicAPI.php');

// Set the username and password information
$username = 'myusername';
$password = 'mypassword';

// Create a new instance of TM
$router = new TextMagicAPI(array(
'username' => $username,
'password' => $password
));

// Send a text message to '999-123-4567'
$result = $router->send('Wake up!', array(9991234567), true);

// result: Result is: Array ( [messages] => Array ( [19896128] => 9991234567 ) [sent_text] => Wake up! [parts_count] => 1 )

3) Get info about your memory usage——获取内存使用率

这段代码帮助你获取内存使用率。

代码如下

复制代码

echo "Initial: ".memory_get_usage()." bytes n";
/* prints
Initial: 361400 bytes
*/

// let's use up some memory
for ($i = 0; $i < 100000; $i++) {
$array []= md5($i);
}

// let's remove half of the array
for ($i = 0; $i < 100000; $i++) {
unset($array[$i]);
}

echo "Final: ".memory_get_usage()." bytes n";
/* prints
Final: 885912 bytes
*/

echo "Peak: ".memory_get_peak_usage()." bytes n";
/* prints
Peak: 13687072 bytes
*/

4) Display source code of any webpage——查看任意网页源代码

如果你想查看网页源代码，那么只需更改第二行的URL，源代码就会在网页上显示出。

代码如下	复制代码
<?php // display source code $lines = file('http://google.com/'); foreach ($lines as $line_num => $line) { // loop thru each line and prepend line numbers echo "Line #{$line_num} : " . htmlspecialchars($line) . " n"; }

5) Create data uri’s——创建数据uri

通过使用此代码，你可以创建数据Uri，这对在HTML/CSS中嵌入图片非常有用，可帮助节省HTTP请求。

代码如下	复制代码
function data_uri($file, $mime) { $contents=file_get_contents($file); $base64=base64_encode($contents); echo "data:$mime;base64,$base64"; }

6) Detect location by IP——通过IP检索出地理位置

这段代码帮助你查找特定的IP，只需在功能参数上输入IP，就可检测出位置。

代码如下

复制代码

7) Detect browser language——查看浏览器语言

检测浏览器使用的代码脚本语言。

代码如下	复制代码
function get_client_language($availableLanguages, $default='en'){ if (isset($_SERVER['HTTP_ACCEPT_LANGUAGE'])) { $langs=explode(',',$_SERVER['HTTP_ACCEPT_LANGUAGE']); foreach ($langs as $value){ $choice=substr($value,0,2); if(in_array($choice, $availableLanguages)){ return $choice; } } } return $default; }

8) Check if server is HTTPS——检测服务器是否是HTTPS

代码如下	复制代码
if ($_SERVER['HTTPS'] != "on") { echo "This is not HTTPS"; }else{ echo "This is HTTPS"; }

9) Generate CSV file from a PHP array——在PHP数组中生成.csv 文件

代码如下	复制代码
function generateCsv($data, $delimiter = ',', $enclosure = '"') { $handle = fopen('php://temp', 'r+'); foreach ($data as $line) { fputcsv($handle, $line, $delimiter, $enclosure); } rewind($handle); while (!feof($handle)) { $contents .= fread($handle, 8192); } fclose($handle); return $contents; }

一、查看邮件是否已被阅读

当你在发送邮件时，你或许很想知道该邮件是否被对方已阅读。这里有段非常有趣的代码片段能够显示对方IP地址记录阅读的实际日期和时间。

 	   		 代码如下  		复制代码  	  
 	   		<?
error_reporting(0);
Header("Content-Type: image/jpeg");

//Get IP
if (!empty($_SERVER['HTTP_CLIENT_IP']))
{
  $ip=$_SERVER['HTTP_CLIENT_IP'];
}
elseif (!empty($_SERVER['HTTP_X_FORWARDED_FOR']))
{
  $ip=$_SERVER['HTTP_X_FORWARDED_FOR'];
}
else
{
  $ip=$_SERVER['REMOTE_ADDR'];
}

//Time
$actual_time = time();
$actual_day = date('Y.m.d', $actual_time);
$actual_day_chart = date('d/m/y', $actual_time);
$actual_hour = date('H:i:s', $actual_time);

//GET Browser
$browser = $_SERVER['HTTP_USER_AGENT'];
    
//LOG
$myFile = "log.txt";
$fh = fopen($myFile, 'a+');
$stringData = $actual_day . ' ' . $actual_hour . ' ' . $ip . ' ' . $browser . ' ' . "\r\n";
fwrite($fh, $stringData);
fclose($fh);

//Generate Image (Es. dimesion is 1x1)
$newimage = ImageCreate(1,1);
$grigio = ImageColorAllocate($newimage,255,255,255);
ImageJPEG($newimage);
ImageDestroy($newimage);
    
?>

二、从网页中提取关键字

一段伟大的代码片段能够轻松的从网页中提取关键字。

 	   		 代码如下  		复制代码  	  
 	   		$meta = get_meta_tags('http://www.emoticode.net/');
$keywords = $meta['keywords'];
// Split keywords
$keywords = explode(',', $keywords );
// Trim them
$keywords = array_map( 'trim', $keywords );
// Remove empty values
$keywords = array_filter( $keywords );

print_r( $keywords );

三、查找页面上的所有链接

使用DOM，你可以轻松从任何页面上抓取链接，代码示例如下：

 	   		 代码如下  		复制代码  	  
 	   		$html = file_get_contents('http://www.php100.com');

$dom = new DOMDocument();
@$dom->loadHTML($html);

// grab all the on the page
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a");

for ($i = 0; $i < $hrefs->length; $i++) {
       $href = $hrefs->item($i);
       $url = $href->getAttribute('href');
       echo $url.'<br />';
}

四、自动转换URL，跳转至超链接

在WordPress中，如果你想自动转换URL，跳转至超链接页面，你可以利用内置的函数make_clickable()执行此操作。如果你想基于WordPress之外操作该程序，那么你可以参考wp-includes/formatting.php源代码。

 	   		 代码如下  		复制代码  	  
 	   		function _make_url_clickable_cb($matches) {
    $ret = '';
    $url = $matches[2];
 
    if ( empty($url) )
        return $matches[0];
    // removed trailing [.,;:] from URL
    if ( in_array(substr($url, -1), array('.', ',', ';', ':')) === true ) {
        $ret = substr($url, -1);
        $url = substr($url, 0, strlen($url)-1);
    }
    return $matches[1] . "<a href=\"$url\" rel=\"nofollow\">$url</a>" . $ret;
}
 
function _make_web_ftp_clickable_cb($matches) {
    $ret = '';
    $dest = $matches[2];
    $dest = 'http://' . $dest;
 
    if ( empty($dest) )
        return $matches[0];
    // removed trailing [,;:] from URL
    if ( in_array(substr($dest, -1), array('.', ',', ';', ':')) === true ) {
        $ret = substr($dest, -1);
        $dest = substr($dest, 0, strlen($dest)-1);
    }
    return $matches[1] . "<a href=\"$dest\" rel=\"nofollow\">$dest</a>" . $ret;
}
 
function _make_email_clickable_cb($matches) {
    $email = $matches[2] . '@' . $matches[3];
    return $matches[1] . "<a href=\"mailto:$email\">$email</a>";
}
 
function make_clickable($ret) {
    $ret = ' ' . $ret;
    // in testing, using arrays here was found to be faster
    $ret = preg_replace_callback('#([\s>])([\w]+?://[\w\\x80-\\xff\#$%&~/.\-;:=,?@\[\]+]*)#is', '_make_url_clickable_cb', $ret);
    $ret = preg_replace_callback('#([\s>])((www|ftp)\.[\w\\x80-\\xff\#$%&~/.\-;:=,?@\[\]+]*)#is', '_make_web_ftp_clickable_cb', $ret);
    $ret = preg_replace_callback('#([\s>])([.0-9a-z_+-]+)@(([0-9a-z-]+\.)+[0-9a-z]{2,})#i', '_make_email_clickable_cb', $ret);
 
    // this one is not in an array because we need it to run last, for cleanup of accidental links within links
    $ret = preg_replace("#(<a( [^>]+?>|>))<a [^>]+?>([^>]+?)</a></a>#i", "$1$3</a>", $ret);
    $ret = trim($ret);
    return $ret;
}

五、创建数据URL

数据URL可以直接嵌入到HTML/CSS/JS中，以节省大量的 HTTP请求。下面的这段代码可利用$file轻松创建数据URL。

 	   		 代码如下  		复制代码  	  
 	   		function data_uri($file, $mime) {
  $contents=file_get_contents($file);
  $base64=base64_encode($contents);
  echo "data:$mime;base64,$base64";
}

六、从服务器上下载&保存一个远程图片

当你在搭建网站时，从远程服务器下载某张图片并且将其保存在自己的服务器上，这一操作会经常用到。代码如下：

 	   		 代码如下  		复制代码  	  
 	   		$image = file_get_contents('http://www.php100.com/image.jpg');
file_put_contents('/images/image.jpg', $image);//Where to save the image

七、移除Remove Microsoft Word HTML Tag

当你使用Microsoft Word会创建许多Tag，比如font，span，style，class等。这些标签对于Word本身而言是非常有用的，但是当你从Word粘贴至网页时，你会发现很多无用的Tag。因此，下面的这段代码可帮助你删除所有无用的Word HTML Tag。

 	   		 代码如下  		复制代码  	  
 	   		function cleanHTML($html) {
/// <summary>
/// Removes all FONT and SPAN tags, and all Class and Style attributes.
/// Designed to get rid of non-standard Microsoft Word HTML tags.
/// </summary>
// start by completely removing all unwanted tags

$html = ereg_replace("<(/)?(font|span|del|ins)[^>]*>","",$html);

// then run another pass over the html (twice), removing unwanted attributes

$html = ereg_replace("<([^>]*)(class|lang|style|size|face)=("[^"]*"|'[^']*'|[^>]+)([^>]*)>","<\1>",$html);
$html = ereg_replace("<([^>]*)(class|lang|style|size|face)=("[^"]*"|'[^']*'|[^>]+)([^>]*)>","<\1>",$html);

return $html
}

八、检测浏览器语言

如果你的网站上有多种语言，那么可以使用这段代码作为默认的语言来检测浏览器语言。该段代码将返回浏览器客户端使用的初始语言。

 	   		 代码如下  		复制代码  	  
 	   		function get_client_language($availableLanguages, $default='en'){
    if (isset($_SERVER['HTTP_ACCEPT_LANGUAGE'])) {
        $langs=explode(',',$_SERVER['HTTP_ACCEPT_LANGUAGE']);

        foreach ($langs as $value){
            $choice=substr($value,0,2);
            if(in_array($choice, $availableLanguages)){
                return $choice;
            }
        }
    }
    return $default;
}

九、显示Facebook 粉丝数量

如果你的网站或者博客上有内链的Facebook页面，你或许想知道拥有多少粉丝。这段代码将帮助你查看Facebook粉丝数，记住，别忘了在你的页面ID第二行添加该段代码。

 	   		 代码如下  		复制代码  	  
 	   		<?php
    $page_id = "YOUR PAGE-ID";
    $xml = @simplexml_load_file("http://api.facebook.com/restserver.php?method=facebook.fql.query&query=SELECT%20fan_count%20FROM%20page%20WHERE%20page_id=".$page_id."") or die ("a lot");
    $fans = $xml->page->fan_count;
    echo $fans;
?>

网站上传文件时，如果是小的企业站，放在一个目录还没问题，当网站大了，上传的文件多了，我们就不能放在同一个目录了，现在我们来讲讲用PHP自动给上传的文件分配路径。

PHP分配上传文件的路径实例
主要程序片段如下：

代码如下

复制代码

<?php
/*数字方式分配路径*/
function allotPath($id, $extend='jpg') {
   $folders = str_split(sprintf("%012s", $id),3);
   $folders[3] = $id;

   return '/'. join('/', $folders).'.'.$extend;
}

/*杂凑方式分配路径*/
function allotHashPath($id, $extend='jpg') {
   $folders = array_slice( str_split(md5($id),2), 0, 4);
   $folders[] = $id;

   return '/'. join('/', $folders).'.'.$extend;
}

var_dump(allotPath(122333));
// string(23) "/000/000/122/122333.jpg"

var_dump(allotHashPath(122333));
// string(23) "/9c/7c/c2/cd/122333.jpg"

这里我们讲的主要是数方式分配路径及杂凑方式分配路径，我们还可以根据日期来分配，这个问题留给读者自己去实现。

php去除字符串中的HTML标签方法有很多的今天在做一个采集小功能时发现了有N种方法，下面我为各位整理一下有原创的也有整理的，希望对大家有帮助。

先来看自己的写法

代码如下	复制代码
str_replace("<div class=＼"summary-text＼">",'',str_replace('</div>','',str_replace('</div>','',$vv)))

这个最简单就是替换$vv变量中指定的两个div了,后来发现有一个办法

代码如下	复制代码
$info = strip_tags($vv);

发现替换了所有html标签了，一面来看看strip_tags函数

trip_tags(string,allow)：函数剥去 HTML、XML 以及 PHP 的标签。

代码如下	复制代码
$str = '郭碗瓢盆-<span style="color:#f00;">PHP</span>'; $str1 = strip_tags($str); // 删除所有HTML标签 $str2 = strip_tags($str,'<span>'); // 保留 <span>标签 echo $str1; // 输出郭碗瓢盆-PHP echo $str2; // 样式不一样喔

由上面可以知道，在PHP中只能保留一些html标签，而不能指定删除一些html标签，于是我自己动手写一个放我平时的lib库文件中了。

代码如下

复制代码

/**
* 移出指定的 HTML 标签
*/
function strip_only_tags($str, $tags, $stripContent = FALSE) {
$content = '';

if (!is_array($tags)) {
    $tags = (strpos($str, '>') !== false ? explode('>', str_replace('<', '', $tags)) : array($tags));
    if (end($tags) == '') {
      array_pop($tags);
    }
}

foreach($tags as $tag) {
    if ($stripContent) {
      $content = '(.+|＼s[^>]*>)|)';
    }

    $str = preg_replace('#|＼s[^>]*>)'.$content.'#is', '', $str);
}

return $str;
}

参数说明

$str — 是指需要过滤的一段字符串，比如div、p、em、img等html标签。
$tags — 是指想要移除指定的html标签，比如a、img、p等。
$stripContent = FALSE — 移除标签内的内容，比如将整个链接删除等，默认为False，即不删除标签内的内容。

使用说明

代码如下	复制代码
$target = strip_only_tags($source, array(‘a’,'em’,'b’));

移除$source字符串内的a、em、b标签。

在php中模拟登陆一般会使用到curl来实现了，这个是php自带的一个函数了，我们可以简单的配置一下就能使用了，下面来看看吧。

php模拟登陆的实现方法，这里分别列举两种方法实现模拟登陆人人网。具体实例代码如下：

1）使用snoopy模拟登陆

代码如下

复制代码

<?php
set_time_limit(0);
require "Snoopy.class.php";
$snoopy=new Snoopy();
$snoopy->referer='http://www.111cn.net/';
$snoopy->agent="Mozilla/5.0 (Windows NT 6.1; rv:22.0) Gecko/20100101 Firefox/22.0";
$submit_vars['email'] ='登陆账号';
$submit_vars['password'] ='登陆密码';
$url='http://www.111cn.net/PLogin.do';//登陆数据提交的URL地址
$snoopy->submit($url,$submit_vars);
$snoopy->fetch("http://www.111cn.net/");//希望获取的页面数据
echo $snoopy->results;//m.111cn.net

（2）使用curl模拟登陆

代码如下

复制代码

<?php
set_time_limit(0);
$cookie_file=tempnam('./tmp','cookie');//tmp目录需要先建立好
$ch=curl_init();
$login_url='http://www.111cn.net/PLogin.do';
$curlPost="email=登陆账号&password=登陆密码";
curl_setopt($ch,CURLOPT_URL,$login_url);
//启用时会将头文件的信息作为数据流输出
curl_setopt($ch,CURLOPT_HEADER,0); //设定是否输出页面内容
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_POST,1); //设置请求发送方式，post或get，CURLOPT_POST或CURLOPT_GET
curl_setopt($ch,CURLOPT_POSTFIELDS,$curlPost);
curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file); //保存cookie
curl_exec($ch);
curl_close($ch);

$ch=curl_init();
$login_url2="http://www.111cn.net/";
curl_setopt($ch,CURLOPT_URL,$login_url2);
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,0);
curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file); //读取cookie
curl_exec($ch);
curl_close($ch);

首先使用TF-IDF算法提取两篇文章的关键词，并合并成一个集合，如关键词较多可使用堆取TOPK关键词。然后计算每篇文章对于这个集合中的词的词频，即单词数/总词数，然后生成各自词频向量。

PHP计算相似度示例代码如下：

代码如下

复制代码

<?php
function similarity(array $vec1, array $vec2) {
return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2));
}

function dotProduct(array $vec1, array $vec2) {
$result = 0;
foreach (array_keys($vec1) as $key1) {
    foreach (array_keys($vec2) as $key2) {
      if ($key1 === $key2) $result += $vec1[$key1] * $vec2[$key2];
    }
}
return $result;
}

function absVector(array $vec) {
$result = 0;
foreach (array_values($vec) as $value) {
    $result += $value * $value;
}
return sqrt($result);
}

//文章词频向量
$v1 = array('我们' => 5, '设计' => 2, '一个' => 1, '算法' =>0, '任意' => 0, '相似' => 1);
$v2 = array('我们' => 5, '设计' => 0, '一个' => 3, '算法' =>0, '任意' => 0, '相似' => 1);
//计算相似度，值越大相似程度越高
$result1 = similarity($v1,$v2);
var_dump($result1);

例子出来了，估计大家还不知道算法，下面整理两篇文章供各位参考。

有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？

这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我今天想要介绍的TF-IDF算法。

让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》，我们准备用计算机提取它的关键词。

PHP中TF-IDF与余弦相似性计算文章相似性

一个容易想到的思路，就是找到出现次数最多的词。如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"（Term Frequency，缩写为TF）统计。

结果你肯定猜到了，出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"（stop words），表示对找到结果毫无帮助、必须过滤掉的词。

假设我们把它们都过滤掉了，只考虑剩下的有实际意义的词。这样又会遇到了另一个问题，我们可能发现"中国"、"蜜蜂"、"养殖"这三个词的出现次数一样多。这是不是意味着，作为关键词，它们的重要性是一样的？

显然不是这样。因为"中国"是很常见的词，相对而言，"蜜蜂"和"养殖"不那么常见。如果这三个词在一篇文章的出现次数一样多，有理由认为，"蜜蜂"和"养殖"的重要程度要大于"中国"，也就是说，在关键词排序上面，"蜜蜂"和"养殖"应该排在"中国"的前面。

所以，我们需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

用统计学语言表达，就是在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词（"的"、"是"、"在"）给予最小的权重，较常见的词（"中国"）给予较小的权重，较少见的词（"蜜蜂"、"养殖"）给予较大的权重。这个权重叫做"逆文档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。

知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。

下面就是这个算法的细节。

第一步，计算词频。

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

或者

第二步，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF。

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

还是以《中国的蜜蜂养殖》为例，假定该文长度为1000个词，"中国"、"蜜蜂"、"养殖"各出现20次，则这三个词的"词频"（TF）都为0.02。然后，搜索Google发现，包含"的"字的网页共有250亿张，假定这就是中文网页总数。包含"中国"的网页共有62.3亿张，包含"蜜蜂"的网页为0.484亿张，包含"养殖"的网页为0.973亿张。则它们的逆文档频率（IDF）和TF-IDF如下：

从上表可见，"蜜蜂"的TF-IDF值最高，"养殖"其次，"中国"最低。（如果还计算"的"字的TF-IDF，那将是一个极其接近0的值。）所以，如果只选择一个词，"蜜蜂"就是这篇文章的关键词。

除了自动提取关键词，TF-IDF算法还可以用于许多别的地方。比如，信息检索时，对于每个文档，都可以分别计算一组搜索词（"中国"、"蜜蜂"、"养殖"）的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。

TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）

为了简单起见，我们先从句子着手。

代码如下	复制代码
句子A：我喜欢看电视，不喜欢看电影。　　句子B：我不喜欢看电视，也不喜欢看电影。

请问怎样才能计算上面两句话的相似程度？

基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

第一步，分词。

代码如下	复制代码
句子A：我/喜欢/看/电视，不/喜欢/看/电影。　　句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

第二步，列出所有的词。

代码如下	复制代码
我，喜欢，看，电视，电影，不，也。

第三步，计算词频。

代码如下	复制代码
句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。　　句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

第四步，写出词频向量。

代码如下	复制代码
句子A：[1, 2, 2, 1, 1, 1, 0] 　　句子B：[1, 2, 2, 1, 1, 2, 1]

到这里，问题就变成了如何计算这两个向量的相似程度。

我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

以二维空间为例，上图的a和b是两个向量，我们要计算它们的夹角θ。余弦定理告诉我们，可以用下面的公式求得：

假定a向量是[x1, y1]，b向量是[x2, y2]，那么可以将余弦定理改写成下面的形式：

数学家已经证明，余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量，A是 [A1, A2, ..., An] ，B是 [B1, B2, ..., Bn] ，则A与B的夹角θ的余弦等于：

使用这个公式，我们就可以得到，句子A与句子B的夹角的余弦。

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。所以，上面的句子A和句子B是很相似的，事实上它们的夹角大约为20.3度。

由此，我们就得到了"找出相似文章"的一种算法：

代码如下

复制代码

　　（1）使用TF-IDF算法，找出两篇文章的关键词；

　　（2）每篇文章各取出若干个关键词（比如20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了避免文章长度的差异，可以使用相对词频）；

　　（3）生成两篇文章各自的词频向量；

　　（4）计算两个向量的余弦相似度，值越大就表示越相似。

"余弦相似度"是一种非常有用的算法，只要是计算两个向量的相似程度，都可以采用它。

下一次，我想谈谈如何在词频统计的基础上，自动生成一篇文章的摘要

[!--infotagslink--]

上一篇: php读取手机客户端浏览器的类库

下一篇: php去除字符串中的HTML标签方法总结

php正确禁用eval函数与误区介绍
eval函数在php中是一个函数并不是系统组件函数，我们在php.ini中的disable_functions是无法禁止它的，因这他不是一个php_function哦。 eval()针对php安全来说具有很...2016-11-25
php中eval()函数操作数组的方法
在php中eval是一个函数并且不能直接禁用了，但eval函数又相当的危险了经常会出现一些问题了，今天我们就一起来看看eval函数对数组的操作例子， <?php $data="array...2016-11-25
Python astype(np.float)函数使用方法解析
这篇文章主要介绍了Python astype(np.float)函数使用方法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-06-08
Python中的imread()函数用法说明
这篇文章主要介绍了Python中的imread()函数用法说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-16
C# 中如何取绝对值函数
本文主要介绍了C# 中取绝对值的函数。具有很好的参考价值。下面跟着小编一起来看下吧...2020-06-25
C#学习笔记- 随机函数Random()的用法详解
下面小编就为大家带来一篇C#学习笔记- 随机函数Random()的用法详解。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧...2020-06-25
不打开网页直接查看网站的源代码
　　有一种方法，可以不打开网站而直接查看到这个网站的源代码.. 　　这样可以有效地防止误入恶意网站... 　　在浏览器地址栏输入：　　view-source:http://...2016-09-20
php 调用goolge地图代码
<?php require('path.inc.php'); header('content-Type: text/html; charset=utf-8'); $borough_id = intval($_GET['id']); if(!$borough_id){ echo ' ...2016-11-25
JS基于Mootools实现的个性菜单效果代码
本文实例讲述了JS基于Mootools实现的个性菜单效果代码。分享给大家供大家参考，具体如下：这里演示基于Mootools做的带动画的垂直型菜单，是一个初学者写的，用来学习Mootools的使用有帮助，下载时请注意要将外部引用的mootools...2015-10-23
JS+CSS实现分类动态选择及移动功能效果代码
本文实例讲述了JS+CSS实现分类动态选择及移动功能效果代码。分享给大家供大家参考，具体如下：这是一个类似选项卡功能的选择插件，与普通的TAb区别是加入了动画效果，多用于商品类网站，用作商品分类功能，不过其它网站也可以用，...2015-10-21
JS实现自定义简单网页软键盘效果代码
本文实例讲述了JS实现自定义简单网页软键盘效果。分享给大家供大家参考，具体如下：这是一款自定义的简单点的网页软键盘，没有使用任何控件，仅是为了练习JavaScript编写水平，安全性方面没有过多考虑，有顾虑的可以不用，目的是学...2015-11-08
php 取除连续空格与换行代码
php 取除连续空格与换行代码，这些我们都用到str_replace与正则函数第一种： $content=str_replace("n","",$content); echo $content; 第二种： $content=preg_replac...2016-11-25
金额阿拉伯数字转换为中文的自定义函数
CREATE FUNCTION ChangeBigSmall (@ChangeMoney money) RETURNS VarChar(100) AS BEGIN Declare @String1 char(20) Declare @String2 char...2016-11-25
php简单用户登陆程序代码
php简单用户登陆程序代码这些教程很对初学者来讲是很有用的哦，这款就下面这一点点代码了哦。 <center> <p> </p> <p> </p> <form name="form1...2016-11-25
C++中 Sort函数详细解析
这篇文章主要介绍了C++中Sort函数详细解析，sort函数是algorithm库下的一个函数，sort函数是不稳定的，即大小相同的元素在排序后相对顺序可能发生改变...2022-08-18
Android开发中findViewById()函数用法与简化
findViewById方法在android开发中是获取页面控件的值了，有没有发现我们一个页面控件多了会反复研究写findViewById呢，下面我们一起来看它的简化方法。 Android中Fin...2016-09-20
PHP实现清除wordpress里恶意代码
公司一些wordpress网站由于下载的插件存在恶意代码，导致整个服务器所有网站PHP文件都存在恶意代码，就写了个简单的脚本清除。恶意代码示例...2015-10-23
PHP用strstr()函数阻止垃圾评论(通过判断a标记)
strstr() 函数搜索一个字符串在另一个字符串中的第一次出现。该函数返回字符串的其余部分（从匹配点）。如果未找到所搜索的字符串，则返回 false。语法：strstr(string,search)参数string，必需。规定被搜索的字符串。参数sea...2013-10-04
JS实现双击屏幕滚动效果代码
本文实例讲述了JS实现双击屏幕滚动效果代码。分享给大家供大家参考，具体如下：这里演示双击滚屏效果代码的实现方法，不知道有觉得有用处的没，现在网上还有很多还在用这个特效的呢，代码分享给大家吧。运行效果截图如下：在线演...2015-10-30
js识别uc浏览器的代码
其实挺简单的就是if(navigator.userAgent.indexOf('UCBrowser') > -1) {alert("uc浏览器");}else｛//不是uc浏览器执行的操作｝如果想测试某个浏览器的特征可以通过如下方法获取JS获取浏览器信息浏览器代码名称：navigator...2015-11-08

整理的可以直接用的18个PHP代码函数片段

相关文章

阁下可能感兴趣的内容

推荐阅读

代码如下	复制代码
$image = file_get_contents('http://www.php100.com/image.jpg'); file_put_contents('/images/image.jpg', $image);//Where to save the image