百度站点地图是百度工具中一个非常实用的功能了可以实时的让我们的网站给百度定时抓取了,下面我们一起来看看由php生成的一个xml文档了哦。
公司网站是问答百科的网站、seo工程师提出需求说根据网站的问题来生成xml文件。每个xml文件包含5000条setmap格式数据。现在线上网站大约有70w条问题,所以说基本生成140个xml文件。还有一个索引文件。比如文件的名称以数字开头的。索引文件包含的内容就是每个xml文件的路径还有名称。
为什么要每个文件存储5000条数据呢,因为这是mysql的一个界限值、如果每次取多了以后可能会对线上用户访问造成影响,或者速度变慢。每个文件存储5000条数据,但是mysql selsect的时候不能每次取5000条、现在写的是每次取1000条。那这样逻辑就有点复杂。
先说一下实现:
首先取出1000条数据(可以灵活些成活的,方便以后修改),然后循环生成xml格式文件。file_puts_contens写入文件。然后再把生成的xml文件名称、取出问题的最小id、取出问题的最大id、取出问题的条数写出一个索引查询的txt文件当中,格式大概是这个样子的。
0,3146886,3145887,1000
发现最后面的条数是1000了吗、第一次select取出1000条数据、然后写入0.xml文件当中。把取出的xml文件名称、最小id、最大id、条数写入到索引查询txt中。第一次写入了1000条数据到0.xml、生成条数为1000。第二次查询的时候select语句会成为。 where id > 取出的最大id(当前mysql为正序查询、如果为倒序、改成小于) limit 1000 这样的话又取出1000、然后修改索引查询txt的最小id、最大id、生成条数加到2000。以此类推等生成条数到了5000的时候再另起一行写入索引文件、类似这样
0,3146886,3145887,5000
1,3148886,3147887,1000
这样写的话就减轻了服务器的压力。
下面贴出实现代码(风格有点乱):
代码如下 |
复制代码 |
<?php
/*
* SiteMap接口类
*/
class SitemapAction extends Action{
private static $baseURL = ''; //URL地址
private static $askMobileUrl = 'http://m.xxx.cn/ask/'; //问答移动版地址
private static $askPcUrl = "http://www.xxx.cn/ask/"; //问答pc地址
private static $askZonePcUrl = "http://www.xxx.cn/ask/jingxuan/"; //问答精选Pc链接
private static $askZoneMobileUrl = "http://m.xxx.cn/ask/jx/"; //问答精选移动版链接
//问答setmaps
public function askSetMap(){
header('Content-type:text/html;charset=utf-8');
//获取问题列表
$maxid = 0; //索引文件最大id
$minid = 0; //索引文件最小id
$psize = 1000; //数据库每次取数量
$maxXml = 5000; //xml写入记录数量
$where = array();
//读取索引文件
$index = APP_PATH.'setmapxml/Index.txt';
//关联setmaps路径
$askXml = "../siteditu/ask/ask.xml";
if(!file_exists($index)){
$fp=fopen("$index", "w+");
if ( !is_writable($index) ){
die("文件:" .$index. "不可写,请检查!");
}
fclose($fp);
}else{
//index.txt文件说明 0:xml文件名称(从1开始)、1:文件最大id、2:文件最小id、3:文件当前记录数
$fp = file($index);
$string = $fp[count($fp)-1];//显示最后一行
$arr = explode(',', $string);
}
//索引文件数量是否小于$maxXml
//如果为第一次运行
if(!$arr[1]){
$bs=1;
$filename=0;
}else{
if($arr && $arr[3]<$maxXml){
$filename = $arr[0];
$psize = $maxXml-$arr[3]>$psize?$psize:($maxXml-$arr[3]);
$bs = 0;
}else{
$filename = $arr[0]+1;
$bs=1;
}
}
$maxid = empty($arr[1])?0:$arr[1];
$minid = empty($arr[2])?0:$arr[2];
echo "文件名称:".$filename.".xml"."<br/ >";
echo "最大id:".$maxid."<br />";
echo "最小id:".$minid."<br />";
echo "xml写入最大记录:".$maxXml."<br />";
echo "数据库每次读取数量:".$psize."<br />";
$list = self::$questionObj->getQuestionSetMap($where,$maxid,$psize);
if(count($list)<=0){
echo 1;exit;
}
$record = $arr[3]+count($list); //索引文件写入记录数
$indexArr = array('filename'=>$filename,'maxid'=>$maxid,'minid'=>$minid,'maxXml'=>$record);
$start = '<?xml version="1.0" encoding="UTF-8" ?> '.chr(10);
$start.="<urlset xmlns=\"http://www.sitemaps.org/schemas/sitemap/0.9\" xmlns:mobile=\"http://www.baidu.com/schemas/sitemap-mobile/1/\">".chr(10);
$start.="</urlset>";
foreach($list as $k=>$qinfo){
if($k==0)
$indexArr['minid']=$qinfo['id'];
$qinfo['lastmod'] = substr($qinfo['lasttime'],0,10);
$qinfo['mobielurl'] = self::$askMobileUrl.$qinfo['id'].'.html'; //移动版链接
$qinfo['pcurl'] = self::$askPcUrl.$qinfo['id'].'-p1.html'; //pc版链接
$xml.=$this->askMapMobileUrl($qinfo); //移动版
$xml.=$this->askMapPcUrl($qinfo); //pc版
}
$maxid = end($list);
$indexArr['maxid'] = $maxid['id'];
//更新索引文件
if($bs==0){
//更新最后一行
$txt = file($index);
$txt[count($txt)-1] = $indexArr[filename].','.$indexArr[maxid].','.$indexArr['minid'].','.$indexArr['maxXml']."\r\n";
$str = join($txt);
if (is_writable($index)) {
if (!$handle = fopen($index, 'w')) {
echo "不能打开文件 $index";exit;
exit;
}
if (fwrite($handle, $str) === FALSE) {
echo "不能写入到文件 $index";exit;
exit;
}
echo "成功地写入文件$index";
fclose($handle);
} else {
echo "文件 $index 不可写";exit;
}
fclose($index);
}elseif($bs==1){
//新加入一行
$fp = fopen($index,'a');
$num = count($list);
$string = $indexArr[filename].','.$indexArr[maxid].','.$indexArr['minid'].','.$num."\r\n";
if(fwrite($fp,$string)===false){
echo "追加新行失败。。。";exit;
}else{
echo "追加成功<br />";
//更新sitemap索引文件
$xmlData="<?xml version=\"1.0\" encoding=\"UTF-8\" ?>".chr(10);
$xmlData.="<sitemapindex>".chr(10);
$xmlData.="</sitemapindex>";
if(!file_exists($askXml))
file_put_contents($askXml,$xmlData);
$fileList = file($askXml);
$fileCount = count($fileList);
$setmapxml = "http://www.xxx.cn/ask/setmapxml/{$filename}.xml";//正常问题链接
$txt = $this->setMapIndex($setmapxml);
$fileList[$fileCount-1]=$txt."</sitemapindex>";
$newContent = '';
foreach($fileList as $v){
$newContent.= $v;
}
if(!file_put_contents($askXml,$newContent)) exit('无法写入数据');
echo '已经写入文档' . $askXml;
}
fclose($fp);
}
$filename = APP_PATH.'setmapxml/'.$filename.'.xml';
//更新到xml文件中,增加结尾
if(!file_exists($filename))
file_put_contents($filename,$start);
$xmlList = file($filename);
$xmlCount = count($fileList);
$xmlList[$xmlCount-1]=$xml."</urlset>";
$newXml = '';
foreach($xmlList as $v){
$newXml.= $v;
}
if(!file_put_contents($filename, $newXml))exit("写入数据错误");
else
echo "写入数据成功<br />";
}
//问答移动版xml
private function askMapMobileUrl($data){
$xml = '';
if(is_array($data)&&!empty($data)){
$xml .="<url>".chr(10);
if($data['id'])
$xml.='<loc>'.$data['mobielurl'].'</loc>'.chr(10);//移动版链接
$xml.="<mobile:mobile type=\"mobile\"/>".chr(10);
if($data['lastmod'])
$xml.='<lastmod>'.$data['lastmod'].'</lastmod>'.chr(10);
$xml.='<changefreq>daily</changefreq>'.chr(10);
$xml.='<priority>0.8</priority>'.chr(10);
$xml.="</url>".chr(10);
return $xml;
}
}
//问答pc版xml
private function askMapPcUrl($data){
$xml = '';
if(is_array($data)&&!empty($data)){
$xml.='<url>'.chr(10);
if($data['id'])
$xml.='<loc>'.$data['pcurl'].'</loc>'.chr(10);//pc版链接
if($data['lastmod'])
$xml.='<lastmod>'.$data['lastmod'].'</lastmod>'.chr(10);
$xml.='<changefreq>daily</changefreq>'.chr(10);
$xml.='<priority>0.8</priority>'.chr(10);
$xml.='</url>'.chr(10);
return $xml;
}
}
//setmaps索引文件
private function setMapIndex($filename){
$xml = '';
$xml.="<sitemap>".chr(10);
$xml.="<loc>{$filename}</loc>".chr(10);
$xml.="<lastmod>".date("Y-m-d",time())."</lastmod>".chr(10);
$xml.="</sitemap>".chr(10);
return $xml;
}
}
?>
xml索引文件格式
<?xml version="1.0" encoding="UTF-8" ?>
<sitemapindex>
<sitemap>
<loc>http://www.xxx.cn/ask/setmapxml/0.xml</loc>
<lastmod>2014-05-12</lastmod>
</sitemap>
<sitemap>
<loc>http://www.xxx.cn/ask/setmapxml/1.xml</loc>
<lastmod>2014-05-12</lastmod>
</sitemap>
</sitemapindex>
xml文件格式(每个文件需要存储5000条、现展示1条例子)
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>http://m.xxx.cn/ask/7460.html</loc>
<mobile:mobile type="mobile"/>
<lastmod>2013-01-11</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
</urlset>
|
sql代码不贴了、就一个select。
php生成xml时添加CDATA标签方法非常的简单,因为是一个在xml中可以存储各种内容的标签了,下面整理了一个例子希望对各位有帮助。
贴上代码留住伤疤,不要把<![CDATA[ $text]]>当成前后缀,其实它可以是标签。
代码如下 |
复制代码 |
<?php
$dom = new DOMDocument("1.0");
// display document in browser as plain text
// for readability purposes
header("Content-Type: text/plain");
// create root element
$root = $dom->createElement("toppings");
$dom->appendChild($root);
// create child element
$item = $dom->createElement("item");
$root->appendChild($item);
// create text node
$text = $dom->createTextNode("pepperoni");
$item->appendChild($text);
// create attribute node
$price = $dom->createAttribute("price");
$item->appendChild($price);
// create attribute value node
$priceValue = $dom->createTextNode("4");
$price->appendChild($priceValue);
// create CDATA section
$cdata = $dom->createCDATASection(" Customer requests that pizza be sliced into 16 square pieces ");
$root->appendChild($cdata);
// create PI
$pi = $dom->createProcessingInstruction("pizza", "bake()");
$root->appendChild($pi);
// save and display tree
echo $dom->saveXML();
?>
|
下面给大家普及一篇关于php生成xml实例与基础知识文章吧,这个操作很简单我们介绍了xml是什么及xml特点了,希望例子对各位有帮助哦。
1、XML,Extensible Markup Language(可扩展标记语言),是一种可以创建自定义标记符号(Tags)的标记语言,是用于表示结构化信息的一种标准文本格式,作为下一代数据交换格式的标准。和HTML一样,XML基于标准通用标记语言(Standard Generalized Markup Language,SGML)。文档结构,层次非常清晰。xml文档只是存储了数据,是很有规律的结构化文档,但没有定义如何显示这些数据。文档结构可称为“文档树”,主干是顶层的父元素,分支和叶是子元素。
xml声明,表示文档遵循的是xml的1.0版的规范
2、xml特点:
可扩展性,xml允许使用者创建和使用他们自己的标记而不是HTML的有限标签,企业可以用XML为电子商务和供应链集成等应用定义自己的标记语言,甚至特定行业一起来定义该领域的特殊标记语言,作为该领域信息共享与数据交换的基础。不过,这些自定义标记仅仅是用来识别信息数据的,它本身并不传达信息。
灵活性,xml更像一个小型的数据库,提供了一种结构化的数据表示方式,使得用户界面分离于结构化数据。
自描述性,xml表示数据的方式真正做到了独立于应用系统,并且数据能够重用,xml文档被看作文档的数据库化和数据的文档化。
3、xml与html区别
html是一个定型的标记语言,它用固有的标记来描述,显示网页内容。xml没有固定的标记,不能描述网页具体的外观、内容,它只是描述内容的数据形式和结构。网页将数据和显示混在一起,而xml则将数据和显示分开。
xml文档注意事项
所有标记都必须有一个相应的结束标记、标记都必须合理嵌套、标记区分大小写、标记的属性必须用“”括起来。
标记命名规则:名字中可以包含字母、数字、下划线以及其他字母,不能以数字或下划线开头、名字不能以xml(或XML或Xml…)开头、名字中不能包含空格、名字中也不能使用“.”,“.”被用来连接元素和属性。
ps:支持汉字作为标记名,要注意编码。文件编码与xml声明的编码要一致
在 XML 中,有 5 个预定义的实体引用:
< < 小于
>> 大于
& & 和号
' ' 单引号
" " 双引号
XML文件生成操作简单示例
代码如下 |
复制代码 |
<?php
header("Content-Type:application/xml;charset=utf-8");
header("Cache-Control: no-cache,must-revalidate");
header("Expries: Fri, 14 Mar 1980 20:00:00 GMT");
header("Last-Modified: ".date('r'));
header("Prama: no-cache");
$xml='<?xml version="1.0" encoding="utf-8"?>
<rss></rss>';
$sxe=new SimpleXMLElement($xml);
if(method_exists($sxe,'addChild')){
$sxe->addAttribute('version','2.0');
$channel=$sxe->addChild('channel');
$channel->addChild("title","服饰批发");
for($i=0;$i<5;$i++){
$item=$channel->addChild('item');
$item->addChild('title','商品'.$i);
$item->addChild('link',$i);
}
echo $sxe->asXML();
}else{
$dom=new DOMDocument("1.0");//生成一个新的DOM对象
$rss=$dom->createElement("rss");//生成rss元素
$rss->setAttribute("version","2.0");
$rss=$dom->appendChild($rss);
$channel=$dom->createElement("channel");
$channel=$rss->appendChild($channel);
$title=$dom->createElement('title');
$text=$dom->createTextNode("服饰批发");
$title->appendChild($text);
$title=$channel->appendChild($title);
for($i=0;$i<5;$i++){
$item=$dom->createElement("item");
$item=$channel->appendChild($item);
$title=$dom->createElement("title");
$text=$dom->createTextNode("商品".$i);
$title->appendChild($text);
$title=$item->appendChild($title);
$link=$dom->createElement("link");
$text=$dom->createTextNode("$i");
$link->appendChild($text);
$link=$item->appendChild($link);
}
echo $dom->saveXML();
//$dom->save("nnn.xml");
}
?>
|
php5中读写xml文档是非常方便的了,我们可以使用php SimpleXML对话来帮我们快速解析与生成xml格式的文件哦,下面来看一下例子吧。
创建一个SimpleXML对象有三种方法:
使用new关键字创建
代码如下 |
复制代码 |
$xml="<personinfo><item><id>1</id><name>aaa</name><age>16</age></item>
<item><id>2</id><name>bbb</name><age>26</age></item></personinfo>";
$rss=new SimpleXMLElement($xml);
|
使用simplexml_load_string()创建
代码如下 |
复制代码 |
$xml="<personinfo><item><id>1</id><name>aaa</name><age>16</age></item>
<item><id>2</id><name>bbb</name><age>26</age></item></personinfo>";
$rss=simplexml_load_string($xml);
|
最常用的方法,使用simplexml_load_file()从一个URL创建
代码如下 |
复制代码 |
$rss=simplexml_load_file("rss.xml");
或
$rss=simplexml_load_file("/rss.xml");//远程文档
|
先看个例子。
代码如下 |
复制代码 |
<?php
$xml="<personinfo><item><id>1</id><name>aaa</name><age>16</age></item><item><id>2</id><name>bbb</name><age>26</age></item></personinfo>";
$rss=new SimpleXMLElement($xml);
foreach($rss->item as $v){
echo $v->name,'<br />';
}
echo $rss->item[1]->age;//读取数据
echo '<hr>';
$rss->item[1]->name='ccc';//修改数据
foreach($rss->item as $v){
echo $v->name,' <br /> ';//aaa <br /> ccc <br />
}
echo '<hr>';
unset($rss->item[1]);//输出数据
foreach($rss->item as $k=>$v){
echo $v->name,' <br /> ';//aaa <br />
}
echo '<hr>';
//添加数据
$item=$rss->addChild('item');
$item->addChild('id','3');
$item->addChild('name','ccc_new');
$item->addChild('age','40');
foreach($rss->item as $k=>$v){
echo $v->name,' <br /> ';//aaa <br /> ccc_new <br />
}
$rss->asXML('personinfo.xml');
?>
|
下面分析上面例子
代码如下 |
复制代码 |
xml数据的读取
可以直接通过元素的名称来访问特定的元素。文档中的所有元素都被看成是该对象的属性。
foreach($rss->item as $v){
echo $v->name,' <br /> ';//aaa <br /> bbb <br />
}
echo $rss->item[1]->age;//26
xml数据修改,可以直接利用对象属性赋值的方法来直接编辑一个元素的内容
$rss->item[1]->name='ccc';//修改数据
foreach($rss->item as $v){
echo $v->name,' <br /> ';//aaa <br /> ccc <br />
}
可以用php内容函数unset来将一个元素从树中删除
unset($rss->item[1]);
foreach($rss->item as $v){
echo $v->name,' <br /> ';//a www.111cn.net aa <br />
}
xml添加元素数据,可通过对象的addChild方法来实现
$item=$rss->addChild('item');
$item->addChild('id','3');
$item->addChild('name','ccc_new');
$item->addChild('age','40');
foreach($rss->item as $k=>$v){
echo $v->name,' <br /> ';//aaa <br /> ccc_new <br />
}
xml数据的存储
使用对象的asXML()方法
$rss->asXML('personinfo.xml');//将xml数据存储到personinfo.xml文件中
|
今天在做一个xml输出时发现我们直接使用echo输入的xml文档会提示Error: Object # has no method ‘load’错误的了,后改用了header()输出xml头文件就解决了,下面记录一下。
xml长的和txt文件太相似,所以导致我总和txt混为一谈。
代码如下 |
复制代码 |
echo '<?xml version="1.0" encoding="UTF-8"?>
<sitemap>
<loc>http://www.111cn.net/</loc>
<lastmod>2013-01-22T11:00:18+08:00</lastmod>
</sitemap>
';
exit;
|
这么一段代码,死活输出的xml无法通过xml验证。
Error: Object # has no method ‘load’
最后查了半天都和直接放在1.xml里的文件一样
代码如下 |
复制代码 |
<?xml version="1.0" encoding="UTF-8"?>
<sitemap>
<loc>http://www.111cn.net/</loc>
<lastmod>2013-01-22T11:00:18+08:00</lastmod>
</sitemap>
|
加个header就好了。 折腾了好几个小时。。。。。
代码如下 |
复制代码 |
<?php
header("Content-type:text/xml");
echo '<?xml version="1.0" encoding="UTF-8"?>
<sitemap>
<loc>http://www.111cn.net/</loc>
<lastmod>2013-01-22T11:00:18+08:00</lastmod>
</sitemap>
';
exit;
|