分类 数据采集 下的文章

火车头:让内容页里相同结构的数据分条入库

有些内容页采集出来的数据是多条的,这种最具代表性的就是json格式的数据,比如:

{ "name": "中国", "province": [{ "name": "黑龙江", "cities": { "city": ["哈尔滨", "大庆"] } }, { "name": "广东", "cities": { "city": ["广州", "深圳", "珠海"] } }, { "name": "台湾", "cities": { "city": ["台北", "高雄"] } }, { "name": "新疆", "cities": { "city": ["乌鲁木齐"] } }]` }

采集这种数据下来要分条入库,在火车头软件里设置有核心三点:

阅读剩余部分

火车头免费版实现网站多栏目内容随机发布

需求:当一个网站很多个栏目都需要采集数据,且对数据内容的相关性要求不是很高时,就想用火车头采集数据后随机发布到一系列栏目中。
或当用帝国CMS这种开源程序搭建站群时,可以用一级栏目做站群小网站的首页,二级栏目做站群的下级栏目,这样站群的这些栏目需要批量发布数据,也可以通过“网站多栏目内容随机发布”的思路实现。
工具:火车头免费版。



阅读剩余部分

mtime时光网电影资料库采集规则

想采集电影资料,在国内找一个收集比较全面的网站,最后我锁定了mtime时光网:http://movie.mtime.com/movie/search/section/

经过分析发现,时光网的这个筛选结果页面html中,是用<div id="searchResultRegion"></div>输出的列表,html代码中看不到列表内容,疑似用一种叫做ajax懒加载的技术手段实现的。

在筛选结果页面通过抓去HTML代码发现电影URL的常规方法在这里不管用,当然筛选结果页的翻页也不管用,因此需要用抓包工具把筛选结果的内部列表页URL找出来。如下:

阅读剩余部分

火车头采集里“下载图片”的 “文件保存目录”设置方法

如果你的采集中涉及到下载图片,那么你那个图片标签肯定需要保存你的图片路径,比如ecshop的产品图片保存路径可以设置为:images/年月日/goods_img/图片文件名.jpg

有人会像下面的方法设置:

1.jpg

yyyMM 可以选择火车头提供的一个内置函数,但是前面的images 和后面的goods_img自己想当然地录入进去其实是错的。细心发现那个单词之间有的为绿色粗体,有的为黑色非加粗。这样火车头是不能正常解析的。应该设置如下:

阅读剩余部分

火车头价格换算php插件

有一个需求:网上采集来的是美元,但是入库时需要把他换算成人民币,所以就需要把美元除以0.1589,这需要一个插件才能实现。

第一步:该php插件代码如下:

<?php 
error_reporting(E_ERROR | E_WARNING | E_PARSE); 
if($LabelArray['Html']){  
$LabelArray['Html']='当前页面的网址为:'.$LabelUrl."\r\n页面类型为:".$LabelArray['PageType']."\r\nCookies数据为:$LabelCookie\r\n接收到的数据是:".$LabelArray['Html']; 
} 
else 
{ 
if($LabelArray['美元']==''||!is_numeric($LabelArray['美元'])){ 
$LabelArray['美元'] =0 ;  
} 
$LabelArray['人民币']=number_format($LabelArray['美元']/$LabelArray['比率'],2,".",""); 
} 
echo serialize($LabelArray); 
?>

阅读剩余部分