源码论坛公告:有很多假冒锦尚中国的网站出现,还有声称是跟我们合作网站,请擦亮眼睛避免被骗,源码论坛唯一域名为52jscn.com 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

新版大型房产门户源码下载
知名广告联盟 精准不扣量
企业免备案主机仅需80元
亿恩免费建网站 服务器特价
锦尚中国源码论坛
百度站长平台 精确提升SEO
旅游网解决方案 大型旅游门户
大型装修门户助您抢占商机
【稳定】ios苹果签名 网站封装微信营销项目诚招代理
安乐业房产网全新来袭
 
源码下载,源码论坛,网站源码,php源码,asp源码全部就在锦尚中国源码论坛
网站源码下载,商业源码下载,源码论坛,网站源码,php源码,asp源码全部就在锦尚中国源码论坛
查看: 3525|回复: 0

网站万能小偷采集规则编写教程二(中级版)

[复制链接]

1817

主题

1956

帖子

1173万

金币

超级版主

Rank: 8Rank: 8

积分
23468047
发表于 2016-6-29 01:13:52 | 显示全部楼层 |阅读模式
锦尚中国源码论坛
在基础版教程中只做了写简单的文字及LOGO替换。
本帖中级教程中的内容有:搜索的处理,广告过滤,去掉多余区域(如登陆框、友情链接、JS特效等等)。
------------------------------------------------------------------------
程序要求:万能小偷2.3以上版本
目标站点:http://v57.demo.dedecms.com/ (dedecms的官方演示站)
选择理由:单域名、稳定、未防盗链
------------------------------------------------------------------------
首先在后台【添加】采集节点。
通过查看目标站源代码我们已经知道:标题,编码,搜索地址。如图:





然后看有哪些需要去掉的部分。首页的有这些,如图红框内:



一共有3个地方。首先处理顶部的滚动文字,经过搜索发现这是一个JS调用的。



编写一条过滤,这里用正则过滤处理,当然你也可以用字符串全部替换掉
  • {vivi replace=''}<span id="time" class="time">(.*)</span>{/vivi}

[color=rgb(51, 102, 153) !important]复制代码

再处理顶部的图片广告,是这段代码:



过滤代码
  • {vivi replace=''}<div class="banner">(.*)</div>{/vivi}
  • {vivi replace=''}<div class="banner2">(.*)</div>{/vivi}

[color=rgb(51, 102, 153) !important]复制代码

再处理登陆框,是这段代码:


代码比较长,用正则替换也比较困难。可以考虑把它隐藏起来。用css方式处理,登陆框是处于class为usercenter的框架中。给他加个style隐藏掉。
字符串替换方式,代码如下:
  • class="usercenter"******style="display:none"

[color=rgb(51, 102, 153) !important]复制代码

下面再处理友情链接,在源代码里搜索友情链接可以看到这段代码:



发现友情链接在class为flink的DIV标签中,且标签内不存在其它的div,所以可以直接使用正则替换处理
正则替换的代码如下:
  • {vivi replace=''}<div class="flink w960 center clear">(.*)</div>{/vivi}

[color=rgb(51, 102, 153) !important]复制代码

其它一些logo地址、版权什么的,可以一个个替换了。不会的看教程的基础篇
最后提交保存看看吧。
采集规则如下:
  • VIVI:YToxNzp7czo0OiJuYW1lIjtzOjE4OiKyybyvvcyzzCAtINavw85jbXMiO3M6ODoiZnJvbV91cmwiO3M6Mjg6Imh0dHA6Ly92NTcuZGVtby5kZWRlY21zLmNvbS8iO3M6NzoiY2hhcnNldCI7czo1OiJ1dGYtOCI7czo5OiJvdGhlcl91cmwiO3M6MDoiIjtzOjEwOiJzZWFyY2hfdXJsIjtzOjE2OiIvcGx1cy9zZWFyY2gucGhwIjtzOjE0OiJzZWFyY2hfY2hhcnNldCI7czo1OiJ1dGYtOCI7czoxMDoiZnJvbV90aXRsZSI7czoyMDoi1q/DzkNNU19WNS430d3KvtW+teMiO3M6MTI6InJlcGxhY2VydWxlcyI7czo0NDoiY2xhc3M9InVzZXJjZW50ZXIiKioqKioqc3R5bGU9ImRpc3BsYXk6bm9uZSIiO3M6OToic2lmdHJ1bGVzIjtzOjI3MToie3ZpdmkgcmVwbGFjZT0nJ308c3BhbiBpZD0idGltZSIgY2xhc3M9InRpbWUiPiguKik8L3NwYW4+ey92aXZpfVtjdXRsaW5lXXt2aXZpIHJlcGxhY2U9Jyd9PGRpdiBjbGFzcz0iYmFubmVyIj4oLiopPC9kaXY+ey92aXZpfVtjdXRsaW5lXXt2aXZpIHJlcGxhY2U9Jyd9PGRpdiBjbGFzcz0iYmFubmVyMiI+KC4qKTwvZGl2Pnsvdml2aX1bY3V0bGluZV17dml2aSByZXBsYWNlPScnfTxkaXYgY2xhc3M9ImZsaW5rIHc5NjAgY2VudGVyIGNsZWFyIj4oLiopPC9kaXY+ey92aXZpfSI7czo4OiJiaWc1MmdiayI7czoxOiIwIjtzOjc6InJlcGxhY2UiO3M6MToiMCI7czo3OiJyZXdyaXRlIjtzOjE6IjAiO3M6NzoibGljZW5jZSI7czowOiIiO3M6Nzoic2lmdGFncyI7YTo0OntpOjA7czo2OiJpZnJhbWUiO2k6MTtzOjY6Im9iamVjdCI7aToyO3M6NDoib3V0YSI7aTozO3M6NToib3V0anMiO31zOjQ6InRpbWUiO2k6MTQzNzAzNTQ0NTtzOjEyOiJvdGhlcl9pbWd1cmwiO3M6MDoiIjtzOjM6ImNzcyI7czowOiIiO30=:END

[color=rgb(51, 102, 153) !important]复制代码

[color=rgb(51, 102, 153) !important]


您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛 锦尚中国源码

锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 )

GMT+8, 2019-4-23 20:06 , Processed in 0.154956 second(s), 27 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 锦尚爱心