源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 网站万能小偷采集规则编写教程二(中级版) [打印本页]

作者: 洪七公    时间: 2016-6-29 01:13
标题: 网站万能小偷采集规则编写教程二(中级版)
在基础版教程中只做了写简单的文字及LOGO替换。
本帖中级教程中的内容有:搜索的处理,广告过滤,去掉多余区域(如登陆框、友情链接、JS特效等等)。
------------------------------------------------------------------------
程序要求:万能小偷2.3以上版本
目标站点:http://v57.demo.dedecms.com/ (dedecms的官方演示站)
选择理由:单域名、稳定、未防盗链
------------------------------------------------------------------------
首先在后台【添加】采集节点。
通过查看目标站源代码我们已经知道:标题,编码,搜索地址。如图:





然后看有哪些需要去掉的部分。首页的有这些,如图红框内:



一共有3个地方。首先处理顶部的滚动文字,经过搜索发现这是一个JS调用的。



编写一条过滤,这里用正则过滤处理,当然你也可以用字符串全部替换掉

[color=rgb(51, 102, 153) !important]复制代码

再处理顶部的图片广告,是这段代码:



过滤代码

[color=rgb(51, 102, 153) !important]复制代码

再处理登陆框,是这段代码:


代码比较长,用正则替换也比较困难。可以考虑把它隐藏起来。用css方式处理,登陆框是处于class为usercenter的框架中。给他加个style隐藏掉。
字符串替换方式,代码如下:

[color=rgb(51, 102, 153) !important]复制代码

下面再处理友情链接,在源代码里搜索友情链接可以看到这段代码:



发现友情链接在class为flink的DIV标签中,且标签内不存在其它的div,所以可以直接使用正则替换处理
正则替换的代码如下:

[color=rgb(51, 102, 153) !important]复制代码

其它一些logo地址、标识什么的,可以一个个替换了。不会的看教程的基础篇
最后提交保存看看吧。
采集规则如下:

[color=rgb(51, 102, 153) !important]复制代码

[color=rgb(51, 102, 153) !important]







欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/) Powered by Discuz! X3.3