|
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID! 今天给大家讲一讲怎么写163K SP2的采集规则教程!因为是第一次写东西,希望大家多多支持,支持的话就回帖吧!
本帖隐藏的内容需要回复才可以浏览
首先我们打开163K SP2后台点击 文章采集——采集添加
下载 (57.01 KB)
2009-12-7 22:58
我们进入了采集的设置页面,这里我们以采集都市新闻为例,我们选择都市新闻
下载 (8.66 KB)
2009-12-7 22:58
填写采集名称,就是给这个采集名称取个名字,这里你可以任意填写,主要是为了方便自己辨认是那条采集规则
下载 (23.5 KB)
2009-12-7 22:58
目标代码:然后打开你想要采集的文章列表页,这里我们以商都官网为例http://news.shangdu.com/101/2009/12/07/ 打开这个页面,右键——查看源文件
下载 (80.73 KB)
2009-12-7 23:04
下载 (110.23 KB)
2009-12-7 23:01
现在我们来填写列表网址获取规则,由于163K的采集系统的问题,这里估计要麻烦一点,分两种情况:
1.不分页:如果只想采集一页的话(http://news.shangdu.com/101/2009/12/07/index.shtml),可以用这种方法:
下载 (34.56 KB)
2009-12-7 23:08
2.批量分页:如果第1,2,3,4页是连着的话,可以采用这种方式写
看看文章列表第二页的地址http://news.shangdu.com/101/2009/12/07/index_1.shtml
对比第三页的地址http://news.shangdu.com/101/2009/12/07/index_2.shtml
对比第四页的地址http://news.shangdu.com/101/2009/12/07/index_3.shtml
.....................
我们发现了他们除了index_后面的数字不一样,其他的都一样,所以我们可以这样写
http://news.shangdu.com/101/2009/12/07/index_{$ID}.shtml
所以我们就填从1到10 每页递增,当然是如果要有这么多页,会不会出错试试就知道了
下载 (42.07 KB)
2009-12-7 23:10
因为选的这个网站比较特殊,所以,每次要采集完整,要这两种方式结合使用.
采集参数,过滤选项,过滤标签,过滤文章内容标签:这几项内容的设置可以根据自己的情况进行灵活掌握,主要原因是我也没有闹的很明白,也讲不清楚,所以大家可以请教一下高手.
下载 (57.91 KB)
2009-12-7 23:12
下一步进去具体内容采集的设置,首先写资源列表开始代码,步骤如下:
下载 (87.48 KB)
2009-12-7 23:15
这是资源列表的开始代码,填写如下:
下载 (19.66 KB)
2009-12-7 23:17
然后是资源列表的结束代码
下载 (64.05 KB)
2009-12-7 23:19
下载 (23.17 KB)
2009-12-7 23:19
接下来是资源链接开始代码
下载 (85.22 KB)
2009-12-7 23:22
下载 (22.74 KB)
2009-12-7 23:22
资源链接结束代码
下载 (68.29 KB)
2009-12-7 23:24
下载 (24.43 KB)
2009-12-7 23:25
下一步,进行采集内容与资源地址的设置,首先我们随便打开一条新闻,同样是右键——查看源文件
下载 (116.31 KB)
2009-12-7 23:29
在源文件中找到标题的位置,也可以使用快速搜索功能(CTRL+F)定位.
下载 (121.8 KB)
2009-12-7 23:34
下载 (25.4 KB)
2009-12-7 23:35
因为该网站中没有文章作者的代码,因此,文章作者开始,结束代码可以不写
直接进行设置文章来源的开始结束代码,这项设置也是在这条新闻的源代码中查找,如下图:
下载 (101.29 KB)
2009-12-7 23:40
下载 (30.52 KB)
2009-12-7 23:41
设置文章内容开始,结束代码,直接在源文件中找,如图:
下载 (103.77 KB)
2009-12-7 23:44
下载 (97.83 KB)
2009-12-7 23:44
下载 (23.06 KB)
2009-12-7 23:46
下边测试一下你写的规则对不对!
下载 (111.51 KB)
2009-12-7 23:48
哈哈哈,规则写好了,剩下的你批量采集信息,丰富你的网站内容了
下载 (120.57 KB)
2009-12-7 23:50
我们看看我们采集到的文章
下载 (106.01 KB)
2009-12-7 23:51
一次写东西,写的不好请多多包含,有错误的地方请留言,我会及时改正! |
|