采集规则在采集节点中导入即可,导入时,请选择对应的栏目(以各规则为准)
为确保稳定,采集点标识不要用中文,最好是只用英文字母即可。如“mianhuatang”、“biqugetw”否则出现采集相关的错误,自行解决采集规则导入以后,需要手动编辑,指定一下栏目对应情况
单栏目匹配、多栏目匹配的说明:
单栏目匹配:
此类采集主要是排行榜性质,小说都在一个列表中,需要进入小说页面才能识别分类。此类内容初步采集完,会放到默认分类,待有访问时会根据采集到的信息重新调整所属栏目。
多栏目匹配:
此类主要是采集全站多个栏目列表,每次采集时随机采集一个栏目,此类采集完列表以后,内容就会分配到采集规则中对应的栏目。这类采集适合大多数网站
采集规则源站选取:
1.必须存在栏目页以及分页,或者最新更新/排行榜等页面并存在分页。如不存在分页则不宜作为目标站,采集不到几条数据
2.列表页中最好包含缩略图、作者等信息,这样在采集列表时直接就能采集比较完整的小说信息,不用等到小说页面再采集。推荐,但非必须
3.章节列表页最好和小说信息在一个页面,比如大多数笔趣阁模板。这样可以在采集小说简介等内容的同时采集到章节列表,从长远来看,对网站速度是有好处的。推荐,但非必须
4.列表页初步采集到的文章信息中,缩略图是不会进行存储的,这是为了采集的效率考虑。在小说信息页面被人或蜘蛛访问时,才会进行存储,所以可能出现在部分列表中图片网址是站外的情况

采集规则分两类,第一是单列表匹配,另一类是多栏目匹配
单列表匹配,以笔趣阁排行榜为例,如图:
ygbook小说采集规则怎么写插图
根据图中文字选择对应栏目即可

多栏目匹配,以88读书小说网为例:
ygbook小说采集规则怎么写插图1
cate]对应情况中cate的值(如1),代入到规则列表页面的url中(page默认为1),即:
https://www.88dush.com/sort1/1/
该页面打开后是玄幻魔法小说,按照我网站中栏目设置,我把它归入玄幻,因此cate=1这一行,右侧选择玄幻小说即可
其他分类同理