您好,欢迎来到互利cms 官方网站-内容管理系统,让你体验不一样的建站方式,更简单,更安全,更灵活
  • 登陆-注册
  • 使用手册
  • 常见问题
  • 全国服务热线:18173153117

    后台各功能运用详解->采集规则的运用详解
  • 采集规则的运用详解
  • 浏览次数:426 作者:旭日东升 日期:2018-09-29 17:12:04
  • 内容采集:
    登录后台-》系统设置-》内容采集
           1、抓取网站规则选择全站抓取:
                 他的功能就想只要取这个网站的一个url地址,那么他会把这个站的所有url全部抓取
           2、抓取a标签所在的元素:
                用法:0默认无规则 否则如下设置
                          div.desc-content{,}0(div代表元素 .desc-content代表元素中的class=desc-content  #desc-content代表 元素中的id=desc-content {,}分割符号 0代表是第几个) 
           3、href包含规则:
                 用法:0默认无规则 否则如下设置
                           com/c1代表url中要包含com/c1才会被抓取
           4、网站地址,就是你要抓取网站的链接地址
           5、抓取选项:全部勾选,会自动把标题和关键词描述抓取进来
           6、标题规则:
                 用法:-{|}0 (-为标题分割符,{|}系统默认符必须,0代分割后取的数据 0为第一个 1为第二个) 值为0默认无规则
           7、标题关键词及描述替换规则:
                用法:土巴兔{|}互利cms     规则如下
                你好{|}不好 ('你好'为被替换的内容,{|}系统默认符必须,'不好'为替换词) 值为0默认无规则
           8、内容规则:
                 主要是抓取内容所在的元素中
                 用法:div.container{,}0   规则如下
                           div.desc-content{,}0(div代表元素 .desc-content代表元素中的class=desc-content #desc-content代表元素中的id=desc-content {,}分割符号 0代表是第几个)
           9、存储状态:
                根据你需要存储到那个模块下的内容而选择
           10、所属栏目:
                  选择你要把这些内容存到哪个菜单下即可
           11、伪原创头尾添加随机段落:
                   他会把文章抓取下来的时候在头部或者尾部加随机字符段落
           12、伪原创文字替换规则:
                   他会替换抓取下来的某些指定的字符 规则如下
                   你{|}我{,}他{|}你(这样表达可以把'你'对应'他','我'对应'你'替换规则)
  • 上一篇:系统信息 下一篇:自定模板
  • 站内地图

    Copyright 2018-2028 hlcms. All Rights Reserved. 湘ICP备13008873号-1