spider.io

v5.0.10

Published

2 years ago

极简网络蜘蛛爬虫，适用任何网站，只需设置一条规则，就可以把你想要网站上的内容整理出来，非常方便，简单！

Downloads

218

0High
0Medium
0Low

ireoo

spider network spider 网络采集工具 cookie spider.io

Spider.io

极简网络蜘蛛爬虫，适用任何网站，只需设置一条规则，就可以把你想要网站上的内容整理出来，非常方便，简单！

使用说明

npm install spider.io --save

const Spider = require("spider.io");
new Spider({
  callback: function(hash, data) {
    console.log(hash, data);
  },
  run: true //立即运行
});

const Spider = require("spider.io");
new Spider({
  callback: function(hash, data) {
    console.log(hash, data);
  }
}).run();

参数说明

参数格式如下

const options = {
  init: {
    debug: false,
    delay: 1000,
    timeout: 5000,
    retrys: 3,
    threads: 1,
    loop: false
  },
  links: {
    title: "",
    hash: "",
    url: "",
    rules: [
      // 列表类型的数据，带下一级处理
      {
        list: "a",
        rule: {
          url: {
            // 同级包含links的，必须有此参数
            type: "href",
            text: ""
          },
          title: {
            type: "text",
            text: ""
          }
        },
        links: []
      },
      // 普通类型的数据
      {
        rule: {
          url: {
            // 同级包含links的，必须有此参数
            type: "href",
            text: ""
          },
          title: {
            type: "text",
            text: ""
          }
        }
      },
      // 数组形式的数据
      {
        key: "",
        list: "",
        rule: {
          url: {
            // 同级包含links的，必须有此参数
            type: "href",
            text: ""
          },
          title: {
            type: "text",
            text: ""
          }
        }
      },
      // 自定义处理返回数据，会合并上一级数据
      {
        cb: ($, init) => {
          // $ -> 为格式化的dom对象，可以直接操作，语法规则请查看 jQuery
          // init -> {hash, data}
          // ...code
          // 如果同级包含links，必须要有返回值，并且要包含url；可以返回 array 或 object
          // return [{url: ''}] or {url: ''};
        }
      }
    ]
  },
  callback: (hash, data) => {
    // 数据以单条记录返回，并不会一次返回所有值
  },
  done: () => {
    // 全部处理完毕后回调该函数
  }
};

init (主参数）

headers (主参数）(具体说明请查看 superagent）

links (主参数）

| 参数名 | 使用说明 | 类型 | 必须 | | :----- | :----------------------------------------------------------------------------------- | :----------- | :--: | | title | 用于说明规则的作用 | text | × | | hash | 用作识别码，在 callback 中完全返回 | 不限制 | × | | url | 访问的网址 | text/array | √ | | rules | 应用于当前网址的规则 | array/object | √ | | max | 当 url 中包含{i}时，设置 i 的最大值 | number | × | | min | 当 url 中包含{i}时，设置 i 的最小值, 设置此值必须要设置 max，此默认值：1 | number | × |

rules

| 参数名 | 使用说明 | 类型 | 必须 | | :----- | :------------------------------------------------------------- | :----------- | :--: | | list | 设置列表开始地址 | text | × | | rule | 设置获取的内容 | array/object | × | | links | 对于上一层的循环事件中连接另一规则 | array/object | × | | cb | 直接用函数操作，必须要返回值，$为格式化网站内容，必须要返回值 | function($) | × |

rule （使用 jquery 选择器规则）

| 参数名 | 使用说明 | 类型 | | :----- | :--------------------------------------- | :--- | | key | 返回值为<key><text>位置的<type>属性值 | text |

使用方法：

{
    <key>: {
        type: 'text|val|html|href|src|....', //可以自己设置属性
        text: ''                             //对于循环事件中，可以不设置值
    }
}

links

在使用 links 时，此规则中必须包含 list，并且 rule 中必须包含<key>为 url 在连接的规则中会自动将列表中获取的 url，对 links 的 url 逐个替换，生成新的规则。

callback (主参数）

获取数据后的返回函数，返回值：

| 参数名 | 使用说明 | 类型 | | :----- | :---------------------------------------------------------- | :----: | | hash | 返回该条规则中设置的 hash，不做处理，直接返回，用作规则识别 | 不限制 | | data | 逐个返回最后一层获取的数据 | json |

Published

Vulnerabilities

Links

Maintainers

Keywords

Readme

Spider.io

最新更新

v5.0.9 [2019/7/8]

v5.0.8 [2019/7/8]

v5.0.7 [2019/7/7]

v5.0.6 [2018/11/21]

v5.0.3 [2018/11/18]

v5.0.0 [2018/4/14]

v4.2.7