Spider的抓取方式可以分为Spider与URL,简单点理解就是一个你可以放一个页面或域名开始抓取,另外一个则是放一个url文件进去抓取。
你在输入好url或选择好url文件后则会开始抓取内容,Spider可以为我们抓取页面的内容呢有
1.页面链接
2.文件类型与编码
3.HTTP状态码和状态
4.Title与长度
5.Description与长度
6.Keywords与长度
7.H1标签文本与长度
8.H2标签文本与长度
9.Canonical URL
10.其他(文件大小,字数,层数,内链数量,站外链接数量等)