您的当前位置:首页八爪鱼采集器如何使用?有哪些优缺点?

八爪鱼采集器如何使用?有哪些优缺点?

2020-09-13 来源:爱问旅游网
八爪鱼·云采集服务平台

www.bazhuayu.com

八爪鱼采集器如何使用?有哪些优缺点?

八爪鱼采集器,是一款通用的网页数据采集器,可应对各种复杂的网页结构,简单快速地将网页数据转化为结构化数据,以excel、数据库、api等形式导出。

那么,八爪鱼采集器具有哪些优缺点,到底该如何使用呢?本文将具体讲述八爪鱼采集器的优缺点和使用方法。要了解的信息很多,请大家耐心阅读。

一、八爪鱼采集器的优缺点 优点:

1、功能强大。八爪鱼采集器是一款通用爬虫,可应对各种网页的复杂结构(瀑布流等)和防采集措施(登录、验证码、封IP),实现百分之九十九的网页数据抓取。

2、操作简单。模拟人浏览网页的操作,通过输入文字、点击元素、选择操作项等一些简单操作,即可完成规则配置,无需编写代码,对没有技术背景的用户极为友好。

3、流程可视化。真正意义上实现了操作流程可视化,用户可打开“流程”按钮,直接可见操作流程,并对每一步骤,进行高级选项的设置(ajax/修改xpath等)。

4、云采集。数量庞大的企业云,24x7不间断运行,可定时采集、关机也可采集,同时支持任务拆分,可提高数据采集速度。

5、7.0版本推出的简易网页采集,内置主流网站大量数据源和已经写好的采集规则。用户只需输入关键词,即可采集到大量所需数据。

八爪鱼·云采集服务平台

www.bazhuayu.com

缺点:

1、自定义采集过程中,八爪鱼采集器系统自写的Xpath、自动生成的流程,可能无法满足数据采集需求。对数据质量要求高,则需自写Xpath,调成流程图等,以优化规则。 2、使用自定义采集的同学,虽然八爪鱼操作简单,比较容易上手。但是,仍需对八爪鱼采集原理有所了解,看完相关教程,循序渐进,方能成为采集大神。成长周期较长。

二、八爪鱼采集器如何使用

以下是一个比较系统的八爪鱼使用手册,主要包括两大部分:八爪鱼入门词汇介绍;八爪鱼基本流程教程。大家可根据自身基础,选择不熟悉的部分,进行学习。

在看完八爪鱼使用手册后,即可进入八爪鱼使用阶段。八爪鱼官网也有详细的操作教程可供参考。操作教程也分为两大部分:功能点讲解+实战教程(网站采集实例)。 八爪鱼使用手册,访问此链接,了解详情: http://www.bazhuayu.com/doc-wf

八爪鱼·云采集服务平台

www.bazhuayu.com

八爪鱼功能点+实战案例教程,访问此链接,了解详情:

http://www.bazhuayu.com/tutorial?type=1&version=v7.0

八爪鱼·云采集服务平台

www.bazhuayu.com

以下为八爪鱼使用手册目录 目录

1 入门词汇介绍 ..................................................................................................................3

1.1.1 积分 ................................................................................................................ 3 1.1.2 规则 .................................................................................................................. 3 1.1.3 云加速 .............................................................................................................. 3 1.1.4 云优先 .............................................................................................................. 3 1.1.5 URL ................................................................................................................... 3 1.1.6 单机采集 .......................................................................................................... 3 1.1.7 云采集 .............................................................................................................. 3

八爪鱼·云采集服务平台

www.bazhuayu.com

1.1.8 定时采集 .......................................................................................................... 4 1.1.9 URL 循环 .......................................................................................................... 4 1.1.11 Cookie ............................................................................................................. 4 1.1.12 XPATH ............................................................................................................ 5 1.1.13 HTML .............................................................................................................. 5 2 八爪鱼基本流程教程 .................................................................................................... 7 2.1 基本采集流程 .......................................................................................................... 7 2.1.1 打开网页 .......................................................................................................... 7 2.2 点击元素 .............................................................................................................. 9 2.2.1 使用当前循环项 .............................................................................................. 9 2.2.2 新标签页中打开 .............................................................................................. 9 2.2.3 滚动到底部 ...................................................................................................... 9 2.2.4 异步加载数据 .................................................................................................. 9 2.2.5 异步加载超时 .................................................................................................. 9 2.2.6 激活重试 .......................................................................................................... 9 2.2.7 结果页面网址包含 .......................................................................................... 9 2.2.8 结果页面文本包含 .......................................................................................... 9 2.2.9 结果页面文本不包含 .................................................................................... 10 2.2.10 最大重试次数 .............................................................................................. 10 2.2.11 重试间隔 ...................................................................................................... 10

八爪鱼·云采集服务平台

www.bazhuayu.com

2.3 输入文本 .................................................................................................................. 10 2.3.1 要输入的文本 ................................................................................................ 10 2.4 提取数据 ................................................................................................................... 10 2.4.1 抓取模板 ........................................................................................................ 10 2.4.2 名字 ................................................................................................................ 10 2.4.3 提取到的数据 ................................................................................................ 10 2.4.4 描述 ................................................................................................................ 10 2.4.5 使用当前循环项 ............................................................................................ 10 2.5 循环 ........................................................................................................................... 11 2.5.1 循环注意事项 ................................................................................................ 11 2.6 翻下拉列表 ............................................................................................................... 11 2.7 条件分支 ................................................................................................................... 12 2.8 鼠标悬停 ................................................................................................................... 13 2.8.1 使用当前循环项 ............................................................................................ 13 2.8.2 Ajax 加载数据 ................................................................................................ 13 2.8.3 异步加载超时 ................................................................................................ 13 2.9 采集规则 ................................................................................................................... 13 2.9.1 如何下载采集规则 ........................................................................................ 13 2.9.2 如何使用规则 ................................................................................................ 13

八爪鱼·云采集服务平台

www.bazhuayu.com

相关采集教程:

美团商家信息采集 豆瓣电影短评采集 58同城信息采集

八爪鱼——70万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

因篇幅问题不能全部显示,请点此查看更多更全内容