美团信息采集爬虫示例,0门槛学会配置爬虫,

用章鱼介绍7.0收集美团商家数据的方法

采集网站:

http://sz.meituan.com/category/yuegangcai/nanshanqu?mtt=1.index/default/poi.0.0.j6cxwtlv

使用功能点:

l Ajax滚动加载设置

l 提取分页列表内容

步骤1:创建采集任务

1)选择进入主界面,选择自定义模式

2) 以上网站的网站** 粘贴到网站输入框中,点击保存网站

3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的信息是这次演示要采集的内容

步骤2:设置ajax页面加载时间

l 设置打开网页的步骤ajax滚动加载时间

l 找到翻页按钮,设置翻页循环

l 设置翻页步骤ajax下拉加载时间

1)页面打开后,当下拉页面时,会发现页面上有新的数据加载(详见章鱼7.0教程——AJAX滚动教程)

因此,需要进行以下设置:打开流程图,点击打开网页步骤,检查右侧高级选项框中的页面加载完成向下滚动,设置滚动次数,每个滚动间隔时间,一般设置2秒,选择直接滚到底部;最后点击确定

注:这里的滚动次数和间隔需要为网站设置,测试方法可参考章鱼7.0教程——AJAX滚动教程

2)将页面下拉到底部,找到下一页按钮,点击鼠标,在右侧操作提示框中,

选择循环点击下一页

由于页面使用了ajax加载技术,在收集时,网站总是需要重新加载,因此需要在上面打开网页步骤中设置翻页步骤

第三步:商业信息收集:

l 选择需要收集的字段信息,创建收集列表

l 编辑收集字段名称

1)如图所示,移动鼠标选择列表中商家的名称,右键单击,需要收集的内容将变绿

2)移动鼠标选择红色框中的任何文本字段后,列表中的所有适应内容都将变绿。在右侧操作提示框中,查看提取的字段,删除不必要的字段,然后单击选择所有

注: 鼠标在提示框中的字段上会出现删除标志,点击删除字段。

3)点击收集以下数据

4)修改采集字段名,点击下面提示中的保存并开始采集

步骤4:数据采集和导出

1)根据采集情况选择合适的采集方式,选择启动本地采集

注:本地收集占用当前计算机资源收集,如果有收集时间要求或当前计算机不能长期收集可以使用云收集功能,云收集在网络中,无需当前计算机支持,计算机可以关闭,可以设置多个云节点共享任务,10个节点相当于10个计算机分配任务帮助您收集,速度降低到原来的十分之一;收集到的数据可以在云上保存三个月,可以随时导出。

2)收集完成后,选择合适的导出方法导出收集的数据

希望本文档的介绍能让你掌握美团网团购信息网页的数据采集。你可以试着去章鱼官网http:// ** .bazhuayu.com下载最新版本的客户端,关注官方微信了解更多教程案例。

八爪鱼·网页数据采集软件将在三分钟内启动·而且是免费软件

点击链接进入官网

章鱼采集器 - 最好的网页数据采集器

扫码免费用

源码支持二开

申请免费使用

在线咨询