当前位置:网站首页 > 创业 > 正文

如何使用八爪鱼采集新浪新闻文章

0 张子豪 张子豪 2025-10-12 18:20 1

本文介绍如何使用采集器采集新浪新闻文章的方法。

 

采集的内容包括:新闻标题,新闻正文

工具/原料

  • 使用功能点:  列表及详细信息采集  Ajax点击加载  Xpath修改  自定义数据字段

方法/步骤

  1. 1

    步骤1:创建新浪新闻采集任务

    1)进入主界面,选择“自定义采集”

  2. 2

    2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”

  3. 3

    步骤2:创建列表循环

    1)打开网页之后,鼠标选中第一个新闻列表的标题,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”

  4. 4

    2)接着选择“采集以下链接文本”

  5. 5

    然后选择“点击该链接”。

  6. 6

    步骤3:提取详细信息

    1)进入列表详情页面,鼠标选中文章内容第一段,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”,

  7. 7

     之后选择“采集以下元素文本”

  8. 8

     2)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。

  9. 9

    3)选中提取数据的步骤,鼠标点击“自定义数据字段”

  10. 10

    之后选择“自定义数据合并方式

  11. 11

    勾选第二个选项,同一字段合并为同一行

  12. 12

    步骤4:修改Xpath及高级选项设置

    1)选中整个“循环步骤”,打开“高级选项”,可以看到,八爪鱼默认生成的元素列表的Xpath并不能定位到所有的文章,所以需要修改

  13. 13

    2)在火狐浏览器中打开要采集的网页并观察源码。观察网页源码,修改此条Xpath为:“//p”, 将修改后的Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”。

  14. 14

     由于网站涉及到Ajax

  15. 15

    步骤5:新浪新闻数据采集及导出

    1)点击左上角的“保存”,然后点击“开始采集”,选择“启动本地采集”

  16. 16

    2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 一份完好的新浪新闻数据就导出来了,这里我们选择excel作为导出为格式,数据导出后如下图

来源:百闻(微信/QQ号:9397569),转载请保留出处和链接!


本文链接:https://www.ibaiwen.com/web/246941.html

张子豪

张子豪

TA很懒,啥都没写...

@百闻娱乐 本站部分内容转自互联网,若有侵权等问题请及时与本站联系,我们将在第一时间删除处理。 | 粤ICP备2024343649号 | (地图