本文介绍如何使用采集器采集新浪新闻文章的方法。
采集的内容包括:新闻标题,新闻正文

工具/原料
- 使用功能点: 列表及详细信息采集 Ajax点击加载 Xpath修改 自定义数据字段
方法/步骤
- 1
步骤1:创建新浪新闻采集任务
1)进入主界面,选择“自定义采集”
- 2
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
- 3
步骤2:创建列表循环
1)打开网页之后,鼠标选中第一个新闻列表的标题,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”
- 4
2)接着选择“采集以下链接文本”
- 5
然后选择“点击该链接”。
- 6
步骤3:提取详细信息
1)进入列表详情页面,鼠标选中文章内容第一段,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”,
- 7
之后选择“采集以下元素文本”
- 8
2)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。
- 9
3)选中提取数据的步骤,鼠标点击“自定义数据字段”
- 10
之后选择“自定义数据合并方式
- 11
勾选第二个选项,同一字段合并为同一行
- 12
步骤4:修改Xpath及高级选项设置
1)选中整个“循环步骤”,打开“高级选项”,可以看到,八爪鱼默认生成的元素列表的Xpath并不能定位到所有的文章,所以需要修改
- 13
2)在火狐浏览器中打开要采集的网页并观察源码。观察网页源码,修改此条Xpath为:“//p”, 将修改后的Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”。
- 14
由于网站涉及到Ajax
- 15
步骤5:新浪新闻数据采集及导出
1)点击左上角的“保存”,然后点击“开始采集”,选择“启动本地采集”
- 16
2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 一份完好的新浪新闻数据就导出来了,这里我们选择excel作为导出为格式,数据导出后如下图
来源:百闻(微信/QQ号:9397569),转载请保留出处和链接!
本文链接:https://www.ibaiwen.com/web/246941.html
- 上一篇: 如何在腾讯微博上曝新鲜赚Q币
- 下一篇: 手机QQ中如何设置喜欢的字体
- 热门文章
-
WB蒙特利尔(WB Montreal)——欧美十大最差视频游戏开发商
迅猛龙(Velociraptor)——欧美史前十大死亡动物
什么是果酱猫(What Marmalade Cats)?
神奇蜘蛛侠2(The Amazing Spider-Man 2)——欧美最佳蜘蛛侠电影
希瑟(Heather)——欧美十大最佳柯南灰歌
二人梭哈
faceu激萌怎么把瘦脸开到最大
奥兹奥斯本(Ozzy Osbourne)——欧美十大高估歌手
什么是小脑前下动脉(Anterior Inferior Cerebellar Artery)?
我应该知道康涅狄格州的什么(What Should I Know About Connecticut)?
- 热评文章
- 最新评论
-
- 最近访客
-
- 站点信息
-
- 文章总数:200248
- 页面总数:9
- 分类总数:1
- 标签总数:0
- 评论总数:0
- 浏览总数:497