精品下载站:打造最安全最新的免费软件下载站! 全站导航最近更新

首页应用软件信息管理 → 懒人采集器电脑版 2.5 免费版

懒人采集器电脑版2.5 免费版

软件介绍 软件截图 相关下载 相关文章 点击评论

软件标签: 懒人采集器 采集软件

免费的万能网页采集软件

懒人采集器是一款规则配置简单、任何网页都可采集的工具,从软件开始的规则配置到可视化采集过程,用户都可以轻松上手搞定,无需复杂的配置流程,轻松完成采集任务。

怎样避免采集到重复数据?

在运行某个采集任务时,如果该任务之前有采集过数据,那么采集前如果没有清空原有数据的话,会以追加的形式将新采集数据添加到本地采集库中,这样就可能出现某些已采集过的数据再次重复采集入库,还有,如果目标网页本身也重复的数据,也可能造成数据重复,那么怎么避免采集的数据出现重复呢?

方法很简单,我们希望哪一个字段内容不允许出现重复,只要点击该字段表头上这个三角符号,再勾选“过滤重复”复选框,点击确定就可以了

怎样避免采集到重复数据?

如何手动生成字段?

点击“增加字段”按钮

点击列表中任意一行中要提取的元素,比如要提取标题和链接地址,鼠标左键点击一下该标题即可

当点击的是网页链接时,会提示是否用时要抓取链接地址

如果要同时提取链接标题和链接地址,点“是”,如果只要提取标题文本,点否,这里我们点“是”

系统会自动生成标题和链接地址字段,并在字段列表中显示出提取到的字段内容,当点击底部表格字段标题时,会在网页上以黄色背景高亮显示出匹配的内容。

如何还有标记列表中的其他字段,点击新增字段,重复以上操作即可。

懒人采集器如何设置起始网址?

要采集一个网站的数据,首先我们要设置从哪些网址进入采集,比如我们要采集一个网站的国内新闻,那么我们就要设置起始网址为国内新闻栏目列表的网址,而一般不会设置网站首页为起始网址,因为首页通常会包含很多列表,比如最新文章、热门文章、推荐文章等等各种列表块,并且这些列表块里显示的内容也是非常有限的,采集这些列表的话一般都无法采集完整信息。

下面我们以采集新浪新闻为例,从新浪首页找到国内新闻,但该栏目首页内容还是比较杂乱,而且还细分三个子栏目

我们从进入其中一个子栏目“内地新闻”看一下

该栏目页包含有一个带分页的内容列表,通过切换分页,我们就可以采集到该栏目下的所有文章,所以这种列表页就非常适合作为我们采集的起始网址。

现在,我们就复制该列表网址到任务编辑框第一步的文本框中

如果你要在一个任务中同时采集国内新闻里的其他子栏目,也可以把另两个子栏目列表地址复制进来,因为这些子栏目列表格式都是相似的。但为了便于导出或发布分类数据,一般不建议多个栏目内容混合在一起。

对于起始网址我们也可以批量添加或从txt文件导入,比如我们要采集前5页,也可以这样自定义五个起始页

需要注意的是如果这里自定义了多个分页列表,在后面的采集配置里就不要再启用分页了,通常我们要采集某个栏目下的所有文章时,都只需要定义该栏目第一页为起始网址就行了,在后面的采集配置里启用分页,就可以采集到每个分页列表的数据。

懒人采集器如何安装?

进入精品下载网,点本地下载软件

下载并解压完成后,双击setup1.0.exe启动安装程序(1.0是版本后,后续新版会不同)

按照安装向导,一路点击“下一步”按钮即可完成安装。

懒人采集器怎么手动生成列表?

点击“查找列表”按钮,选择“手动选择列表”

按提示,用鼠标左键点击网页列表中的第一行数据

点完第一行,再按提示点击第二行或其他相似的行

点击完列表里的任意两行后,整个列表就高亮显示出来了,同时该列表里的字段也会字段生成,如果生成的字段不对,点击清除字段,把下面的字段全部清除掉,下一章再介绍手动选取字段。

懒人采集器电脑版截图

懒人采集器电脑版截图0
懒人采集器电脑版截图1

相关文章

下载地址

点击评论

热门评论
最新评论
昵称:
表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
字数: 0/500 (您的评论需要经过审核才能显示)

软件TOP榜