金钼软件下载站:全力打造中国绿色软件下载基地,所有软件通过安全检测,无木马病毒,无诱导广告,绿色软件轻松下载,更新及时,精彩下载,尽在本下载站!
网站地图
你的位置: 首页 > 电脑软件 > 网络软件

火车头采集器免费版 火车头采集器免费版下载,火车头采集器,数据采集

检测:安全无毒、 无广告、 无插件

金钼软件下载站

安卓下载

扫码在手机打开

应用简介

火车头采集器免费版

  • 火车头采集器免费版

火车头采集器免费版是一款功能强大的网络数据信息挖掘工具,具有批量采集网页、论坛内容等功能,你可以使用它采集各大主流网站文章系统,论坛系统等,速度高速下载稳定,需要的朋友快来润讯思手游下载吧!

软件功能

支持最新的win10系统中运行。

支持SSH(Sftp文件)上传。

任务运行合并到统一界面,添加“实时数据”查看和“任务详情”统计。

列表页,分页,多页自定义任意Header请求头等功能。

批量修改任务规则细节参数,批量修改Web发布配置。

起始网址批量网址的地址格式可添加多个地址参数,支持自定义列表参数。

标签数据来源更细致化,可设置从默认页,分页,多页的源码,URL地址及返回头信息中提取。

标签数据处理新增统计标签字符串长度、批量替换功能。

火车头采集器

火车头采集器免费版特色

1、扩展性强、适用范围广

自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。

2、稳定、高效

七年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。

3、通用性强

无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。

火车头采集器采集文章使用教程实例

任务:

采集某一个指定页面的文章包括(标题、图片、描述、内容)导入到自己网站数据库对应栏目(栏目id为57),数据库字段分别(title,thumb,descrption,content)。

页面里面第一张图作为文章缩略图,这边一个获取缩略图名称并添加上对应网站路径放入数据库thumb字段,另一个是下载下本地,统一上传到指定文件夹,(当然看软件可以直接ftp,目前还没弄,后期弄了会补充)

1、新建分组--新建任务

2、添加网址+ 编辑获取网址的规则

选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下面测试网址采集获取。

可以看到有采集到的文章链接了。

3、采集内容规则

我这边需要采集下面图上展示数据(catid是栏目id,可以将采集到的数据放入对应栏目,设置固定值就好)

着重说下内容和图片的采集,标题和描述同理内容采集

内容采集:

打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址前面加上 view-source:一样可以查看):

选中文章开头一个位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下图1处,结尾同开头一样。

我截取内容不想里面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定

还有需要下载页面图片,勾选和填写下面选项

图片采集:

(1)选中范围和内容一样(文章内图片)

(2)数据处理选 提取第一张图片 内容是:http://www.xxx.com/2017/33/aa.jpg

(3)只要aa.jpg,正则过滤,获取内容:aa.jpg  

(4)数据库存储有前缀,添加上, upload/xxxxx/

找一个页面测试一下,可以看到对应项目都获取到了。

4、发布内容设置,这里以方式三发布到数据库为例子,编辑后回到这边勾选刚定义的模块就好:

5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。

6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看到文字和图片都下载下来了,数据库里面也可以看到了。

更新日志

火车采集器V10.2版

1.新增:User-Agent支持从文本读取并随机切换。教程:http://faq.locoy.com/q-1348.html。

2.新增:自动识别手机号功能支持14、15、16、17、19开头的新号段。

3.优化:文件下载完毕插件接口优化。

4.优化:探测文件下载时正式下载文件,提升下载速度。

5.修复:http请求头“Header或设置名”以数字开头的名称报错的问题修复。

6.修复:发布到word文档,如果数据包含特殊字符或本地图片异常会导致发布失败问题修复。

7.修复:拷贝任务时,任务备注未拷贝问题修复。

8.修复:标签引用支持调用“列表页”标签。

9.修复:json提取时如果json对象的“键”是整型导致提取有误。

10.优化:网址解析替换html问题。

11.修复:get、post分页问题处理。

12.修复:生成固定格式的数据中“系统时间”选中“06-16”生成时间格式“yyyy-MM”

13.新增:数据库发布模块支持replace into语句。

火车采集器V9.10版

1.二级代理重大修改并增加了商业代理支持

2.post获取网址POST页码增加递增数值

3.修复php和python插件不支持cookie的问题

4.当成功失败标识都为空时认为是发布成功

5.调整发布和入库模块界面大小和操作bug

6.修复web发布不登录时不发UA的问题

7.修复web发布测试时超时不起效的问题

8.修复Web发布时特殊情况下死循环问题

热门搜索: 《侏罗纪世界:进化2》游戏发售平台在哪(《侏罗纪世界:进化2》游戏发售平台在哪) 《我的世界》珍妮mod切换游戏视角方法是什么(《我的世界》珍妮mod切换游戏视角方法是什么样的) 《模拟火车世界2》游戏特色内容一览图(模拟火车世界2测评)

游戏推荐

火车头采集器免费版下载 火车头采集器 数据采集
更多

网络软件排行榜