火车头采集器免费版 火车头采集器免费版下载,火车头采集器,数据采集
检测:安全无毒、 无广告、 无插件
- 版本:v10.2 官方正式版
- 类型: 网络软件
- 平台: WinAll, WinXP
- 时间: 2024-02-04 05:05:02
- 大小:47.5M
- 标签: 火车头采集器免费版下载火车头采集器数据采集
扫码在手机打开
应用简介
火车头采集器免费版
火车头采集器免费版是一款功能强大的网络数据信息挖掘工具,具有批量采集网页、论坛内容等功能,你可以使用它采集各大主流网站文章系统,论坛系统等,速度高速下载稳定,需要的朋友快来润讯思手游下载吧!
软件功能
支持最新的win10系统中运行。
支持SSH(Sftp文件)上传。
任务运行合并到统一界面,添加“实时数据”查看和“任务详情”统计。
列表页,分页,多页自定义任意Header请求头等功能。
批量修改任务规则细节参数,批量修改Web发布配置。
起始网址批量网址的地址格式可添加多个地址参数,支持自定义列表参数。
标签数据来源更细致化,可设置从默认页,分页,多页的源码,URL地址及返回头信息中提取。
标签数据处理新增统计标签字符串长度、批量替换功能。
火车头采集器免费版特色
1、扩展性强、适用范围广
自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。
2、稳定、高效
七年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
3、通用性强
无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
火车头采集器采集文章使用教程实例
任务:
采集某一个指定页面的文章包括(标题、图片、描述、内容)导入到自己网站数据库对应栏目(栏目id为57),数据库字段分别(title,thumb,descrption,content)。
页面里面第一张图作为文章缩略图,这边一个获取缩略图名称并添加上对应网站路径放入数据库thumb字段,另一个是下载下本地,统一上传到指定文件夹,(当然看软件可以直接ftp,目前还没弄,后期弄了会补充)
1、新建分组--新建任务
2、添加网址+ 编辑获取网址的规则
选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下面测试网址采集获取。
可以看到有采集到的文章链接了。
3、采集内容规则
我这边需要采集下面图上展示数据(catid是栏目id,可以将采集到的数据放入对应栏目,设置固定值就好)
着重说下内容和图片的采集,标题和描述同理内容采集
内容采集:
打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址前面加上 view-source:一样可以查看):
选中文章开头一个位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下图1处,结尾同开头一样。
我截取内容不想里面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定
还有需要下载页面图片,勾选和填写下面选项
图片采集:
(1)选中范围和内容一样(文章内图片)
(2)数据处理选 提取第一张图片 内容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正则过滤,获取内容:aa.jpg
(4)数据库存储有前缀,添加上, upload/xxxxx/
找一个页面测试一下,可以看到对应项目都获取到了。
4、发布内容设置,这里以方式三发布到数据库为例子,编辑后回到这边勾选刚定义的模块就好:
5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。
6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看到文字和图片都下载下来了,数据库里面也可以看到了。
更新日志
火车采集器V10.2版
1.新增:User-Agent支持从文本读取并随机切换。教程:http://faq.locoy.com/q-1348.html。
2.新增:自动识别手机号功能支持14、15、16、17、19开头的新号段。
3.优化:文件下载完毕插件接口优化。
4.优化:探测文件下载时正式下载文件,提升下载速度。
5.修复:http请求头“Header或设置名”以数字开头的名称报错的问题修复。
6.修复:发布到word文档,如果数据包含特殊字符或本地图片异常会导致发布失败问题修复。
7.修复:拷贝任务时,任务备注未拷贝问题修复。
8.修复:标签引用支持调用“列表页”标签。
9.修复:json提取时如果json对象的“键”是整型导致提取有误。
10.优化:网址解析替换html问题。
11.修复:get、post分页问题处理。
12.修复:生成固定格式的数据中“系统时间”选中“06-16”生成时间格式“yyyy-MM”
13.新增:数据库发布模块支持replace into语句。
火车采集器V9.10版
1.二级代理重大修改并增加了商业代理支持
2.post获取网址POST页码增加递增数值
3.修复php和python插件不支持cookie的问题
4.当成功失败标识都为空时认为是发布成功
5.调整发布和入库模块界面大小和操作bug
6.修复web发布不登录时不发UA的问题
7.修复web发布测试时超时不起效的问题
8.修复Web发布时特殊情况下死循环问题