一、全网采集器(除头条 、知乎、微信后续更新)
下载地址:
全网采集器基于python爬虫定制全网文章采集框架,可以自定义采集规则 ,自定义网页cookies采集,自定义采集聚合网页内容。以供聚合程序使用的文章数据库 。
问答聚合采集伪原创程序详情访问:问答采集聚合伪原创程序V5.01
二、文章采集爬虫程序介绍以及更新
更新记录:
2021.4.30 发布正式版V2.11
视频教程地址:https://space.bilibili.com/334530446/video
️1.采集文章过滤空行
2️.升级验证规则,绑定用户QQ
2021.4.24 发布正式版V2.01
视频教程地址:https://space.bilibili.com/334530446/video
️1.支持自定义采集规则,除了问答平台 ,普通站皆可采集!(待升级知乎 、头条号,微信公众号采集)
2️.支持24小时监控采集,实时采集最新文章
3️.支持文章过滤(标签、属性、文字)
4.已经内置全国最新的滚动新闻采集
---------------by文子seo-QQ:61910465---------------
此万能文章采集器,可采集任意网站内容 ,监控新闻采集等,自行配制采集规则文件配置详细说明如下
运行后出错api-ms-win-crt-runtime-l1-1-0.dll丢失,请运行文件夹中vc_redist.x64.exe
程序仅支持64位win7系统以上的VPS拨号服务器或者本地电脑,请确保vps系统匹配 VPS内存4G以上 带宽20M以上
如需远程 ,请在本地电脑下载向日葵远程工具(自行百度)
① cookie.txt 和 referer.txt 网站反爬虫需要登录账号或者需要cookie验证和referer验证的网站采集
格式:复制网页cookies和referer放入文档一行即可
② url.txt 要采集的链接,支持列表链接和单一链接
格式例如:https://www.liqucn.com/yx/?page={p,2786,20,-1}
多页面链接说明:
{p,2786,20,-1} 说明的含义 页码从2786开始每次递减1页,总获取链接数量20
{p,1,200,1} 说明的含义 页码从1开始每次增加1页,总获取链接数量200
可以根据上面的说明去设置采集页数
单一链接直接放入文件即可,一行一个
③ Url_Pattern.txt 定位文章链接的规则
此规则是selector规则,如下,具体如何写会在视频介绍里为大家演示,如果小白可以代为写好
body > div > div.right-content > ul > li > a
④ config.ini 采集文章配置文件
[config]
# 定位标题的css规则,支持css和标签,视频演示详解
title=.main-title
# 定位内容的css规则
content=.article
# 移除的标签。移除多个用英文,隔开。例如p|-1:移除倒数第一个p标签;a移除所有a标签
remove_tags=p|-1,a,script
# 移除某标签的某属性 。移除多个用英文,隔开。例如 p|cms-style:移除p标签的cms-style属性
remove_attrs =p|cms-style,img|data-height,img|data-width,span|style,br|style,img|height,img|width
# 通过css规则移除某标签,移除多个用英文,隔开。例如.show_author移除class值为show_author的标签
remove_tags_by_attrs=.show_author
# 文章内容或者标题中替换删除内容。例如 历趣|趣快排SEO:文章或者标题中‘历趣’替换为‘趣快排SEO’;https://sky.163.com|, 表示删除文章中‘https://sky.163.com’的链接
replace_cont=https://sky.163.com|,225021875|,680537048|,833748313|,780221815|,历趣|趣快排SEO
# 文章保存路径
wenzhangpath=D:\article\yiliao
# 采集时间间隔单位(秒/s)
time_interval=3600
⑤fake_useragent_0.1.11.json 爬虫模拟客户端文件,不用管