博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Anti-Anti-Spider
阅读量:6818 次
发布时间:2019-06-26

本文共 836 字,大约阅读时间需要 2 分钟。

hot3.png

Anti-Anti-Spider

2016-10-24 begin 2017-5-8 end

爬虫的开源项目到现在半年差不多有900+的star了,,接下来就是要玩玩验证码破解了,定一个阶段性目标,前进!再建议一个开源项目,目标1000star!!

仓库网址位于 欢迎stat

本项目由URLTEAM维护

作者博客 

项目简介:

运用请求伪造,浏览器伪造,浏览器自动化,图像处理,ip处理等方式进行反爬虫技术的通用化代码库,方便未来快速开发。

为以后的采集任务快速开展留下基础代码。

如今项目会包含多项技术的样例代码.

项目起因

本身是想做一个反爬虫的技术攻关站点,如果在总结诸多技术中发觉可以将反反爬虫技术直接保留与代码中。

在之后采集需要时能快速有效的测试该站点具有怎样的反爬特性,并且可以快速的进行代码复用

你可以做什么: 提交你觉得难以采集的网站 联系方式: 

项目结构树:(有待更新)

重点项目:

1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}

2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}

3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}

5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}

6:ip跟换技术 {代理,tor,adsl}

7:请求伪造 {phantomjs,requests,selenium}

8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}

9:selenium {伪造请求头,支付宝模拟登陆}

UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

转载于:https://my.oschina.net/airship/blog/1501331

你可能感兴趣的文章
JS 验证
查看>>
【Lua】特性和一些基础语法
查看>>
Jaxb2 实现JavaBean与xml互转
查看>>
shell中exec解析(转)
查看>>
ContentType ,charset和pageEncoding的区别(转)
查看>>
21副GIF动图让你了解各种数学概念(转。太强大了)
查看>>
SQL Server 2008通过LinkServer连接MySQL
查看>>
模板:LCT
查看>>
mysql的数据类型int、bigint、smallint 和 tinyint取值范围 及varchar
查看>>
[android] 手机卫士自定义控件的属性
查看>>
Java自定义类加载器与双亲委派模型
查看>>
jQuery初步
查看>>
过滤器详解
查看>>
程序员必看
查看>>
Outlook 快速邮件清理
查看>>
Java动态代理(一)动态类Proxy的使用
查看>>
菜鸟的 linux 学习笔记 -- OOM
查看>>
Java日志实战及解析
查看>>
添物零基础到大型全栈架构师 不花钱学计算机及编程(预备篇)— 数据库
查看>>
posix多线程有感--线程高级编程(线程调度以及优先级设置)
查看>>