python爬虫代理如何设置?用免费ip或IP池和request库爬取网页
目录
0元免费IP列表
首先分享一波:免费代理由第三方服务器提供,IP质量不高。
IP地址 | 端口号 | 匿名程度 | 支持协议 | 地区 | 稳定时间 | 更新时间 |
---|---|---|---|---|---|---|
FREE 114.233.51.111 | 4257 | 超高 | HTTP | 江苏省泰州市 | 5-1440分钟 | 2020/10/18 11:00:01 |
FREE 49.71.99.110 | 4226 | 超高 | HTTP | 江苏省扬州市 | 5-1440分钟 | 2020/10/18 10:00:01 |
FREE 183.4.66.22 | 4205 | 超高 | HTTP | 广东省江门市 | 5-1440分钟 | 2020/10/18 09:00:01 |
FREE 119.7.231.136 | 4261 | 超高 | HTTP | 四川省雅安市 | 5-1440分钟 | 2020/10/18 08:00:01 |
FREE 60.19.239.159 | 4258 | 超高 | HTTP | 辽宁省鞍山市 | 5-1440分钟 | 2020/10/18 07:00:01 |
FREE 140.237.14.30 | 4206 | 超高 | HTTP | 福建省莆田市 | 5-1440分钟 | 2020/10/18 06:00:01 |
IP地址 | 端口号 | 匿名程度 | 支持协议 | 地区 | 稳定时间 | 更新时间 |
---|---|---|---|---|---|---|
FREE 183.4.66.22 | 4205 | 超高 | HTTP | 广东省江门市 | 5-1440分钟 | 2020/10/18 09:00:01 |
FREE 119.7.231.136 | 4261 | 超高 | HTTP | 四川省雅安市 | 5-1440分钟 | 2020/10/18 08:00:01 |
FREE 60.19.239.159 | 4258 | 超高 | HTTP | 辽宁省鞍山市 | 5-1440分钟 | 2020/10/18 07:00:01 |
FREE 140.237.14.30 | 4206 | 超高 | HTTP | 福建省莆田市 | 5-1440分钟 | 2020/10/18 06:00:01 |
FREE 125.111.144.111 | 4205 | 超高 | HTTP | 浙江省宁波市 | 5-1440分钟 | 2020/10/18 05:00:01 |
FREE 221.236.167.235 | 4278 | 超高 | HTTP | 四川省乐山市市辖区 | 5-1440分钟 | 2020/10/18 04:00:01 |
使用方法以及代码如下:
讲上面ip+端口号替换成,以下proxies里面的字典,添加代理设置是为了模拟客户端用户请求,以防对方网站反爬虫机制!
使用python自带的requests模块,简单实用。在通过beautifulsoup定位标签元素。通过循环页面数字达到获取网页每一页的页面内容~
以上代码是小编自己写的爬虫小工具,主要是爬取自己的博客网站的内容,此方法也可以用selenium+beautifulsoup来实现,网站爬虫翻页,并且是自动化操作chrome浏览器。关于selenium如何爬虫,小编会在过后分享给大家教程!selenium+beautifulsoup的方法也可以给需要的网站刷流量,大家可以研究下!
更多信息技术学习交流干货,请关注公众号:“优派编程”