python爬虫代理如何设置？用免费ip或IP池和request库爬取网页

发表于： 2020-10-18 2020-10-19
分类： python
标签： ip, python, 爬虫

阅读量 930 次

0元免费IP列表

首先分享一波：免费代理由第三方服务器提供，IP质量不高。

IP地址	端口号	匿名程度	支持协议	地区	稳定时间	更新时间
FREE 114.233.51.111	4257	超高	HTTP	江苏省泰州市	5-1440分钟	2020/10/18 11:00:01
FREE 49.71.99.110	4226	超高	HTTP	江苏省扬州市	5-1440分钟	2020/10/18 10:00:01
FREE 183.4.66.22	4205	超高	HTTP	广东省江门市	5-1440分钟	2020/10/18 09:00:01
FREE 119.7.231.136	4261	超高	HTTP	四川省雅安市	5-1440分钟	2020/10/18 08:00:01
FREE 60.19.239.159	4258	超高	HTTP	辽宁省鞍山市	5-1440分钟	2020/10/18 07:00:01
FREE 140.237.14.30	4206	超高	HTTP	福建省莆田市	5-1440分钟	2020/10/18 06:00:01

IP地址	端口号	匿名程度	支持协议	地区	稳定时间	更新时间
FREE 183.4.66.22	4205	超高	HTTP	广东省江门市	5-1440分钟	2020/10/18 09:00:01
FREE 119.7.231.136	4261	超高	HTTP	四川省雅安市	5-1440分钟	2020/10/18 08:00:01
FREE 60.19.239.159	4258	超高	HTTP	辽宁省鞍山市	5-1440分钟	2020/10/18 07:00:01
FREE 140.237.14.30	4206	超高	HTTP	福建省莆田市	5-1440分钟	2020/10/18 06:00:01
FREE 125.111.144.111	4205	超高	HTTP	浙江省宁波市	5-1440分钟	2020/10/18 05:00:01
FREE 221.236.167.235	4278	超高	HTTP	四川省乐山市市辖区	5-1440分钟	2020/10/18 04:00:01

使用方法以及代码如下：

讲上面ip+端口号替换成，以下proxies里面的字典，添加代理设置是为了模拟客户端用户请求，以防对方网站反爬虫机制！

使用python自带的requests模块，简单实用。在通过beautifulsoup定位标签元素。通过循环页面数字达到获取网页每一页的页面内容~

更多关于python的知识请关注方包博客

以上代码是小编自己写的爬虫小工具，主要是爬取自己的博客网站的内容，此方法也可以用selenium+beautifulsoup来实现，网站爬虫翻页，并且是自动化操作chrome浏览器。关于selenium如何爬虫，小编会在过后分享给大家教程！selenium+beautifulsoup的方法也可以给需要的网站刷流量，大家可以研究下！

更多信息技术学习交流干货，请关注公众号：“优派编程”

619018020

352

0元免费IP列表

相关文章:

619018020

发表评论 取消回复

发表评论取消回复