在使用Selenium+PhantomJS动态抓取网页时,出现如下报错信息:
UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless')
这个提示的意思就是: selenium最新版本已经放弃PhantomJS,建议使用火狐或者谷歌无界面浏览器。
解决方案
降低Selenium版本
通过pip show selenium显示,默认安装版本为3.8.1。
将其卸载pip uninstall selenium,重新安装并指定版本号 pip install selenium==2.48.0。
再次运行,就不会提示这个信息了。
优化方案
使用Selenium+Chrome 或者 Selenium+Firefox 这里聊聊Selenium+Chrome的使用以及参数配置的情况
不带参数配置直接使用Selenium+Chrome比较简单:
from selenium import webdriver# 启动浏览器driver = webdriver.Chrome()# 模拟请求driver.get('http://www.baidu.com')
带参数配置:
from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# 实例化一个启动参数对象chrome_options = Options()# 无界面运行(无窗口)chrome_options.add_argument('--headless')# 启动浏览器driver = webdriver.Chrome(chrome_options=chrome_options)# 请求百度首页driver.get('http://www.baidu.com')
其中的 --headless 就是一个启动项参数常用的启动项参数如下所示
| 启动参数 | 作用 |
|---|---|
| --user-agent="" | 设置请求头的User-Agent |
| --window-size=1366,768 | 设置浏览器分辨率(窗口大小) |
| --headless | 无界面运行(无窗口) |
| --start-maximized | 最大化运行(全屏窗口) |
| --incognito | 隐身模式(无痕模式) |
| --disable-javascript | 禁用javascript |
| --disable-infobars | 禁用浏览器正在被自动化程序控制的提示 |
完整的启动参数可以查看(英文):https://peter.sh/experiments/chromium-command-line-switches/
这里比较实用的参数
–user-data-dir=”[PATH]” 指定用户文件夹User Data路径,可以把书签这样的用户数据保存在系统分区以外的分区。–disk-cache-dir=”[PATH]“ 指定缓存Cache路径–disk-cache-size= 指定Cache大小,单位Byte–first run 重置到初始状态,第一次运行–incognito 隐身模式启动–disable-javascript 禁用Javascript–omnibox-popup-count=”num” 将地址栏弹出的提示菜单数量改为num个。我都改为15个了。–user-agent=”xxxxxxxx” 修改HTTP请求头部的Agent字符串,可以通过about:version页面查看修改效果–disable-plugins 禁止加载所有插件,可以增加速度。可以通过about:plugins页面查看效果–disable-javascript 禁用JavaScript,如果觉得速度慢在加上这个–disable-java 禁用java–start-maximized 启动就最大化–no-sandbox 取消沙盒模式–single-process 单进程运行–process-per-tab 每个标签使用单独进程–process-per-site 每个站点使用单独进程–in-process-plugins 插件不启用单独进程–disable-popup-blocking 禁用弹出拦截–disable-plugins 禁用插件–disable-images 禁用图像–incognito 启动进入隐身模式–enable-udd-profiles 启用账户切换菜单–proxy-pac-url 使用pac代理 [via 1/2]–lang=zh-CN 设置语言为简体中文–disk-cache-dir 自定义缓存目录–disk-cache-size 自定义缓存最大值(单位byte)–media-cache-size 自定义多媒体缓存最大值(单位byte)–bookmark-menu 在工具 栏增加一个书签按钮–enable-sync 启用书签同步–single-process 单进程运行Google Chrome–start-maximized 启动Google Chrome就最大化–disable-java 禁止Java–no-sandbox 非沙盒模式运行
可以模拟移动设备
优点: 移动版网站的反爬虫的能力比较弱
# 通过设置user-agent,用来模拟移动设备# 比如模拟 android QQ浏览器options.add_argument('user-agent="MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"')# 模拟iPhone 6options.add_argument('user-agent="Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like MAC OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"')
如果不需要爬取图片可以禁止图片的加载来加快爬取速度
禁止图片加载的参数配置
# 禁止图片的加载from selenium import webdriverchrome_options = webdriver.ChromeOptions()prefs = {"profile.managed_default_content_settings.images": 2}chrome_options.add_experimental_option("prefs", prefs)# 启动浏览器,并设置好waitbrowser = webdriver.Chrome(chrome_options=chrome_options)browser.set_window_size(configure.windowHeight, configure.windowWidth) # 根据桌面分辨率来定,主要是为了抓到验证码的截屏wait = WebDriverWait(browser, timeout = configure.timeoutMain)
有些网站的WebServer对User-Agent有限制,可能会拒绝不熟悉的User-Agent的访问,所以,写Web自动化代码可能需要将User-Agent稍微伪装一下,否则可能会被拒绝访问。这里简单记录一下Selenium中使用PhantomJS,设置User-Agent的方法。
添加代理
提示: selenium添加代理,这个地方需要注意的是在选择代理时,尽量选择静态IP,才能提升爬取的稳定性。因为选择selenium来做爬虫,说明网站的反爬能力比较高,对网页之间的连贯性,cookies,用户状态等有较高的监测。如果使用动态匿名IP,每个IP的存活时间是很短的(1~3分钟)总而言之去掉花里胡哨就行了
from selenium import webdriverPROXY = "proxy_host:proxy:port" # IP代理options = webdriver.ChromeOptions()desired_capabilities = options.to_capabilities()desired_capabilities['proxy'] = {"httpProxy": PROXY,"ftpProxy": PROXY,"sslProxy": PROXY,"noProxy": None,"proxyType": "MANUAL","class": "org.openqa.selenium.Proxy","autodetect": False}driver = webdriver.Chrome(desired_capabilities = desired_capabilities)
Selenium添加浏览器扩展应用
selenium一般打开的是不带扩展的纯净的浏览器,但是有时候我们爬取数据时需要借助一些插件,比如解析类xpath helper。
Xpath Helper下载地址:http://download.csdn.net/download/gengliang123/9944202
这个插件是一个 以 crx 为后缀的文件
将插件路径填入代码中
# 添加xpath helper应用from selenium import webdriverchrome_options = webdriver.ChromeOptions()# 设置好应用扩展extension_path = 'D:/extension/XPath-Helper_v2.0.2.crx'chrome_options.add_extension(extension_path)# 启动浏览器,并设置好waitbrowser = webdriver.Chrome(chrome_options=chrome_options)
效果如下图:
