Selenium support for PhantomJS has been deprecated python报错解决方案

在使用Selenium+PhantomJS动态抓取网页时，出现如下报错信息：

UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead
warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless')

这个提示的意思就是: selenium最新版本已经放弃PhantomJS，建议使用火狐或者谷歌无界面浏览器。

解决方案

降低Selenium版本

通过pip show selenium显示，默认安装版本为3.8.1。
将其卸载pip uninstall selenium，重新安装并指定版本号 pip install selenium==2.48.0。
再次运行，就不会提示这个信息了。

优化方案

使用Selenium+Chrome 或者 Selenium+Firefox 这里聊聊Selenium+Chrome的使用以及参数配置的情况

不带参数配置直接使用Selenium+Chrome比较简单：

from selenium import webdriver

# 启动浏览器
driver = webdriver.Chrome()
# 模拟请求
driver.get('http://www.baidu.com')

带参数配置：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# 实例化一个启动参数对象
chrome_options = Options()
# 无界面运行（无窗口）
chrome_options.add_argument('--headless')
# 启动浏览器
driver = webdriver.Chrome(chrome_options=chrome_options)
# 请求百度首页
driver.get('http://www.baidu.com')

其中的 --headless 就是一个启动项参数
常用的启动项参数如下所示

启动参数	作用
--user-agent=""	设置请求头的User-Agent
--window-size=1366,768	设置浏览器分辨率（窗口大小）
--headless	无界面运行（无窗口）
--start-maximized	最大化运行（全屏窗口）
--incognito	隐身模式（无痕模式）
--disable-javascript	禁用javascript
--disable-infobars	禁用浏览器正在被自动化程序控制的提示

完整的启动参数可以查看(英文)：https://peter.sh/experiments/chromium-command-line-switches/

这里比较实用的参数

    –user-data-dir=”[PATH]” 指定用户文件夹User Data路径，可以把书签这样的用户数据保存在系统分区以外的分区。 
　　–disk-cache-dir=”[PATH]“ 指定缓存Cache路径 
　　–disk-cache-size= 指定Cache大小，单位Byte 
　　–first run 重置到初始状态，第一次运行 
　　–incognito 隐身模式启动 
　　–disable-javascript 禁用Javascript 
　　–omnibox-popup-count=”num” 将地址栏弹出的提示菜单数量改为num个。我都改为15个了。 
　　–user-agent=”xxxxxxxx” 修改HTTP请求头部的Agent字符串，可以通过about:version页面查看修改效果 
　　–disable-plugins 禁止加载所有插件，可以增加速度。可以通过about:plugins页面查看效果 
　　–disable-javascript 禁用JavaScript，如果觉得速度慢在加上这个 
　　–disable-java 禁用java 
　　–start-maximized 启动就最大化 
　　–no-sandbox 取消沙盒模式 
　　–single-process 单进程运行 
　　–process-per-tab 每个标签使用单独进程 
　　–process-per-site 每个站点使用单独进程 
　　–in-process-plugins 插件不启用单独进程 
　　–disable-popup-blocking 禁用弹出拦截 
　　–disable-plugins 禁用插件 
　　–disable-images 禁用图像 
　　–incognito 启动进入隐身模式 
　　–enable-udd-profiles 启用账户切换菜单 
　　–proxy-pac-url 使用pac代理 [via 1/2] 
　　–lang=zh-CN 设置语言为简体中文 
　　–disk-cache-dir 自定义缓存目录 
　　–disk-cache-size 自定义缓存最大值（单位byte） 
　　–media-cache-size 自定义多媒体缓存最大值（单位byte） 
　　–bookmark-menu 在工具 栏增加一个书签按钮 
　　–enable-sync 启用书签同步 
　　–single-process 单进程运行Google Chrome 
　　–start-maximized 启动Google Chrome就最大化 
　　–disable-java 禁止Java 
　　–no-sandbox 非沙盒模式运行

常用配置
官方网站参考：https://sites.google.com/a/chromium.org/chromedriver/capabilities

可以模拟移动设备

优点: 移动版网站的反爬虫的能力比较弱

# 通过设置user-agent，用来模拟移动设备
# 比如模拟 android QQ浏览器
options.add_argument('user-agent="MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"')

# 模拟iPhone 6
options.add_argument('user-agent="Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like MAC OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"')

如果不需要爬取图片可以禁止图片的加载来加快爬取速度

禁止图片加载的参数配置

# 禁止图片的加载
from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)

# 启动浏览器，并设置好wait
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.set_window_size(configure.windowHeight, configure.windowWidth) # 根据桌面分辨率来定，主要是为了抓到验证码的截屏
wait = WebDriverWait(browser, timeout = configure.timeoutMain)

有些网站的WebServer对User-Agent有限制，可能会拒绝不熟悉的User-Agent的访问，所以，写Web自动化代码可能需要将User-Agent稍微伪装一下，否则可能会被拒绝访问。这里简单记录一下Selenium中使用PhantomJS，设置User-Agent的方法。

添加代理

提示: selenium添加代理，这个地方需要注意的是在选择代理时，尽量选择静态IP，才能提升爬取的稳定性。因为选择selenium来做爬虫，说明网站的反爬能力比较高，对网页之间的连贯性，cookies，用户状态等有较高的监测。如果使用动态匿名IP，每个IP的存活时间是很短的（1~3分钟）总而言之去掉花里胡哨就行了

from selenium import webdriver

PROXY = "proxy_host:proxy:port" # IP代理
options = webdriver.ChromeOptions()
desired_capabilities = options.to_capabilities()
desired_capabilities['proxy'] = {
"httpProxy": PROXY,
"ftpProxy": PROXY,
"sslProxy": PROXY,
"noProxy": None,
"proxyType": "MANUAL",
"class": "org.openqa.selenium.Proxy",
"autodetect": False
}
driver = webdriver.Chrome(desired_capabilities = desired_capabilities)

Selenium添加浏览器扩展应用

selenium一般打开的是不带扩展的纯净的浏览器，但是有时候我们爬取数据时需要借助一些插件，比如解析类xpath helper。

Xpath Helper下载地址：http://download.csdn.net/download/gengliang123/9944202

这个插件是一个以 crx 为后缀的文件

将插件路径填入代码中

# 添加xpath helper应用

from selenium import webdriver
chrome_options = webdriver.ChromeOptions()

# 设置好应用扩展
extension_path = 'D:/extension/XPath-Helper_v2.0.2.crx'
chrome_options.add_extension(extension_path)

# 启动浏览器，并设置好wait
browser = webdriver.Chrome(chrome_options=chrome_options)

效果如下图: