Python抓取https协议的网站

13 | 11 | 2014

之前一直抓取的都是http协议的网站,所以用urllib.request.urlopen(url)抓取下来之后,可以直接将用.read().decode()来将内容变为string类型,然后再接着处理。但是最近在试验抓取数据时,对应网站是https协议的,用.read().decode()方法总是会出错,提示如下:


error_display
 

电脑上的Python版本是3.3,应该是新版,网上找解决方案无果,结果自己想了一个折中的解决方案,就是将抓取到的数据以二进制形式存入一个临时文件中,再从临时文件中把内容读入到变量中,问题就解决了,相关代码如下:

related_code
 

但是这样经过IO读取效率肯定下降了不少,希望能有更好的方法解决这个问题。