Python抓取https协议的网站

13 | 11 | 2014

之前一直抓取的都是http协议的网站，所以用urllib.request.urlopen(url)抓取下来之后，可以直接将用.read().decode()来将内容变为string类型，然后再接着处理。但是最近在试验抓取数据时，对应网站是https协议的，用.read().decode()方法总是会出错，提示如下：

电脑上的Python版本是3.3，应该是新版，网上找解决方案无果，结果自己想了一个折中的解决方案，就是将抓取到的数据以二进制形式存入一个临时文件中，再从临时文件中把内容读入到变量中，问题就解决了，相关代码如下：

但是这样经过IO读取效率肯定下降了不少，希望能有更好的方法解决这个问题。

编程心得

55278
0

Leave A Comment

发表评论取消回复

© 2025 百思小站 | 一个分享计算机心得和金融的博客 | 京ICP备14053663号-1 |