使用python3的requests模块获取网页源码,并可以使用代理、获取网页地址的源码,还能进行转码并将字母全部变为小写方便查找比对。
代码笔记留存如下:
import requests def readurl(aurl):#读取地址获取网页源代码 headers = {'content-type': 'application/json','User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/44.0'} #proxies = { "http": "http://127.0.0.1:1080","https": "http://127.0.0.1:1080",}#代理 readurl01=requests.get(aurl,verify=False,timeout=10,headers=headers) ''' try: readurlall=readurl01.text.encode('utf-8') except: readurlall=readurl01.text.encode('gbk') ''' readurl01.encoding='utf-8' readurlall=readurl01.content#取得内容 content与text区别是 text需要转码而content不用 return readurlall.lower()#.lower()把所有字符中的大写字母转换成小写字母 print(readurl('https://www.baidu.com'))