使用python3的requests模块获取网页源码

Time:2019/8/22  keywords:python3,requests模块,网页源码

使用python3的requests模块获取网页源码,并可以使用代理、获取网页地址的源码,还能进行转码并将字母全部变为小写方便查找比对。

代码笔记留存如下:

import requests
def readurl(aurl):#读取地址获取网页源代码
    headers = {'content-type': 'application/json','User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/44.0'}
    #proxies = {  "http": "http://127.0.0.1:1080","https": "http://127.0.0.1:1080",}#代理
    readurl01=requests.get(aurl,verify=False,timeout=10,headers=headers)
    '''
    try:
        readurlall=readurl01.text.encode('utf-8')
    except:
        readurlall=readurl01.text.encode('gbk')
    '''
    readurl01.encoding='utf-8'
    readurlall=readurl01.content#取得内容  content与text区别是 text需要转码而content不用
    return readurlall.lower()#.lower()把所有字符中的大写字母转换成小写字母

print(readurl('https://www.baidu.com'))