书接上文
如果雇一个人7d×24h每10秒刷新一次Power BI,我需要每月支付他多少钱?
上次我们说到,使用selenium来操控浏览器打开网页,模拟点击进行刷新。
但是这种方式仍然有一个小小的问题,就是需要打开一个新的浏览器页面,并且如果按照10秒模拟点击一次,其实内存消耗还是比较大的,尤其是配置比较低的电脑。
好像遇到了一点小小的障碍……
障碍?
我们换个思路, 在点击刷新按钮的时候,右键网页-查看元素-网络,我们发现每一次刷新,其实就是代表着这一个post请求,那么只要我们将这个post请求的内容用Python发送出去,不就达到我们的目的了吗
那么
1.首先,用Firefox浏览器打开以下的页面:
2.右键空白处-查看元素-网络,然后点一下刷新按钮,在里面找到这个post
https://wabi-mc-sha-redirect.analysis.chinacloudapi.cn/powerbi/content/packages/xxxxxxxx/refresh/
这个网址就是让powerbi刷新的post请求,packages后面的数字替换成自己的就ok了,但是这个网址可不是直接复制到地址栏按enter就行的,因为这不是get请求,所以会得到这个结果。
那应该怎么办呢?很明显要用Python构建一个POST去请求了。
3.点击这个post链接,查看消息头
4.点击编辑和重发(注意先不要点击发送)
上图我们可以得到需要POST的网址和请求头内容,也就是用python来模拟浏览器的方式,包括cookies
5.开始Python大法
首先是需要用到的库,Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库。
importrequests
requests用法特别简单,refresh_url为以上获取的刷新链接,直接用requests.post请求这个链接即可。
refresh_url='https://wabi-mc-sha-redirect.analysis.chinacloudapi.cn/powerbi/content/packages/xxxxxxx/refresh/'response= requests.post(refresh_url)print(response)
打印一下响应,发现得到的是<Response [403]>,登录错误,看一下我们的代码,没有任何登录的信息,肯定是无法刷新的。
这里我们就加上请求头内容,请求头里包含了很多信息,其中就有包含登录信息的cookies,还有一些编码信息。
好,接下来我们直接将原网页的请求头复制下来,到python中,当然,需要注意格式,手动编辑一下。
headers = {'Host':'wabi-mc-sha-redirect.analysis.chinacloudapi.cn','User-Agent':r'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0','Accept':'application/json, text/plain, */*','Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Accept-Encoding':'gzip, deflate, br','ActivityId':'xxxxxxxxxxx','RequestId':'xxxxxxxxx','Authorization':'Bearer xxxxxxxxxxxxxxxxxxxxxxxxxxxx','Content-Type':'application/json;charset=UTF-8','Origin':'https://app.powerbi.cn','Connection':'keep-alive','Referer':'https://app.powerbi.cn/groups/xxxxxxxxxx/list/datasets?tenant=xxxxxxx&UPN=xxxxxxx@xxxxxxxxxx','Content-Length':'0','TE':'Trailers'}
然后在POST语句中添加headers=headers这个参数,这样就把请求头的内容放进POST中了
response= requests.post(refresh_url,headers=headers)print(response)
再打印一下响应,<Response [200]>,ok,搞定!
最后这条就是刚刚完成的POST刷新。
接下来还是每10秒刷新一次,并且加上一个刷新的时间记录,并打印出来,以便我们随时观察有没有什么问题。
fromdatetimeimportdatetimewhileTrue: print(datetime.now()) response = requests.post(refresh_url,headers=headers) print(response)time.sleep(10)
这样,我们就又完成了操作。
偶尔观察一下打印结果,每次都是<Response [200]>,应该是没问题的,可以观察一段时间。
以下是刷新纪录
运行代码,葛优躺喝咖啡,甚至可以抽空来个大保健,美滋滋。
好了,做个总结,我们来对比一下今天讲的response方法和上一篇讲的selenium模拟刷新的优缺点:
用selenium登录Firefox模拟点击的办法很方便,而且能够肉眼看见刷新,也不影响用户对电脑做其他操作,只不过对于配置较低的电脑会造成占用内存较大的问题;
使用response来POST刷新链接,比selenium更进一步,甚至不需要打开浏览器,全部操作都是在后台进行,几乎不会占用内存,几乎对用户无任何影响。
那么还是那个问题,如果雇一个人7d×24h不简单每10秒刷新一次Power BI,我需要每月支付他多少钱?
完整源代码请关注公众号【学谦数据运营】回复“pbi自动刷新2”获取。
————————
留一个悬念,用response来POST刷新链接有一个问题,就是每当刷新一小时后,就会再次出现401错误,为什么呢?
因为powerbi这个网页虽然一直保持登录状态,但是cookies里的Authorization已经发生了变化,比如最开始的时候结尾是……QEgilBRFwTX3ZKUSA,但是过了一段时间,变成了……pyMyPKkznf1bAKSSVg。
所以cookies发生了变化,肯定登录就失效了,登录失效了,自然无法刷新,response也就不是200了。
那么问题就来了,如何得到最新的Authorization呢?
这就是下一篇内容的事情了,请关注本公众号【学谦数据运营】,等待下次更新。