有道api接口,python模拟登陆知识点

以前,很多人学习Python爬虫的第一个爬虫就是爬的有道翻译,但是现在由于有道翻译进行了参数加密,增加了反爬机制,所以很多新手在使用以前的代码的时候经常会遇到{"errorCode":50}错误。这篇文章就来分析一下有道翻译的反爬机制,依然通过Python爬虫来爬有道翻译。

有道翻译的请求分析

首先,我们根据使用浏览器的F12开发者工具来查看一下有道翻译网页在我们进行翻译的时候都进行了什么请求操作。

请求链接

首先让我们来看一下在有道翻译输入要翻译的内容然后提交进行翻译之后发生了什么。

首先通过一张截图来看翻译加载的请求链接:

通过多次输入新的翻译内容,通过F12查看XHR中的异步加载的内容,可以看到每次都有一个新的请求产生,所以可以初步预测这个链接就是请求的链接。

继续查看请求的结果信息:

查看每个请求的结果内容,果然能看到翻译的结果,所以现在可以肯定这个链接就是有道翻译的请求地址了。

请求参数

已经确定了请求的链接,现在可以继续查看这个页面的请求参数,其中一般包括以下内容:

请求地址

请求方式(GET或者POST)

请求头headers参数

传递的参数data(如果是POST请求的话)

可以根据截图来看一下这个链接的这些参数,首先是请求参数:

然后是传递的参数data:

对比参数

可以通过多次重复提交要翻译的信息来查看每次参数的变化情况,最后能得到一个大概的结论,就是传递的data参数中除了需要的翻译的信息外,还有2个参数是会每次都变动的,它们就是salt和sign。

如果直接复制一次网页中的salt和sign,去使用Python请求链接,则会发现根本请求不到要翻译的结果,而是会得到如下的结果:

{"errorCode":50}

所以,我们大概能判断,这两个参数应该是有加密的,当然,salt其实一眼就能看出来跟时间戳有关,所以现在的重点是需要找到sign参数的获取方式。

分析sign参数获取方式

查看sign参数首先可以去网页的源代码中查看,然后会发现找不到这个参数,于是可以考虑它的生成方式应该在js中,所以可以去网页加载时候的js文件中查看这个参数,最后可以在 fanyi.min.js 这个文件中找到3个结果。

找到了参数生成的位置,现在就要分析js了,因为这个文件是处理过的js,直接看是难以看出逻辑的,所以可以把js代码放到一些可以重新排版的工具中再查看,最后可以看到sign的生成方式如下片段:

varn=b.val(),r=""+((newDate).getTime()+parseInt(10*Math.random(),10)),o=u.md5(S+n+r+D),a=n.length;if(L(),w.text(a),a>5e3){varl=n;n=l.substr(0,5e3),o=u.md5(S+n+r+D);varc=l.substr(5e3);c=(c=c.trim()).substr(0,3),u("#inputTargetError").text("有道翻译字数限制为5000字,“"+c+"”及其后面没有被翻译!").show(),w.addClass("fonts__overed")}elsew.removeClass("fonts__overed"),u("#inputTargetError").hide();f.isWeb(n)?i():s({i:n,from:_,to:C,smartresult:"dict",client:S,salt:r,sign:o,doctype:"json",version:"2.1",keyfrom:"fanyi.web",action:e||"FY_BY_DEFAULT",typoResult:!1

从上面的js代码中可以看到salt果然是时间戳,获取的方式是:

r = "" + ((new Date).getTime() + parseInt(10 * Math.random()

然后sign的获取方式是:

o = u.md5(S + n + r + D)

这个里面其实是有4个参数的,通过下面的data参数可以发现,S就是client参数,通过之前网页请求的时候发现这个是一个字符串fanyideskweb,n就是需要翻译的内容了,r是时间戳,D参数需要到js代码中继续找,最后会找到这样的一段:

D = "ebSeFb%=XZ%T[KZ)c(sy!"

也就是说,这个D也是一个固定的字符串。

现在上面4个参数都找到了,sign是这个4个参数的字符串拼接之后进行MD5加密的结果。到这里,有道翻译的爬虫需要的两个重要的参数的获取方式就分析结束了,现在可以着手将逻辑写成代码了。

Python爬虫代码

源码展示



import requests

import time

import random

import hashlib

ss = requests.Session()

# 合成盐

salt =int(time.time() *1000) + random.randint(1,9)

n =input('请输入您要翻译的内容')

# 合成sign

sign ='fanyideskweb' + n +str(salt) +"ebSeFb%=XZ%T[KZ)c(sy!"

mm = hashlib.md5()

mm.update(sign.encode('utf-8'))

sign = mm.hexdigest()

# post表单数据,通过分析只有salt和sign是变动的,通过js代码能够查到加密方法;

formdata = {

"i":n,

"from":"AUTO",

"to":"AUTO",

"smartresult":"dict",

"client":"fanyideskweb",

"salt":salt,

"sign":sign,

"doctype":"json",

"version":"2.1",

"keyfrom":"fanyi.web",

"action":"FY_BY_REALTIME",

"typoResult":"false"

}

# 通过分析需要提交这些头部信息,cookie的值每次都是变动的不一样的,但是服务器并不审查值的具体内容,只要有即可

headers = {

# 'Cookie': 'OUTFOX_SEARCH_USER_ID=-2022895048@10.168.8.76;',

"Cookie":"OUTFOX_SEARCH_USER_ID=1660767496@10.168.8.63; JSESSIONID=aaaWHiSuUEECp5jcWeZiw; OUTFOX_SEARCH_USER_ID_NCOO=1085528731.0395057; fanyi-ad-id=41685; fanyi-ad-closed=1; ___rl__test__cookies=%d" %int(time.time()*1000),

"Referer":"http://fanyi.youdao.com/",

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36"

}

# post地址

url ='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

# post返回的数据是json格式的(可以在chrome-network中查看该请求的response),通过解析得到翻译结果,

response = ss.post(url,data=formdata,headers=headers).json()

# print(response)

# 打印翻译结果

print(response["translateResult"][0][0]["tgt"])



headers参数解读

通过一个参数一个参数的注释掉然后再去请求,可以发现我这个源代码里面注释掉的部分都是可以不用带上的,并且,在Cookie这个参数中,也只有OUTFOX_SEARCH_USER_ID这个参数是必要的,只要格式满足就可以使用随机的方式去生成这个参数,而其他的参数就可以不用了。

总结:有道翻译的这个Python其实算是一个非常常规的应对有反爬虫机制的网站的分析方法了,这个分析的关键地方其实在于对JS代码的理解,所以,要想爬虫技术提高,JS代码必须要看的懂才行,这个其实也是我正在学习的地方,共勉吧!

请求头中cookie传的值,是您反复测试的出来的吗? 经过测试:

"Cookie":"OUTFOX_SEARCH_USER_ID=1660767496@10.168.8.63;JSESSIONID=aaaWHiSuUEECp5jcWeZiw; OUTFOX_SEARCH_USER_ID_NCOO=1085528731.0395057; fanyi-ad-id=41685; fanyi-ad-closed=1;"

"Cookie":"OUTFOX_SEARCH_USER_ID=1660767496@10.168.8.63; JSESSIONID=aaaWHiSuUEECp5jcWeZiw; OUTFOX_SEARCH_USER_ID_NCOO=1085528731.0395057; fanyi-ad-id=41685; "

"Cookie":"OUTFOX_SEARCH_USER_ID=1660767496@10.168.8.63; JSESSIONID=aaaWHiSuUEECp5jcWeZiw; OUTFOX_SEARCH_USER_ID_NCOO=1085528731.0395057;"

"Cookie":"OUTFOX_SEARCH_USER_ID=1660767496@10.168.8.63; JSESSIONID=aaaWHiSuUEECp5jcWeZiw; "

"Cookie":"OUTFOX_SEARCH_USER_ID=1660767496@10.168.8.63; "

"Cookie":"OUTFOX_SEARCH_USER_ID=1660767496@10.168.8.63; JSESSIONID=aaaWHiSuUEECp5jcWeZiw; OUTFOX_SEARCH_USER_ID_NCOO=1085528731.0395057; fanyi-ad-id=41685; fanyi-ad-closed=1;rl_testcookies=%d" % int(time.time()*1000)

"Cookie":"OUTFOX_SEARCH_USER_ID=1660767496@10.168.8.63; JSESSIONID=aaaWHiSuUEECp5jcWeZiw; OUTFOX_SEARCH_USER_ID_NCOO=1085528731.0395057; fanyi-ad-id=41685; fanyi-ad-closed=1;rl_testcookies=%d" % 任意13位的unix时间戳 

这些都是可以的........................

 服务器似乎对于cookie具体的值并不关心,但是cookie这个头信息是不能少的;

本文部分分析来自于


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,478评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,825评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,482评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,726评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,633评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,018评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,168评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,320评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,264评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,288评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,995评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,587评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,909评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,284评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,862评论 2 339

推荐阅读更多精彩内容