关于scrapy中POST请求的那些坑

事情起因

作为一名业余python coder, 在上手scrapy之后, 爬过amazon, 豆瓣, 爬过国内外各种网站数据, 熟练运用scrapy.Request和scrapy.FormRequest, 已经很久没有碰到问题, 一直到今天...

要抓取的是这个链接下的公司信息:https://www.expolightingamerica.com/es-mx/ListaExpositores.html

也就是这些信息:

待抓取信息

当我Chrome打开这个链接, 心里的想法是so easy, 即刻用Network模块分析了下信息:

分析请求

发现这个链接打开之后只是请求一些基本信息, 并没有包含公司信息, 所以公司信息是其他链接下载下来的。我们分析XHR, 发现了请求的来源和数据格式:

请求来源和数据格式

开始编写程序

当前环境: windows 10 x64; python 3.8.0

工具: PyCharm

通过命令创建工程, 然后需要重写start_request()函数, 首先复制Request URL, Request Header和Form Data中的信息

Request URL
Request Headers
POST的信息

发现这个Form Data的格式有点奇怪, 一开始只是觉得多了一个花括号{}, 不管如何把他整理成dict就好了。这边可以对比下之前登录豆瓣的Form Data:

豆瓣Form Data
编写start_requests()函数

这里需要注意的是一定要注释掉 Content-Length这一行,我自己写过的爬虫程序中, header中的这个Content-Length都是需要注释的, 否则会出现400报错.

然后运行, 报错 400;

400报错

想了一下之前有时候会碰到FormRequest POST失败的情况, 切换正常的Request就会成功, 所以我们就多写了一个Request函数。如果使用Request的函数, 那么请求的body就需要用json数据上传, 所以就需要用到json模块.做了如下更改:

两种请求方式对比

FormRequest默认是post方式, 所以不需要写method, 继续执行, 然后发现仍然报错: 

400

400

两种请求都报错

开始检查formdata, 如果把括号去掉呢?

去掉花括号

依然:

400

400

这个时候重新回到Chrome使用view source进行核对Form Data:

使用view source进行核对
View Source下的Form Data信息

是一个dict格式, 这个时候, 我写了下form data, 在这里我依然把花括号需要上传的信息:

重写Form Data

运行, 依然报错:

 400

400

难道不应该加那个花括号{}?去掉试试:

再写Form Data

运行,发现Request方法请求成功了.

Request方法请求成功

我这里没有继续研究FormRequest方法失败的原因。前面提到如果复制Request Headers中的信息, 需要注释掉Content-Length, 否则报错: 我们这里实验一下,如果不注释的话结果:

不注释content length

运行:

不注释content length后报错

当然正常情况下,大部分都不会复制整个header, 只要保留user-agent就可以正常请求了, 我们这里试试:

只保留user-agent

运行:

请求成功

笔者喜欢复制整个Request Headers中的大部分信息,是因为之前碰到只是用user-agent请求失败的案例.

继续编写代码获取并保存数据:

item代码
Spider代码

抓取结果

抓取结果展示

最后请大家合理使用数据,不滥用爬虫,不滥用数据.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容