Python爬取京东商品评价(动态网页的爬取)

完整代码可以关注公众号:Romi的杂货铺

首先打开京东的任意几个商品页面,并观察URL,可以发现都是https://item.jd.com/+数字+.htm的格式,而且数字也随着商品的改变而改变,基本上可以确定这串数字是商品ID

image

之后我们找到网页的源码并随便复制一句评论,在网页源码中查找,发现并没有找到评论内容,说明jd的评论页面并非静态网页

AJAX:
AJAX的全称是Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。
ajax不是新的编程语言,而是一种使用现有标准的新方法。ajax是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下。
ajax是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。
ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换。ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。而传统的网页(不使用ajax)如果需要更新内容,必须重载整个网页面。

既然确定是AJAX的方式加载,我们可以直接打开chrome的调试工具,在network中的XHR和JS中寻找保存有评论的文件。注意这里必须先下拉到评论页面使数据文件加载下来,否则会找不到加载的数据文件

我们可以通过两种方式来查找包含评论的文件:
1.可以在js和XHR中寻找comment关键字,查看是否有文件符合要求,并对符合要求的结果筛选
2.评论在页面的最下方,根据文件的加载顺序可以大致了解到会在后面,从后面开始找即可

最终确定js文件,如下图所示

image

这样我们就可以确定评论的请求地址并开始抓取

import requestsimport jsonurl='https://item.jd.com/52297931949.html'jsonurl='https://club.jd.com/comment/productPageComments.action?productId=52297931949&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'html=requests.get(jsonurl).text#print(html)josntext=json.loads(html)comments= josntext['comments']for comment in comments:    content = comment['content']    print(content)

这里需要注意一下原始的jsonurl得到的文件并不是标准的json文件格式,我们可以将得到的文本内容复制到https://www.json.cn发现这并不是一个标准的josn文件,所以直接loads()会直接报错:json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0),只要返
回的对象不是josn对象就会出现此错误
解决的方法有两个,一是将URL中的?callback=fetchJSON_comment98去除,另外一种方法是将返回的文本对象中的fetchJSON_comment98替换为空

得到所需要的json文件后就可以将数据存到sqllite中了
sqllite是python内置的关系型数据库,具有以下优点:

  • 不需要一个单独的服务器进程或操作的系统(无服务器的)。

  • SQLite不需要配置,这意味着不需要安装或管理。

  • 一个完整的SQLite数据库是存储在一个单一的跨平台的磁盘文件。

  • SQLite是非常小的,是轻量级的,完全配置时小于 400KiB,省略可选功能配置时小于250KiB。

  • SQLite是自给自足的,这意味着不需要任何外部的依赖。

  • SQLite事务是完全兼容 ACID 的,允许从多个进程或线程安全访问。

  • SQLite支持 SQL92(SQL2)标准的大多数查询语言的功能。

  • SQLite使用 ANSI-C 编写的,并提供了简单和易于使用的 API。

  • SQLite 在 UNIX(Linux, Mac OS-X, Android,iOS)和 Windows(Win32, WinCE,WinRT)中运行。

python操作SQLite流程与连接其他的数据库相同,大概分为以下五步

  • 通过sqlite3.open()创建与数据库文件的连接对象connection;

  • 通过connection.cursor()创建光标对象cursor;

  • 通过cursor.execute()执行SQL语句;

  • 通过connection.commit()提交当前的事务,或者通过cursor.fetchall()获得查询结果;

  • 通过connection.close()关闭与数据库文件的连接

这一部分代码如下所示

conn=sqlite3.connect("comments.db")#建立连接,数据库存在时,直接连接;不存在时,创建相应数据库#新建一张表conn.execute('''CREATE TABLE Comments_jd      (ID text PRIMARY KEY     NOT NULL,      comment text     );''')#注意sql语句中使用了格式化输出的占位符%s和%d来表示将要插入的变量,其中%s需要加引号''for comment in comments:    sql = "insert into Comments_jd(ID,comment) values('%s','%s')" % (comment['id'],comment['content'])    conn.execute(sql)conn.commit()# 关闭数据库连接conn.close()

之后检查以下数据是否有问题:

conn=sqlite3.connect("comments.db")cursor = conn.execute("select *  from Comments_jd")for row in cursor:    print('ID = ', row[0], '  Comment = ', row[1])conn.close()

得到的结果如下图所示

image

这样整个流程就搞定了

原文链接http://smilecoc.vip/2020/03/02/%E4%BA%AC%E4%B8%9C%E5%95%86%E5%93%81%E8%AF%84%E8%AE%BA%E7%88%AC%E8%99%AB/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342