简书爬虫的功课一小览

爬虫也学了一个多月了，趁着周末把学习的内容整理一下，特别是知识点。我每爬一个，都写了一篇文，所以整理起来也不很困难。
因为文章也就是几十篇，本来想直接copy+paste题目的，可是一想，都学了爬虫了，怎么还做原始人的事情。于是老老实实爬虫。
这次和上次爬首页有点不同，是指定作者id的打开方式。如果只是用最初的url，就只有几篇文章。仔细看一下，在下拉的时候，Network的XHR会陆续显示实际的加载页面，所以简书网其实还是分类的，只是页数不直接显示而已。

url = 'http://www.jianshu.com/u/b062b6eb573b?order_by=shared_at&page='+i

123.png

标题很快爬出来了。时间那里，人品很不好，直接copy同学的代码都爬不出来，反正也不是写这篇文的目的，干脆放弃。

从开始学习爬虫以来，一共写了19篇文，其中无关爬虫的3篇。一期的12篇，二期的4篇。加上这篇，大概这期完成10篇作业也还是有戏的。咔咔~

111.png

112.png

可以看出，其实一开始起步也是挺慢的，爬虫一期4月中开始，过了差不多10多天才开始慢慢写程序。不过后来就越来越快，掌握的技术要点也越来越多。这么回看一下，还是小有成就感的。
学到的技术大概有：

xpath和bs

通过network找json包（js/xhr）
用json.loads语句摘取json里的内容
def函数封装（主要是请求头函数和爬虫函数）
for页数循环
写入csv文件
请求头（掌握50%吧），包括random选取浏览器，在里面加referer，data注明页数等。

不算向右老师的示范，自己一共爬了大约12个网站，差不多每一个都有向老师和大神求援的历史。特别是程工和yaung，这是多频繁的麻烦别人的经历啊。毕竟成年以后不像在学校，没有人有义务要教你什么东西，就算你有学习的欲望，也不一定有学习的机会，遇到温暖的组织（好俗），可以说真的挺幸运的。

接下来的计划：

还是，还是要学会scrapy
要学会用抓包软件
学习mysql，在sqlzoo做题的正确率达到80%以上

因为自己原来没有用开github，所以写新程序的很多时候会把简书的文章打开，直接copy里面的代码。本来是很方便的，但是文章越来越多，程序越来越长以后，打开好几篇文章就看的很辛苦。所以上周还是开始上传程序到github，以后养成更好的存档习惯。这篇就用来当检索吧！

最后编辑于：2017.12.08 01:11:16

简书爬虫的功课一小览

推荐阅读更多精彩内容