闲来无聊写的一个爬虫,因为我看好像没有人写类似的,所以就发上来。
写出这种并不是特别难。
原因
简书上的文章看上去还不错哦
但是每次只能看到最近发的几篇
我试过把字典压在下键上面让他翻页
结果一中午过去了还没翻到底
但是浏览器已经卡到爆了(╯‵□′)╯︵┻━┻
怎么办呢
所以我就写了这个看似非常蠢的脚本,可以直接把简书诞生到现在的所有发过的帖子的链接
爬下来,要看哪个不看哪个你就自己定夺喽
当然我只喜欢看与程序员相关的专栏的,其他的我不感兴趣
要看其他的自己把相应的链接改一下呗
收获
中文编码
保存为utf-8才是王道,开始保存为gbk解析到一多页就碰到了不可解析的字符
后来还是encode为utf8,然后前面加上标示就行了
续传
要是中间网断了就直接从那一页接着写文件就行了