此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 6 reading documents
CSV file
作者提供了处理网路csvfile的一个方法,不存储,直接处理。用到了StringIO,然后直接处理。
主要还是两个步骤,一个是把urlopen得到的文件用stringio 来处理一下。得到一个stringio文件,然后直接用csv.reader 来读取一下。读取后就可以进行操作了,读取后可以进行迭代操作。
也可以将csv数据处理成字典
只是将第8句换掉就好了
第八句换成csv.DictReader。第九句只是用来检验得到的字段。
二,pdf
说实话,我没看懂,也没查到中英文的资料。
作者上面的代码少了一句 from urllib.request import urlopen.不过书中的正确代码都可以在网上找到。
作者说这个代码对处理全是text且layout比较可以的pdf效果较好。
三,word
也不懂,就把代码贴这里吧。
P.S.:没能上车的小伙伴欢迎留言,如果我会我直接回答你!如果不会,我谷歌后回答你!如果要加我微信,不行。