感觉今天的代码可以实现爬虫的功能,解析一个网址并下载网址。
完整代码如上;
1、导入urllib、re模块;从HTMLParser模块导入类;
2、利用urlretrieve()提取网址的信息,并存储在文件中;
3、以只读方式打开文件,读取文件所有行内容打印相关信息。
第一面的打印内容,包括了网址,gif图地址,时间信息;
标准时间前一天的时间信息和对应的网址信息;
.
.
.还有很多这样的信息。
一直到最后的网址信息。还有11好的信息,不知道是什么操作机制。
查阅相关资料后:
1、urllib模块是接受url请求的模块;也就是可以实现和互联网通信的功能;urlretrieve方法将url定位到的html文件下载到指定文件中;如果不指定filename,则会存为临时文件;
2、re模块是为高级字符串处理提供正则表达式的工具;re.sub()用于替换字符串中的匹配项,代码中是把文件中读取的内容匹配项(正则表达式)替换为''表示的空字符;
3、HTMLParser模块是Python自带的对html文件进行解析的模块,可以分析其中的标签、数据等;
4、join函数是将字符串、列表、元组中的元素按照指定分隔符连接成新的字符串;代码中的是把读取的文件内容用""表示的空字符连接起来。
被解析的网址是张这样的。