开学修了一门楼sir的Java应用技术,上学期选课的时候谁特么跟我说这门课是零基础的TAT
只能够边学暑期的清华课程边做作业了……
第二次作业——爬网页:
作业:网页信息提取
读取网页,去除广告等无关部分,主要内容在屏幕显示或将其以TXT文件方式存盘。
要求:不使用第三方工具,自己作String处理。
本次作业经验总结:
1. 一开始爬下来是乱码,感觉是编码问题,但是workspace里面默认UTF-8,没有GBK。我想💊,结果网上搜了一下,直接在设置中(workspace)填入GBK,结果就可以了~
初步结果如下图所示:
所用到的技术:
1. try-catch 结构
用于处理异常:
2. URL数据类型,String数据类型,以及缓冲的处理(这一部分上课时候楼sir讲过)
3. Pattern类,Matcher类——用于过滤出制定标签内的正文。
我首先用它来过滤出通知的标题(标题用<h1>修饰)
4. 使用String类中的replace方法来把超链接(<a.xxxx>)及其中间的内容全部过滤掉。
基本上就是用了这些方法。