Term Project需要做一个爬虫-Crawler。爬什么、怎么爬,都不确定。索性网上搜教程开始学。很多语言都可以实现这个功能,比如Java
、Python
、R
这三个我感兴趣的语言。
今晚看到的教学视频是关于R的。
R
的爬虫Package为RCurl,首先需要在RStudio或R上安装,然后新建R Script
后,引用该库。
library(RCurl)
今晚两小时,主题是:RCurl
最重要的三个函数。只看到了第一个的两个基本命令。
getURL()
首先看一个很基本的查询网页是否存在的命令。
url.exist("http://www.baidu.com")
当网页存在是返回TRUE
,否则返回FALSE
。
第二个基本命令可以查询Header。
d = debugGatherer
temp <- getURL("http://www.dataguru.com",debugfunction=d$update,verbose=TRUE)
cat(d$value()[3])#提交给服务器的Header
cat(d$value()[1])#服务器地址和端口号
cat(d$value()[2])#服务器返回的Header
其中的verbose=TRUE
参数表示是否要将结果存储在d中。d
由debugGatherer
赋予了三个method,分别是update
、value
、reset
。当需要请求Header信息时,采用update
函数,将信息存储在value
中,如果需要重置value
,则可使用reset
。同时,如果verbose=FALSE
,则会发现value
中不会存储此次操作的信息。