【屠龙技】整站抓取的好工具:wget

姓朱者学屠龙于支离益,单千金之家,三年技成,而无所用其巧。
战国·郑·列御寇《庄子·列御寇》

wget是一个从网络上自动下载文件的自由工具。它支持HTTP,HTTPS和FTP协议。

获取wget工具

 yum install wget -y

食用方法

 wget -r -p -np -k http://www.xxx.com

食材配料

  • -b 后台运行
  • -r 递归抓取
  • -p 下载显示HTML文件的所有图片
  • -k 转换非相对链接为相对链接
  • -np:不要追溯到父目录

wget各种选项分类列表

启动
 -V,  –version           显示wget的版本后退出
 -h,  –help              打印语法帮助
 -b,  –background        启动后转入后台执行
 -e,  –execute=COMMAND   执行`.wgetrc'格式的命令

记录和输入文件
 -o,  –output-file=FILE     把记录写到FILE文件中
 -a,  –append-output=FILE   把记录追加到FILE文件中
 -d,  –debug                打印调试输出
 -q,  –quiet                安静模式(没有输出)
 -v,  –verbose              冗长模式(这是缺省设置)
 -nv, –non-verbose          关掉冗长模式,但不是安静模式
 -i,  –input-file=FILE      下载在FILE文件中出现的URLs
 -F,  –force-html           把输入文件当作HTML格式文件对待
 -B,  –base=URL             将URL作为在-F -i参数指定的文件中出现的相对链接的前缀
      –sslcertfile=FILE     可选客户端证书
      –sslcertkey=KEYFILE   可选客户端证书的KEYFILE
      –egd-file=FILE        指定EGD socket的文件名

下载
      –bind-address=ADDRESS   指定本地使用地址(主机名或IP,当本地有多个IP或名字时使用)
 -t,  –tries=NUMBER           设定最大尝试链接次数(0 表示无限制).
 -O   –output-document=FILE   把文档写到FILE文件中
 -nc, –no-clobber             不要覆盖存在的文件或使用.#前缀
 -c,  –continue               接着下载没下载完的文件
      –progress=TYPE          设定进程条标记
 -N,  –timestamping           不要重新下载文件除非比本地文件新
 -S,  –server-response        打印服务器的回应
      –spider                 不下载任何东西
 -T,  –timeout=SECONDS        设定响应超时的秒数
 -w,  –wait=SECONDS           两次尝试之间间隔SECONDS秒
      –waitretry=SECONDS      在重新链接之间等待1…SECONDS秒
      –random-wait            在下载之间等待0…2*WAIT秒
 -Y,  –proxy=on/off           打开或关闭代理
 -Q,  –quota=NUMBER           设置下载的容量限制
      –limit-rate=RATE        限定下载输率

目录
 -nd  –no-directories            不创建目录
 -x,  –force-directories         强制创建目录
 -nH, –no-host-directories       不创建主机目录
 -P,  –directory-prefix=PREFIX   将文件保存到目录 PREFIX/…
      –cut-dirs=NUMBER           忽略 NUMBER层远程目录

HTTP 选项
      –http-user=USER      设定HTTP用户名为 USER.
      –http-passwd=PASS    设定http密码为 PASS.
 -C,  –cache=on/off        允许/不允许服务器端的数据缓存 (一般情况下允许).
 -E,  –html-extension      将所有text/html文档以.html扩展名保存
      –ignore-length       忽略 `Content-Length'头域
      –header=STRING       在headers中插入字符串 STRING
      –proxy-user=USER     设定代理的用户名为 USER
      –proxy-passwd=PASS   设定代理的密码为 PASS
      –referer=URL         在HTTP请求中包含 `Referer: URL'头
 -s,  –save-headers        保存HTTP头到文件
 -U,  –user-agent=AGENT    设定代理的名称为 AGENT而不是 Wget/VERSION.
      –no-http-keep-alive  关闭 HTTP活动链接 (永远链接).
      –cookies=off         不使用 cookies.
      –load-cookies=FILE   在开始会话前从文件 FILE中加载cookie
      –save-cookies=FILE   在会话结束后将 cookies保存到 FILE文件中

FTP 选项
 -nr, –dont-remove-listing   不移走 `.listing'文件
 -g,  –glob=on/off           打开或关闭文件名的 globbing机制
      –passive-ftp           使用被动传输模式 (缺省值).
      –active-ftp            使用主动传输模式
      –retr-symlinks         在递归的时候,将链接指向文件(而不是目录)

递归下载
 -r,  –recursive          递归下载--慎用!
 -l,  –level=NUMBER       最大递归深度 (inf 或 0 代表无穷).
      –delete-after       在现在完毕后局部删除文件
 -k,  –convert-links      转换非相对链接为相对链接
 -K,  –backup-converted   在转换文件X之前,将之备份为 X.orig
 -m,  –mirror             等价于 -r -N -l inf -nr.
 -p,  –page-requisites    下载显示HTML文件的所有图片

递归下载中的包含和不包含(accept/reject)
 -A,  –accept=LIST                分号分隔的被接受扩展名的列表
 -R,  –reject=LIST                分号分隔的不被接受的扩展名的列表
 -D,  –domains=LIST               分号分隔的被接受域的列表
      –exclude-domains=LIST       分号分隔的不被接受的域的列表
      –follow-ftp                 跟踪HTML文档中的FTP链接
      –follow-tags=LIST           分号分隔的被跟踪的HTML标签的列表
 -G,  –ignore-tags=LIST           分号分隔的被忽略的HTML标签的列表
 -H,  –span-hosts                 当递归时转到外部主机
 -L,  –relative                   仅仅跟踪相对链接
 -I,  –include-directories=LIST   允许目录的列表
 -X,  –exclude-directories=LIST   不被包含目录的列表
 -np, –no-parent                  不要追溯到父目录

在递归下载的时候,遇到目录中有中文的时候,wget创建的本地目录名会用URL编码规则处理。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342