Hawk教程-Hawk工程

Hawk使用工程(Project)的概念描述一组任务的集合。在工程中,所有的任务可以互相引用,任务也可以访问内部的数据表,连接器和配置。 一个典型的工程包含以下内容:

  • 任务: 多个网页采集器和数据清洗
  • 数据表: 缓存的抓取结果,错误表和数据日志等,最大不超过10w
  • 连接器: 访问各种数据库的配置
  • 全局配置
已加载任务

打开Hawk后,即可在文件栏中,新建,加载,保存,另存为工程。这些概念和Windows中的标准实现接近,因此不多做介绍。还可以打开最近打开的文件, 直接加载工程。

注意:

  • 由于Hawk在不断发展,早期版本的工程可能并不能兼容目前软件。
  • 当工程较大时,加载和保存都会消耗一定的时间。

1.Hawk工程介绍

Hawk的工程文件为xml或hproj, 在保存工程时,可以在文件保存对话框中,选取要保存的文件格式。下图是典型的xml工程文件内容:

工程配置文件
  • xml: 可直接检查数据,并被其他语言所处理。但当其中包含较大的数据表时,xml文件由于其冗余性,体积会很大。
  • hproj是zip压缩后的xml, Hawk在加载hproj后,会自动将其解压,并按xml格式解析之,反之过程则过程相反。
  • 不论是xml还是hproj,其内部的结构都是一致的,通过xml树描述了层次结构,子节点用Children来表达。
  • 由于xml可读性不强,未来可能会增加基于yaml的配置

2.自动保存

为了提升Hawk运行的稳定性,Hawk3增加了自动保存的功能。 可以在系统配置中,设置自动保存的时间间隔(单位为秒)。当值小于等于0时,则不会自动保存。

保存的内容以xml或hproj形式后缀的文件记录在工程文件中。保存的内容包括:

  • 所有数据表(为了降低存储损耗,超过10万的数据表不会保存)
  • 所有任务(包括数据清洗和网页采集器)
  • 所有正在执行的正式线程(Hawk可以记录任务执行的位置,在下次启动时断点续跑)
系统设置

对工作线程的保存时:

  1. 正式线程是正式处理数据的任务,而非调试模式时自动刷新启动的临时任务。在下次启动时,上次未执行完的任务都会暂停,只有手动重启后才能执行。但并不精确
  2. 在重启线程时,可能会有一定的时延,因为线程会将指针移动到上次执行的位置,而这需要一定的时间。通常在10-30秒之内。
  3. 当加载或保存较大的数据表时,可能会有卡顿的情况。

3.全局配置系统

Hawk5新增了全局配置系统,方便在不同的任务间共享参数,并通过一次切换,更改所有任务的行为。

例如,针对链家开发爬虫时,不同的城市会有细微区别,如xpath,或名称... 因此可针对不同城市建立配置,切换配置即可在不同城市间切换,Hawk的模块在执行时会动态地获取这些数据。大大提升了重用性。

param.gif
全局参数设置

3.1.配置文件语法

Hawk采用了非常简单的配置写法,即yaml。为了方便编辑,可在外部的编辑器编辑完成后,拷贝到本编辑器中。

每行一个配置,键值之间用英文冒号,即:表示。 用#号来代表注释,所有以#号开头的行都会被当成注释而忽略。例如:

`#这是一行注释`
city: bj
xpath: your_xpath

在数据清洗的任意模块,大部分参数都能支持引用全局配置,语法是{key_name},例如{city},会将配置中city项的值拷贝过来。

注意:

  • 使用方括号语法[]是访问其他列的数据
  • 大括号语法{}是访问全局配置的数据。
  • 如果全局配置里没有对应项,则返回带大括号的原始字符串。
  • 虽然使用了yaml作为配置文件,但并不支持完整的语法(如数组和层次字典等),只能支持单层的的键值对。

3.2.新建和切换配置组

点击edit按钮,可增加新的配置组。 选择对应的配置组后,即可全局生效。

全局可配置参数
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容

  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,134评论 0 9
  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,082评论 1 32
  • 一. Java基础部分.................................................
    wy_sure阅读 3,784评论 0 11
  • 自己一个人的时光总会熬过去的,在家的时候不用担心吃啥早晨起来的还没起就有人给我买好了早饭,还嫌家里面无聊没什么事做...
    巴黎的小鐵匠_阅读 419评论 0 0
  • 列车马上就要进站了,每每这个时候开始写些什么,是给自己看的。 列车的终点站是××,下一站是××,有目的地的列车上思...
    空空空壳子阅读 280评论 0 0