Hawk教程-Hawk工程

GitHub文档镜像
欢迎使用Hawk
快速教程
主要组件介绍
核心功能:
[模块和算子]
常见问题
更新日志作者和捐赠列表
专题:
案例:
- 参考这里
发布文章:
故事:
- 设计Hawk背后的故事(2016)
- 花一年时间,给爬虫Hawk再讲个故事(2018)

Hawk使用工程(Project)的概念描述一组任务的集合。在工程中，所有的任务可以互相引用，任务也可以访问内部的数据表，连接器和配置。一个典型的工程包含以下内容：

任务：多个网页采集器和数据清洗
数据表：缓存的抓取结果，错误表和数据日志等，最大不超过10w
连接器：访问各种数据库的配置
全局配置

已加载任务

打开Hawk后，即可在文件栏中，新建，加载，保存，另存为工程。这些概念和Windows中的标准实现接近，因此不多做介绍。还可以打开最近打开的文件，直接加载工程。

注意：

由于Hawk在不断发展，早期版本的工程可能并不能兼容目前软件。
当工程较大时，加载和保存都会消耗一定的时间。

1.Hawk工程介绍

Hawk的工程文件为xml或hproj，在保存工程时，可以在文件保存对话框中，选取要保存的文件格式。下图是典型的xml工程文件内容：

工程配置文件

xml: 可直接检查数据，并被其他语言所处理。但当其中包含较大的数据表时，xml文件由于其冗余性，体积会很大。
hproj是zip压缩后的xml, Hawk在加载hproj后，会自动将其解压，并按xml格式解析之，反之过程则过程相反。
不论是xml还是hproj，其内部的结构都是一致的，通过xml树描述了层次结构，子节点用Children来表达。
由于xml可读性不强，未来可能会增加基于yaml的配置

2.自动保存

为了提升Hawk运行的稳定性，Hawk3增加了自动保存的功能。可以在系统配置中，设置自动保存的时间间隔（单位为秒）。当值小于等于0时，则不会自动保存。

保存的内容以xml或hproj形式后缀的文件记录在工程文件中。保存的内容包括：

所有数据表(为了降低存储损耗，超过10万的数据表不会保存)
所有任务（包括数据清洗和网页采集器）
所有正在执行的正式线程（Hawk可以记录任务执行的位置，在下次启动时断点续跑）

系统设置

对工作线程的保存时：

正式线程是正式处理数据的任务，而非调试模式时自动刷新启动的临时任务。在下次启动时，上次未执行完的任务都会暂停，只有手动重启后才能执行。但并不精确
在重启线程时，可能会有一定的时延，因为线程会将指针移动到上次执行的位置，而这需要一定的时间。通常在10-30秒之内。
当加载或保存较大的数据表时，可能会有卡顿的情况。

3.全局配置系统

Hawk5新增了全局配置系统，方便在不同的任务间共享参数，并通过一次切换，更改所有任务的行为。

例如，针对链家开发爬虫时，不同的城市会有细微区别，如xpath，或名称... 因此可针对不同城市建立配置，切换配置即可在不同城市间切换，Hawk的模块在执行时会动态地获取这些数据。大大提升了重用性。

param.gif

全局参数设置

3.1.配置文件语法

Hawk采用了非常简单的配置写法，即yaml。为了方便编辑，可在外部的编辑器编辑完成后，拷贝到本编辑器中。

每行一个配置，键值之间用英文冒号，即:表示。用#号来代表注释，所有以#号开头的行都会被当成注释而忽略。例如：

`#这是一行注释`
city: bj
xpath: your_xpath

在数据清洗的任意模块，大部分参数都能支持引用全局配置，语法是{key_name}，例如{city}，会将配置中city项的值拷贝过来。

注意:

使用方括号语法[]是访问其他列的数据
大括号语法{}是访问全局配置的数据。
如果全局配置里没有对应项，则返回带大括号的原始字符串。
虽然使用了yaml作为配置文件，但并不支持完整的语法(如数组和层次字典等)，只能支持单层的的键值对。

3.2.新建和切换配置组

点击edit按钮，可增加新的配置组。选择对应的配置组后，即可全局生效。

全局可配置参数

最后编辑于：2019.06.08 20:12:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,802评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,109评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,683评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,458评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,452评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,505评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,901评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,550评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,763评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,556评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,629评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,330评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,898评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,897评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,140评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,807评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,339评论 2赞 342