- GitHub文档镜像
- 欢迎使用Hawk
- 快速教程
- 主要组件介绍
- 核心功能:
- [模块和算子]
- 常见问题
- 更新日志作者和捐赠列表
- 专题:
- 案例:
- 发布文章:
- 故事:
Hawk使用工程(Project)的概念描述一组任务的集合。在工程中,所有的任务可以互相引用,任务也可以访问内部的数据表,连接器和配置。 一个典型的工程包含以下内容:
- 任务: 多个网页采集器和数据清洗
- 数据表: 缓存的抓取结果,错误表和数据日志等,最大不超过10w
- 连接器: 访问各种数据库的配置
- 全局配置
打开Hawk后,即可在文件
栏中,新建,加载,保存,另存为工程。这些概念和Windows中的标准实现接近,因此不多做介绍。还可以打开最近打开的文件, 直接加载工程。
注意:
- 由于Hawk在不断发展,早期版本的工程可能并不能兼容目前软件。
- 当工程较大时,加载和保存都会消耗一定的时间。
1.Hawk工程介绍
Hawk的工程文件为xml或hproj, 在保存工程时,可以在文件保存对话框中,选取要保存的文件格式。下图是典型的xml工程文件内容:
- xml: 可直接检查数据,并被其他语言所处理。但当其中包含较大的数据表时,xml文件由于其冗余性,体积会很大。
- hproj是zip压缩后的xml, Hawk在加载hproj后,会自动将其解压,并按xml格式解析之,反之过程则过程相反。
- 不论是xml还是hproj,其内部的结构都是一致的,通过xml树描述了层次结构,子节点用Children来表达。
- 由于xml可读性不强,未来可能会增加基于yaml的配置
2.自动保存
为了提升Hawk运行的稳定性,Hawk3增加了自动保存的功能。 可以在系统配置
中,设置自动保存的时间间隔(单位为秒)。当值小于等于0时,则不会自动保存。
保存的内容以xml或hproj形式后缀的文件记录在工程文件中。保存的内容包括:
- 所有数据表(为了降低存储损耗,超过10万的数据表不会保存)
- 所有任务(包括数据清洗和网页采集器)
- 所有正在执行的正式线程(Hawk可以记录任务执行的位置,在下次启动时断点续跑)
对工作线程的保存时:
- 正式线程是正式处理数据的任务,而非调试模式时自动刷新启动的临时任务。在下次启动时,上次未执行完的任务都会暂停,只有手动重启后才能执行。但并不精确
- 在重启线程时,可能会有一定的时延,因为线程会将指针移动到上次执行的位置,而这需要一定的时间。通常在10-30秒之内。
- 当加载或保存较大的数据表时,可能会有卡顿的情况。
3.全局配置系统
Hawk5新增了全局配置系统,方便在不同的任务间共享参数,并通过一次切换,更改所有任务的行为。
例如,针对链家开发爬虫时,不同的城市会有细微区别,如xpath,或名称... 因此可针对不同城市建立配置,切换配置即可在不同城市间切换,Hawk的模块在执行时会动态地获取这些数据。大大提升了重用性。
3.1.配置文件语法
Hawk采用了非常简单的配置写法,即yaml。为了方便编辑,可在外部的编辑器编辑完成后,拷贝到本编辑器中。
每行一个配置,键值之间用英文冒号,即:表示。 用#号来代表注释,所有以#号开头的行都会被当成注释而忽略。例如:
`#这是一行注释`
city: bj
xpath: your_xpath
在数据清洗的任意模块,大部分参数都能支持引用全局配置,语法是{key_name},例如{city},会将配置中city项的值拷贝过来。
注意:
- 使用方括号语法
[]
是访问其他列的数据 - 大括号语法
{}
是访问全局配置的数据。 - 如果全局配置里没有对应项,则返回带大括号的原始字符串。
- 虽然使用了yaml作为配置文件,但并不支持完整的语法(如数组和层次字典等),只能支持单层的的键值对。
3.2.新建和切换配置组
点击edit按钮,可增加新的配置组。 选择对应的配置组后,即可全局生效。