Superset 源码分析

我最初接触 Superset 是在2018年的时候,那时候 Superset 的版本才0.26,当时在公司内部积累了一些best practice,遇到了bug还顺便贡献了代码,算是对这个项目有比较深入的了解。

这些年看着 Superset 社区越来越成功,国内也有很多公司和开发者需要围绕着 Superset 做一些公司生态内的二次开发,而我现在回过头来看这个项目,对整个项目有了更深刻的理解,接下来,我会输出一系列的文章,讲解如何玩转 Superset 的二次开发。

刚开始接手一个新的项目,大致了解每个目录下的代码大概是做什么的非常重要,你会知道代码去哪里修改,做到心中有数才能更加游刃有余。

Superset 介绍

Superset 是一个款非常优秀的开源项目,作为BI工具,它的开发语言大众化,云原生的架构能够满足企业各种各样的定制化需求,从 web server,后端数据库,消息队列,缓存层都可以根据业务需要进行配置更改。支持各种各样的大数据组件作为查询引擎,如 Presto,Hive,Spark,Clickhouse,Amazon Athena,Redshift 等等。

而丰富的数据可视化解决方案才是 Superset 最大的亮点,它还支持自定义plugin的方式去增加自己想要的图表。


gallery.jpeg

代码目录介绍

Superset branch 1.5为例,根目录下通常会存放一些代码样式规范,git相关的配置,docker文件,python setup等脚本。还有做开源贡献必须仔细阅读的 code of conductcontributing

这些文件中需要着重阅读的是 contributing,里面有很详细的步骤告诉你如何开始贡献代码,如何把前端本地开发环境搭建起来,前后端如何协调,怎么修改代码的缩进等等。

根目录下还有如图所示的各个文件夹


Screen Shot 2022-05-17 at 23.05.22.png

挑几个比较重要的来说说,

  • superset:后端代码主要放在这个文件夹中
  • superset-frontend: 前端代码的入口
  • superset-websocket:Nodejs websocket相关
  • docker:docker文件,docker的启动脚本等等
  • helm/superset:helm charts 的配置文件,不太了解 helm 的可以看看官方介绍
  • requirements:python环境下,需要安装的一些第三方包及其版本
  • .github:存放github CI/CD 相关的 workflow 配置,可略过
  • RELEASING:存放版本release note

我个人多年来阅读项目源码的习惯是先抓住重点,细枝末节的东西可以以后慢慢一点点补充。一上来不要一下子输入太多,细节有时候会把人带跑。

以上就是比较重要的一些模块,作为后端开发(前端我无能为力 🙂 ),首先可以看看 superset 文件夹下的代码。

看源码的过程建议结合前端的UI交互、功能来看对应的后端代码。首先应该自己去上手用一用这款产品,连接一些数据库,建几张表,最后建几个dashboard玩一玩,数据可视化方面的一些基本知识也需要顺便补一补,只有真正成为一个产品的用户,才会变成一个有心人,发现很多别人看不到的细节,才有可能做到深入。

后端代码入口

后端是如何启动起来的,通过看 Dockerfile 的 entrypoint 或者 CMD

Screen Shot 2022-05-18 at 21.30.27.png

这段代码可以发现,启动后端服务应该是在 ./docker/docker-ci.sh 这个文件里执行的,顺着这个文件找下去,会发现最终执行的是一个叫 ./docker/run-server.sh 的脚本。

Screen Shot 2022-05-18 at 21.36.37.png

启动 Superset 后端server的一个命令就是 gunicorn 这一句。gunicorn 要启动的这个 ${FLASK_APP} 变量通过代码搜索可以发现就是 FLASK_APP="superset.app:create_app()"

它所对应的方法就是 superset/app.py 文件中的 create_app() 方法。


def create_app() -> Flask:  
    app = SupersetApp(__name__)  
  
    try:  
        # Allow user to override our config completely  
        config_module = os.environ.get("SUPERSET_CONFIG", "superset.config")  
        app.config.from_object(config_module)  
  
        app_initializer = app.config.get("APP_INITIALIZER", SupersetAppInitializer)(app)  
        app_initializer.init_app()  
  
        return app  
  
    # Make sure that bootstrap errors ALWAYS get logged  
    except Exception as ex:  
        logger.exception("Failed to create app")  
        raise ex  
  
  
class SupersetApp(Flask):  
    pass

这段创建应用的代码做了几件事:

  • 加载 superset/config.py,也就是说将配置文件加载进来,看过官网的介绍应该也知道默认的配置文件就是这个。
  • 调用 app_initializer 进行一系列的初始化,配置文件里没有的话,默认就调用 SupersetAppInitializer.init_app() 方法
    • 这个 init_app() 里面又处理了很多初始化的工作,比如 setup database, configure celery, config cache 等等
    • 最重要的还有一个 init_views() 方法。

代码:https://github.com/apache/superset/blob/1.5/superset/initialization/init.py

def init_app(self) -> None:  
    """  
    Main entry point which will delegate to other methods in    order to fully init the app    """    self.pre_init()  
    self.check_secret_key()  
    # Configuration of logging must be done first to apply the formatter properly  
    self.configure_logging()  
    # Configuration of feature_flags must be done first to allow init features  
    # conditionally    self.configure_feature_flags()  
    self.configure_db_encrypt()  
    self.setup_db()  
    self.configure_celery()  
    self.enable_profiling()  
    self.setup_event_logger()  
    self.setup_bundle_manifest()  
    self.register_blueprints()  
    self.configure_wtf()  
    self.configure_middlewares()  
    self.configure_cache()  
  
    with self.superset_app.app_context():  
        self.init_app_in_ctx()  
  
    self.post_init()

init_views()

这个方法很重要,因为 Superset 后端是用 Flask + FlaskAppBuilder 这两个框架去写的,因此需要初始化一些 FlaskAppBuilder 的 views,API,links 等等。

到此为止,整个后端代码的入口介绍就差不多了,后端核心的代码放在 superset 文件夹中,通过文件夹的命名,也能够看到大致的端倪。

这个看代码入口的方法套到其他的开源项目也是适用的哦,这是一个屡试不爽的好方法。

如何上手代码

想要更好地理解 Superset 的代码,你还需要做一些额外的准备:

  • 熟悉 Python 语言,了解一些常见的语法糖,语言的特性。这样看到报错信息可以帮助更好地定位问题,而不是一头雾水。
  • 熟悉 Flask 和 FlaskAppBuilder 框架,因为 Superset 的后端 API,views,models 的理解都需要在了解这两个框架的基础上。
  • 熟悉一些常见的 python package,如 SQLAlchemy,marshmallow,pandas,celery等。

最后

如果你对Superset的代码或者二次开发有问题,可以找我咨询,我组建了免费的社区,大家都很乐于分享。如有需要,看我个人简介来联系我,注明来意~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,924评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,781评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,813评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,264评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,273评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,383评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,800评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,482评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,673评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,497评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,545评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,240评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,802评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,866评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,101评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,673评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,245评论 2 341

推荐阅读更多精彩内容