大数据平台多租户管理实现(理论篇)

        随着数据量的指数型增长,以及Hadoop生态系统的不断完善,越来越多的公司选择Hadoop作为数据仓库,并在大数据集群上架设了越来越多的相对复杂的应用场景需求。在公司内部,多用户业务应用架设在同一个Hadoop集群上,容易出现数据与集群资源混乱无序的状态,需要建立统一的调度平台实现数据统一管理、任务合理化调度,集群资源按需分配;

        从集群使用角度延申,Hadoop大数据平台多租户管理实现在以下几点实现:



一、集群使用认证:

       不能随便某个用户就可以直接登录大数据平台,必须有一个开关,将大数据开发平台整体隔绝。目前绝大部分公司使用Kerberos组件进行认证管理。

       大致的做法为,大数据平台设置某公共堡垒机(大业务应用系统可以使用专用堡垒机),多租户登陆堡垒机后,通过Kerberos认证成功后,才能使用大数据平台,并且设置失效时间。Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群内的节点使用密钥得到认证。只有被认证过节点才能正常使用。企图冒充的节点由于没有事先得到的密钥信息,无法与集群内部的节点通信。


二、数据库管理

       多租户模式下,数据安全是最重要的问题,集群需要将不同用户的数据统一管理运维,对不同的数据进行权限隔离。Hadoop集群数据存储主要依赖HDFS,主要从以下几个方面进行多租户下数据层的管理:

(1)首先内部应制定并严格遵守hadoop集群数据存放管理规则。

         示例一存放规则:第一级别目录:(公共资源、不同用户)

                                      第二级别目录:(数据类型)

                                      第三级别目录:(时间)

        规则的指定需要严加执行。

           同时为了保证对各用户独立数据资源量的可控,需要对其设置数据存储的上线(50%三级;75%二级;90%一级)可在集群监控中进行每日调度监控。

(2)目录权限控制:

       在数据资产价值日益凸显,以及数据安全日益重要的情况下,应严格控制数据获取权限,特别在某些金融行业,客户的隐私尤为重要。

        多租户下,hadoop生态系统有Ranger、Sentry两个组件。大致功能一样,可以对Hive、Hbase细粒度级、基于角色的授权。最近在搞ranger,ranger(HD出品)支持的组件相对较多。同时Cloudra公司在研发一种更好的权限控制组件。

(3)数据库使用权限控制:

       hadoop生态圈使用加多的数据库主要有HBase、Hive等,大致都支持多schema分离设置。可以通过数据库分区与存放目录权限结合起来控制数据访问。


三、资源管理

(1)资源隔离

      在操作系统层面服务层面YARN)都可以做资源隔离。

      (1.1)服务层面, Hadoop资源池(pool),或者作业池的分配主要依赖yarn组件(相对较多的计算引擎都支持yarn管理)。 每个pool里有一定量的资源(管理员配置),每个用户属于某个pool,其提交的作业可使用这个pool中的资源。资源的分配主要是依据CPU虚拟核数和内存量。另外个别组件有单独的多租户管理,但是在一个统一的大数据平台上,还是用yarn统计管理的好。

     (1.2)操作系统层Linux用CGROUPS做静态资源隔离。2006年 Google工程师在创建 CGROUPS这个特性的时候,本来的名字不是 CGROUPS,而是进程容器,这也是这个特性的本意,就是在 Linux内核级别创建一个容器的概念,使得这些进程只竞争容器内部的资源。容器内的应用不会收到容器外的应用对于操作系统资源,CPU、内存、网络 IO、句柄的侵占,运行出现问题。CGROUPS同时也是 Docker的底层技术,Docker在 CGROUPS的基础之上,实现了更加广泛和易用的接口,和建立的一个广泛的生态。个别公司的大数据平台已经实现Docker底层资源隔离(星环的TDH)

(2)资源调度

        在 Hadoop集群中 ,由于资源是有限的,多租户环境下会有很 多作业在同时运行,因此,资源的合理 分配和回收对多租户来讲相 当重要。多租户环境通常用到的是公平调度策略。因为这种高度既能让长时间运行的作业及时完成,也能并发的运行占用资源少的作业 。

        还是主要使用yarn的公平调度,这是一种赋予作业(job)资源的方法,它的目的是让所有的作业随着时间的推移,都能平均的获取等同的共享资源。当单独一个作业在运行时,它将使用整个集群。当有其它作业被提交上来时,系统会将任务(task)空闲时间片(slot)赋给这些新的作业,以使得每一个作业都大概获取到等量的CPU时间。


四、系统接入管理

外部用用系统应用工程全部部署在堡垒机专有用户下的目录中,同时只将部署在堡垒机上的应用作为后台处理使用。



        通过以上设置,一个大数据平台可以从三个视角实现多用户隔离:

        一是逻辑隔离。

        从租户的角度出发,每个租户都有自己独立的逻辑模型,拥有自己独立的资源以及基于相同的逻辑模型实现的统一授权模型。

        二是资源隔离。

        对于不同租户的任务,在集群运行时,能够实现统一的、全局最优的任务调度能力以及资源隔离能力。

        三是运行隔离机制。

        用户任务请求运行在yarn调度上,相互无影响,各进行隔离。


目前在工作中才开始使用ranger作为目录权限控制,后续待将以下整体实现下,然后将各个部署再总结下。好的总结是成功的开始,Good Luck。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容