k8s-cni原理

一个 Linux 容器能看见的“网络栈”,实际上是被隔离在它自己的 Network Namespace 当中的。而所谓“网络栈”,就包括了:网卡(Network Interface)、回环设备(Loopback Device)、路由表(Routing Table)和iptables规则。对于一个进程来说,这些要素,其实就构成了它发起和响应网络请求的基本环境。
作为一种最简单的使容器与目标网络联通起来的方法,就是将他以某种形式借用宿主机的网络栈。

借用宿主机网络栈

容器可以声明直接使用宿主机的网络栈(–net=host),即:不开启 Network Namespace,比如:

$ docker run –d –net=host --name nginx-host nginx

在这种情况下,这个容器启动后,直接监听的就是宿主机的80端口。像这样直接使用宿主机网络栈的方式,虽然可以为容器提供良好的网络性能,但也会不可避免地引入共享网络资源的问题,比如端口冲突。所以,在大多数情况下,我们都希望容器进程能使用自己Network Namespace里的网络栈,即:拥有属于自己的IP地址和端口。

Veth设备

这个被隔离的容器进程,要跟其他Network Namespace里的容器进程、甚至宿主机进行交互,需要一个联通到宿主机的连线。通过创建Veth设备可以解决这个问题:

  • veth和其它的网络设备都一样,一端连接的是内核协议栈
  • veth设备是成对出现的,另一端两个设备彼此相连
  • 一个设备收到协议栈的数据发送请求后,会将数据发送到另一个设备上去
    基于以上几点,veth设备非常适合于作为连接不同Network Namespace的连线。
    事实上,我们进入容器看到的网卡,其实就是veth设备的一端,它的另一端在宿主机的主network namespace上。要让容器或者pod具备独立的网络栈,基本上都是从这个veth设备入手进行考虑,在宿主机上添加各种路由策略、网桥等,使容器流量去往正确的方向。

CNI是什么

CNI便是k8s用于实现以上任务的标准接口。通过编写支持这套协议方法的插件,可以实现自己对k8s网络的管理。包括:

  • CNI Plugin负责给容器配置网络,它包括两个基本的接口:
    配置网络: AddNetwork(net NetworkConfig, rt RuntimeConf) (types.Result, error)
    清理网络: DelNetwork(net NetworkConfig, rt RuntimeConf) error
  • IPAM Plugin负责给容器分配IP地址,主要实现包括host-local和dhcp。而虎牙Athena容器云所实现的ip不变的方案,便是通过在ipam plugin中控制ip的分配策略所实现。
    以上两种插件的支持,使得k8s的网络可以支持各式各样的管理模式,当前在业界也出现了大量的支持方案,其中比较流行的比如flannel、calico等。

kubernetes配置了cni网络插件后,其容器网络创建流程为:

  • kubernetes先创建pause容器生成对应的network namespace
  • 调用网络driver,因为配置的是CNI,所以会调用CNI相关代码
  • CNI driver根据配置调用具体的CNI插件
  • CNI插件给pause容器配置正确的网络,pod中其他的容器都是用pause的网络

其中,CNI Plugin是独立的可执行文件,被上层的容器管理平台(kubelet)调用。网络插件只有两件事情要做:把容器加入到网络(AddNetwork)以及把容器从网络中删除(DelNetwork)。
对应于具体的CNI框架内的实现,即两个基本操作ADD和DEL,前者用于加入容器网络,后者用于从容器网络中退出。

当CNI插件被调用时,首先进入main函数,main函数会对环境变量和标准输入中的配置信息进行解析,接着根据解析得到的操作方式(ADD或DEL),转入具体的执行函数完成网络的配置工作。如果是ADD操作,则调用cmdAdd()函数,反之,如果是DEL操作,则调用cmdDel()函数。从宏观角度来看,以上为CNI插件的实现框架主体。

编写自己的cni插件

按照上述说法,由于cni插件是kubelet以二进制的形式调用的,具体实现上主体为cmdAdd,cmdDel两大函数。

package main

import (
...
)

const (
...
)

func cmdAdd(args *skel.CmdArgs) error {
    conf := types.NetConf{}
    if err := json.Unmarshal(args.StdinData, &conf); err != nil {
        log.Errorf("Error loading config from args: %v", err)
        return errors.Wrap(err, "add cmd: error loading config from args")
    }

    versionDecoder := &cniversion.ConfigDecoder{}
    confVersion, err := versionDecoder.Decode(args.StdinData)
    if err != nil {
        return err
    }

    // 在此实现:
    // 1. 调用ipam plugin接口进行ip申请
    // 2. 容器及宿主机各自网络栈内的操作,如创建veth,配置ip地址,配置路由等

    ips := []*current.IPConfig{{Version: "4", Address: *ipnet}}

    result := &current.Result{
        IPs: ips,
    }

    return cnitypes.PrintResult(result, confVersion)
}

func cmdDel(args *skel.CmdArgs) error {
    conf := types.NetConf{}
    if err := json.Unmarshal(args.StdinData, &conf); err != nil {
        log.Errorf("Error loading config from args: %v", err)
        return errors.Wrap(err, "add cmd: error loading config from args")
    }

    versionDecoder := &cniversion.ConfigDecoder{}
    confVersion, err := versionDecoder.Decode(args.StdinData)
    if err != nil {
        return err
    }

    // 在此实现:
    // 1. 调用ipam plugin接口进行ip释放
    // 2. 容器及宿主机各自网络栈内的操作,如删除veth,删除路由等

    return nil
}

func main() {
    log.SetLevel(log.DebugLevel)
    ConfigLocalFilesystemLogger(logPath, 24*60*time.Hour, 24*time.Hour)
    exitCode := 0

    if e := skel.PluginMainWithError(cmdAdd, nil, cmdDel, cniversion.All, "<版本说明等信息>"); e != nil {
        exitCode = 1
        log.Error("Failed CNI request: ", e)
        if err := e.Print(); err != nil {
            log.Error("Error writing error JSON to stdout: ", err)
        }
    }

    os.Exit(exitCode)
}

至于其中ipam接口如何调用,则不一定按照官方的ipam plugin规范编写,甚至可将ipam相关逻辑结合到cni plugin中。也可以独立服务,并通过API、RPC等方式调用。

坑在哪

本文介绍了容器网络CNI插件的原理,简化后的代码接口清晰简洁,主体流程围绕在:解析参数、执行add/del、返回结果上,按照CNI规范的结构编写配置、入参、返回值,可实现简单CNI逻辑。
但CNI特点在于具体的网络配置、网络连通方案、ip分配方案可由插件自定义,k8s仅负责调用。因此CNI的出现,使k8s网络架构更为灵活多变,也引入了更加复杂的因素:

  • 因为k8s与容器网络的相对分离,容易形成容器的声明周期与其网络资源的生命周期相脱节
    kubelet通过pleg进行的pod声明周期管理,使pod可控,但容器网络不可控。CNI的编写上,需要支持上层(kubelet)调用的多次重入及幂等,且pod与cni无强依赖,容易导致容器网络遗漏、残留等问题发生。
    因此,在cni插件编写上,需进行更多的一致性校验及补漏、清理工作。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,529评论 5 475
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,015评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,409评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,385评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,387评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,466评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,880评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,528评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,727评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,528评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,602评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,302评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,873评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,890评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,132评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,777评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,310评论 2 342

推荐阅读更多精彩内容