从源码角度剖析tcp/ip---ip协议（1）

庖丁解牛，从源码角度来深入tcp/ip。----《TCP/IP详解卷2:实现》。

一、简介和介绍

ip协议的是tcp和udp的根本，一般我们只需要了解子网划分，路由转发机制即可。但是底层是怎么实现的呢？毫无疑问，一个顶级的服务端工程师应该从根本从把知识点剖析清楚。下面就让我们从源码的角度解剖ip协议。（关于netinet中的函数，现在的linux代码已经重构过了，所以采用4.4BSD版本的代码。)
（我找了很久）Github地址：https://github.com/neilss/4.4BSD-Lite

image.png

《TCP/IP详解卷2:实现》在第四章中阐述了一个数据包通过网络接口发生硬件中断时，数据包就会放进iprinrq队列中，如上图。而文章主要讲述的是在路由器中，ip层的函数是如何实现的，大体的组织形式如下。

image.png

如果是路由器，当分组来到ipintrq并且发生软件中断时

iprintrq中的分组数据就会传递到ipintr函数让其进行分组验证，转发等等的操作。
ip_forward会根据ip分段和路由表来定位下一条。
最后在ip_ouput就是构造首部，选择路由和分片。

如果是主机的话，数据来到iprintr的时候就会包ip报文传送都网络层。熟悉osi7层结构的应该很清楚，这里就不再阐述了。

一、iprintr

我们可以知道当软中断发生的时候，内核就会调用iprintr把数据包从队列中获取出来。这个函数比较复杂。首先我们先看一下iprintr函数的开头，代码如下。

void
ipintr()
{
    register struct ip *ip;
    register struct mbuf *m;
    register struct ipq *fp;
    register struct in_ifaddr *ia;
    int hlen, s;

next:
    /*
     * Get next datagram off input queue and get IP header
     * in first mbuf.
     */
    s = splimp();
    IF_DEQUEUE(&ipintrq, m);
    splx(s);
    if (m == 0)
        return;
...

我们可以看到iprintr调用IF_DEQUEUE从队列中获取分组数据，iprintr从iprintrq中移走分组，并对以处理直到整个队列为空为止。然后接下来就是分别对分组进行验证，选项处理和转发，重装和分用。

1.分组验证

把分组从ipintrq中取出，验证它们对内容之后。损坏可有差错的分组会被自动丢弃。
1.1. 验证ip版本

    if (in_ifaddr == NULL)
        goto bad;
    ipstat.ips_total++;
    if (m->m_len < sizeof (struct ip) &&
        (m = m_pullup(m, sizeof (struct ip))) == 0) {
        ipstat.ips_toosmall++;
        goto next;
    }
    ip = mtod(m, struct ip *);
    if (ip->ip_v != IPVERSION) {
        ipstat.ips_badvers++;
        goto bad;
    }

当网关接口没有配置好的时候，ip地址会为空。所以分组来到这里的时候就会被中断，跳到bad。可以看到在4.4的BSD实现中，ip版本必须是ipv4的。不过现在已经支持ipv6了。

1.2. IP校验和

    if (ip->ip_sum = in_cksum(m, hlen)) {
        ipstat.ips_badsum++;
        goto bad;
    }

一个完整的IP数据包必须要有完整的校验和，我们可以看到内核已经封装了一个in_cksum来进行校验。
校验和检验是一个很耗时的操作，关于这个in_cksum函数的实现其实有很多优化的地方。这里有很多论文才研究这个算法。这里就不展开了。

1.3. 字节顺序

个人感觉底层最无趣，也是最麻烦的地方就是字节问题。因为操蛋的主机有大端跟小端之分，网络字节顺序跟主机字节顺序不一致的问题贼麻烦。不过操作系统已经帮我们解决了，感谢stevens，以及各个位linux贡献的大神们。

    NTOHS(ip->ip_len);
    if (ip->ip_len < hlen) {
        ipstat.ips_badlen++;
        goto bad;
    }
    NTOHS(ip->ip_id);
    NTOHS(ip->ip_off);

首先把几个16bit的值先转为主机顺序，内核封装了一个宏NTOHS来进行转换。如果首部长度不满足要求，那么就会跳到bad分支。

1.4 分组长度

    if (m->m_pkthdr.len < ip->ip_len) {
        ipstat.ips_tooshort++;
        goto bad;
    }
    if (m->m_pkthdr.len > ip->ip_len) {
        if (m->m_len == m->m_pkthdr.len) {
            m->m_len = ip->ip_len;
            m->m_pkthdr.len = ip->ip_len;
        } else
            m_adj(m, ip->ip_len - m->m_pkthdr.len);
    }

分组的长度是由链路的最小mtu决定，所以是有可能出现分组逻辑长度大于mbuf的数据量的(mbuf是tcp/ip底层存储数据的数据结构，参考《TCP/IP 详解卷2 实现》第一章)

2.选项处理与转发

选项处理实在是太过复杂，这里是介绍不了这么多的。IP数据包有40个字节存储选项，仅仅是RFC定义的IP选项就有8个。我实在是没有精力去看这里了，除非我要做协议栈。至于转发就比较好理解，就是根据根据Internet地址表，决定是否有分组目的地匹配的地址。

    /*
     * Check our list of addresses, to see if the packet is for us.
     */
    for (ia = in_ifaddr; ia; ia = ia->ia_next) {
#define satosin(sa) ((struct sockaddr_in *)(sa))

        if (IA_SIN(ia)->sin_addr.s_addr == ip->ip_dst.s_addr)
            goto ours;
        if (
#ifdef  DIRECTED_BROADCAST
            ia->ia_ifp == m->m_pkthdr.rcvif &&
#endif
            (ia->ia_ifp->if_flags & IFF_BROADCAST)) {
            u_long t;

            if (satosin(&ia->ia_broadaddr)->sin_addr.s_addr ==
                ip->ip_dst.s_addr)
                goto ours;
            if (ip->ip_dst.s_addr == ia->ia_netbroadcast.s_addr)
                goto ours;
            t = ntohl(ip->ip_dst.s_addr);
            if (t == ia->ia_subnet)
                goto ours;
            if (t == ia->ia_net)
                goto ours;
        }
    }
    if (IN_MULTICAST(ntohl(ip->ip_dst.s_addr))) {
        struct in_multi *inm;
#ifdef MROUTING
        extern struct socket *ip_mrouter;
        if (ip_mrouter) {
            ip->ip_id = htons(ip->ip_id);
            if (ip_mforward(m, m->m_pkthdr.rcvif) != 0) {
                ipstat.ips_cantforward++;
                m_freem(m);
                goto next;
            }
            ip->ip_id = ntohs(ip->ip_id);
            if (ip->ip_p == IPPROTO_IGMP)
                goto ours;
            ipstat.ips_forward++;
        }
#endif

        IN_LOOKUP_MULTI(ip->ip_dst, m->m_pkthdr.rcvif, inm);
        if (inm == NULL) {
            ipstat.ips_cantforward++;
            m_freem(m);
            goto next;
        }
        goto ours;
    }

当然了，这里选取下一跳的代码在卷1中是有比较详细的说明的。

2.重装代码

我们可以知道，从网关得到的数据包是已经被分片了的。所以iprintr函数最后是需要把代码重装的。要理解如何重装，首先要理解分片后的ip数据包。如下图。

感觉说再多也不够上图直观，IP分片就是把原来的IP报文分割成若干个更小的IP报文，但是每一个小报文需要重新添加IP首部。然而要对分片重装远比对IP分片复杂得多。再下一篇文章再总结。

回到第一个函数，iprintr函数主要是做验证，处理，重装和分用等等功能。其中转发和重装逻辑很复杂，日后再详细总结。

二、ip_forward函数

这个函数主要是用来对重装后的代码进行重装，不过我不知道为啥在iprintr函数中还要查一遍地址表。＝。＝＃。这个函数主要有三个用途：
1）判断分组转发的合法性
2）减少TTL
3）定位下一跳

void
ip_forward(m, srcrt)
    struct mbuf *m;
    int srcrt;
{
    register struct ip *ip = mtod(m, struct ip *);
    register struct sockaddr_in *sin;
    register struct rtentry *rt;
    int error, type = 0, code;
    struct mbuf *mcopy;
    n_long dest;
    struct ifnet *destifp;

    dest = 0;
#ifdef DIAGNOSTIC
    if (ipprintfs)
        printf("forward: src %x dst %x ttl %x\n", ip->ip_src,
            ip->ip_dst, ip->ip_ttl);
#endif
    if (m->m_flags & M_BCAST || in_canforward(ip->ip_dst) == 0) {
        ipstat.ips_cantforward++;
        m_freem(m);
        return;
    }
    HTONS(ip->ip_id);
    if (ip->ip_ttl <= IPTTLDEC) {
        icmp_error(m, ICMP_TIMXCEED, ICMP_TIMXCEED_INTRANS, dest, 0);
        return;
    }
    ip->ip_ttl -= IPTTLDEC;

第一个用途不用解释了，简而言之就是对“链路层广播，环回广播或者其他寻址查询参数是否正确“。
至于第二点，我们看下面代码。

    if (ip->ip_ttl <= IPTTLDEC) {
        icmp_error(m, ICMP_TIMXCEED, ICMP_TIMXCEED_INTRANS, dest, 0);
        return;
    }
    ip->ip_ttl -= IPTTLDEC;

系统是不接受TTL为0的数据包的，因为每一跳都约定了TTL要减少至少1s，所以实现中就减少IPTTLDEC（宏为1）。如果小于1，那么就向源地址发送ICMP超时报文。
第三点，定位下一跳。
我们看下面代码。

    sin = (struct sockaddr_in *)&ipforward_rt.ro_dst;
    if ((rt = ipforward_rt.ro_rt) == 0 ||
        ip->ip_dst.s_addr != sin->sin_addr.s_addr) {
        if (ipforward_rt.ro_rt) {
            RTFREE(ipforward_rt.ro_rt);
            ipforward_rt.ro_rt = 0;
        }
        sin->sin_family = AF_INET;
        sin->sin_len = sizeof(*sin);
        sin->sin_addr = ip->ip_dst;

        rtalloc(&ipforward_rt);
        if (ipforward_rt.ro_rt == 0) {
            icmp_error(m, ICMP_UNREACH, ICMP_UNREACH_HOST, dest, 0);
            return;
        }
        rt = ipforward_rt.ro_rt;
    }

上面那段代码是检查是否是需要发送重定向报文。出现重定向的原因是上一台主机的路由表太久了，产生了错误的转发。接下来就是选择合适路由器来发送差错报文。

三、ip_output(略）

四、总结

ip协议的处理中，首先是ipintr函数对分组报文进行验证和重装；然后ip_forward对数据包进行转发和定位；最后ip_output对数据包进行分片发送。

源码我花了不少时间去找，最后意识到源码是4.4BSD标准的，跟linux版本无关。本来想说清楚的，但是限于篇幅和自己的理解问题，比较难展开。个人感觉要理解tcp/ip，卷1就可以了。但是要深入tcp/ip，要把socket用好，用透，还是需要从源码上去阅读和理解。

如果说C++是一个骄傲的信仰，那么就让我执着一次自己的信仰吧。

image.png

最后编辑于：2017.12.07 07:22:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,802评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,109评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,683评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,458评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,452评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,505评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,901评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,550评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,763评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,556评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,629评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,330评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,898评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,897评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,140评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,807评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,339评论 2赞 342

从源码角度剖析tcp/ip---ip协议（1）

一、简介和介绍

一、iprintr

1.分组验证

2.选项处理与转发

2.重装代码

二、ip_forward函数

三、ip_output(略）

四、总结

推荐阅读更多精彩内容