2.Linux内核学习之进程调度初探（2）进程调度的实现（CFS）

1 概述

CFS的代码在kernel/sched_fair.c中实现，其中最重要的为这四个部分：
时间记账
进程选择
调度器入口
睡眠与唤醒

2 时间记账

调度器需要对进程的运行时间进行记账，这样才可以得知进程的运行时间，从而在当前运行的进程时间片减少为0时，调度其他时间片不为0的进程进行抢占。

2.1 调度器实体结构

在Linux中，CFS使用调度器实体结构（在<linux/sched.h>中定义）来追踪进程进行记账，这个结构体被命名为se，然后作为成员变量嵌入到进程描述符task_struct中。下面是调度器实体结构对应的头文件代码：

struct sched_entity {
    struct load_weight  load;       /* for load-balancing */
    struct rb_node      run_node;
    struct list_head    group_node;
    unsigned int        on_rq;
    u64         exec_start;
    u64         sum_exec_runtime;
    u64         vruntime;              /*虚拟实时变量*/
    u64         prev_sum_exec_runtime;
    u64         nr_migrations;
#ifdef CONFIG_SCHEDSTATS
    struct sched_statistics statistics;
#endif
#ifdef CONFIG_FAIR_GROUP_SCHED
    struct sched_entity *parent;
    /* rq on which this entity is (to be) queued: */
    struct cfs_rq       *cfs_rq;
    /* rq "owned" by this entity/group: */
    struct cfs_rq       *my_q;
#endif
};

2.2 虚拟实时

在Linux内核中，CFS通过虚拟实时来实现，调度器实体结构中使用进行vruntime表示。vruntime中存放了进程的虚拟运行时间（指进程运行的时间和），同时vruntime的计算经过了所有进程的标准化计算（加权计算）。所谓的标准化计算就是i通过nice值的处理器权重映射完成虚拟运行时间的计算。
在进程调度的策略中提到，在进行进程选择时CFS会统计两个重要的概念：实际运行时间和理想运行时间。通过这两个之比来选择下一个执行的进程。而在实际中，linux 的CFS使用虚拟实时来实现这一统计，通过时间记账功能记录一个进程已经执行的时间和还应该运行的时间。该功能由定义在kernel/sched_fair.c文件中的update_curr()函数实现，需要注意的是这个函数由系统定时器周期性调用，因此vruntime可以准确的测量进程的运行时间。
该函数计算当前进程的执行时间，然后将这个时间存放在delta_exec
然后将执行时间传递给__update_curr()，该函数负责使用当前可运行进程总数对运行时间进行加权运算，然后将权重值和当前运行进程的&&vruntime**相加。下面是两个函数的具体实现。

static void update_curr(struct cfs_rq *cfs_rq)
{
    struct sched_entity *curr = cfs_rq->curr;//获取当前调度实体
    u64 now = rq_of(cfs_rq)->clock;//获取当前时间
    unsigned long delta_exec;

    if (unlikely(!curr))
        return;

    /*
     * 获得最后一次修改负载后当前任务所占用的运行总时间 (this cannot
     * overflow on 32 bits):
     */
    delta_exec = (unsigned long)(now - curr->exec_start);//
    if (!delta_exec)
        return;

    __update_curr(cfs_rq, curr, delta_exec);
    curr->exec_start = now;

    if (entity_is_task(curr)) {
        struct task_struct *curtask = task_of(curr);

        trace_sched_stat_runtime(curtask, delta_exec, curr->vruntime);
        cpuacct_charge(curtask, delta_exec);
        account_group_exec_runtime(curtask, delta_exec);
    }
}

__update_curr(struct cfs_rq *cfs_rq, struct sched_entity *curr,
          unsigned long delta_exec)
{
    unsigned long delta_exec_weighted;

    schedstat_set(curr->statistics.exec_max,
              max((u64)delta_exec, curr->statistics.exec_max));

    curr->sum_exec_runtime += delta_exec;
    schedstat_add(cfs_rq, exec_clock, delta_exec);
    delta_exec_weighted = calc_delta_fair(delta_exec, curr);

    curr->vruntime += delta_exec_weighted;
    update_min_vruntime(cfs_rq);
}

3 进程选择

在进程调度策略中提到过，在CFS中进程选择是通过实际运行时间和理想运行时间的比较得出的。但是在具体实现中，只使用了vruntime来选择下一个执行的进程，CFS的调度器会选择vruntime最小的进程来进行执行。

3.1 查找

在CFS中为了更快的寻找到具有最小vruntime的进程，其使用了红黑树对可运行进程进行组织。根据红黑树的原理，具有最小的vruntime的进程必定在红黑树的最左叶子节点。所以仅仅需要遍历就可以找到下一个执行的进程。该功能定义在kernel/sched_fair.c的pick_next_entity()函数中。需要注意的是，可执行进程红黑树中没有最左子节点（为空时），表示没有可以运行的进程，但是CFS调度器不会等待，而是调度一个空进程idle来进行运行。

static struct sched_entity *pick_next_entity(struct cfs_rq *cfs_rq)
{
    struct sched_entity *se = __pick_next_entity(cfs_rq);
    struct sched_entity *left = se;

    if (cfs_rq->next && wakeup_preempt_entity(cfs_rq->next, left) < 1)
        se = cfs_rq->next;

    /*
     * Prefer last buddy, try to return the CPU to a preempted task.
     */
    if (cfs_rq->last && wakeup_preempt_entity(cfs_rq->last, left) < 1)
        se = cfs_rq->last;

    clear_buddies(cfs_rq, se);

    return se;
}

3.2 添加可执行进程

向可执行进程红黑树中添加进程时，CFS的实现采用了缓存的方法，当新加入的进程时最左子节点时，那么取代已经缓存的当前最左子节点，否则当前缓存的最左叶子节点不变，通过这种方法可以有效减少最左叶子节点的遍历。该功能定义在kernel/sched_fair.c的enqueue_entity()函数中。但是该函数只是更新时间和一些统计数据，具体插入工作则由__enqueue_entity函数完成。

static void
enqueue_entity(struct cfs_rq *cfs_rq, struct sched_entity *se, int flags)
{
    /*
     * Update the normalized vruntime before updating min_vruntime
     * through callig update_curr().
     */
    if (!(flags & ENQUEUE_WAKEUP) || (flags & ENQUEUE_WAKING))
        se->vruntime += cfs_rq->min_vruntime;

    /*
     * Update run-time statistics of the 'current'.
     */
    update_curr(cfs_rq);
    account_entity_enqueue(cfs_rq, se);

    if (flags & ENQUEUE_WAKEUP) {
        place_entity(cfs_rq, se, 0);
        enqueue_sleeper(cfs_rq, se);
    }

    update_stats_enqueue(cfs_rq, se);
    check_spread(cfs_rq, se);
    if (se != cfs_rq->curr)
        __enqueue_entity(cfs_rq, se);
}

/*
 * Enqueue an entity into the rb-tree:
 */
static void __enqueue_entity(struct cfs_rq *cfs_rq, struct sched_entity *se)
{
    struct rb_node **link = &cfs_rq->tasks_timeline.rb_node;
    struct rb_node *parent = NULL;
    struct sched_entity *entry;
    s64 key = entity_key(cfs_rq, se);
    int leftmost = 1;

    /*
     * Find the right place in the rbtree:
     */
    while (*link) {//遍历查找合适的插入位置
        parent = *link;
        entry = rb_entry(parent, struct sched_entity, run_node);
        /*
         * We dont care about collisions. Nodes with
         * the same key stay together.
         */
        if (key < entity_key(cfs_rq, entry)) {//当插入键值小于当前节点的键值时
            link = &parent->rb_left;
        } else {
            link = &parent->rb_right;
            leftmost = 0;
        }
    }

    /*
     * Maintain a cache of leftmost tree entries (it is frequently
     * used):
     */
    if (leftmost)//对最常用的最左叶子节点进行缓存
        cfs_rq->rb_leftmost = &se->run_node;

    rb_link_node(&se->run_node, parent, link);
    rb_insert_color(&se->run_node, &cfs_rq->tasks_timeline);
}

3.3 删除不可执行的进程

当然还有一个删除节点的函数，这个功能在进程阻塞时，负责将代表可执行进程的节点移出红黑树。该功能定义在kernel/sched_fair.c的dequeue_entity()函数中，当然和插入一样该函数完成的也只是一些统计工作，具体删除是由__dequeue_entity()函数完成的。

static void
dequeue_entity(struct cfs_rq *cfs_rq, struct sched_entity *se, int flags)
{
    u64 min_vruntime;

    /*
     * Update run-time statistics of the 'current'.
     */
    update_curr(cfs_rq);

    update_stats_dequeue(cfs_rq, se);
    if (flags & DEQUEUE_SLEEP) {
#ifdef CONFIG_SCHEDSTATS
        if (entity_is_task(se)) {
            struct task_struct *tsk = task_of(se);

            if (tsk->state & TASK_INTERRUPTIBLE)
                se->statistics.sleep_start = rq_of(cfs_rq)->clock;
            if (tsk->state & TASK_UNINTERRUPTIBLE)
                se->statistics.block_start = rq_of(cfs_rq)->clock;
        }
#endif
    }

    clear_buddies(cfs_rq, se);

    if (se != cfs_rq->curr)
        __dequeue_entity(cfs_rq, se);
    account_entity_dequeue(cfs_rq, se);

    min_vruntime = cfs_rq->min_vruntime;
    update_min_vruntime(cfs_rq);

    /*
     * Normalize the entity after updating the min_vruntime because the
     * update can refer to the ->curr item and we need to reflect this
     * movement in our normalized position.
     */
    if (!(flags & DEQUEUE_SLEEP))
        se->vruntime -= min_vruntime;
}

static void __dequeue_entity(struct cfs_rq *cfs_rq, struct sched_entity *se)
{
    if (cfs_rq->rb_leftmost == &se->run_node) {
        struct rb_node *next_node;

        next_node = rb_next(&se->run_node);
        cfs_rq->rb_leftmost = next_node;
    }

    rb_erase(&se->run_node, &cfs_rq->tasks_timeline);
}

4 调度器入口

进程调度其的主要入口函数为Schedule()，其定义在kernel/sched.c中。这个函数时内核其他部分调用进程调度器的入口。Schedule()函数首先找到一个最高优先级的调度类（该调度类有自己的可执行队列），然后Schedule函数再由这个调度类将下一个进行运行的进程告知Schedule函数。Schedule函数最重要的工作由pick_next_task()函数来完成，该函数会以优先级为次序，从高到低检查每一个调度类，并且从最高优先级的调度类中选择最高优先级的进程。

/*
 * schedule() is the main scheduler function.
 */
asmlinkage void __sched schedule(void)
{
    struct task_struct *prev, *next;
    unsigned long *switch_count;
    struct rq *rq;
    int cpu;

need_resched:
    preempt_disable();
    cpu = smp_processor_id();
    rq = cpu_rq(cpu);
    rcu_note_context_switch(cpu);
    prev = rq->curr;
    switch_count = &prev->nivcsw;

    release_kernel_lock(prev);
need_resched_nonpreemptible:

    schedule_debug(prev);

    if (sched_feat(HRTICK))
        hrtick_clear(rq);

    raw_spin_lock_irq(&rq->lock);
    clear_tsk_need_resched(prev);

    if (prev->state && !(preempt_count() & PREEMPT_ACTIVE)) {
        if (unlikely(signal_pending_state(prev->state, prev)))
            prev->state = TASK_RUNNING;
        else
            deactivate_task(rq, prev, DEQUEUE_SLEEP);
        switch_count = &prev->nvcsw;
    }

    pre_schedule(rq, prev);

    if (unlikely(!rq->nr_running))
        idle_balance(cpu, rq);

    put_prev_task(rq, prev);
    next = pick_next_task(rq);

    if (likely(prev != next)) {
        sched_info_switch(prev, next);
        perf_event_task_sched_out(prev, next);

        rq->nr_switches++;
        rq->curr = next;
        ++*switch_count;

        context_switch(rq, prev, next); /* unlocks the rq */
        /*
         * the context switch might have flipped the stack from under
         * us, hence refresh the local variables.
         */
        cpu = smp_processor_id();
        rq = cpu_rq(cpu);
    } else
        raw_spin_unlock_irq(&rq->lock);

    post_schedule(rq);

    if (unlikely(reacquire_kernel_lock(current) < 0)) {
        prev = rq->curr;
        switch_count = &prev->nivcsw;
        goto need_resched_nonpreemptible;
    }

    preempt_enable_no_resched();
    if (need_resched())
        goto need_resched;
}

/*
 * Pick up the highest-prio task:
 */
static inline struct task_struct *
pick_next_task(struct rq *rq)
{
    const struct sched_class *class;
    struct task_struct *p;

    /*
     * Optimization: we know that if all tasks are in
     * the fair class we can call that function directly:
     */
    if (likely(rq->nr_running == rq->cfs.nr_running)) {
        p = fair_sched_class.pick_next_task(rq);
        if (likely(p))
            return p;
    }

    class = sched_class_highest;
    for ( ; ; ) {
        p = class->pick_next_task(rq);
        if (p)
            return p;
        /*
         * Will never be NULL as the idle class always
         * returns a non-NULL p:
         */
        class = class->next;
    }
}

5 睡眠与唤醒

当进程被阻塞时会处于一个不可执行的状态，这个状态也被称为睡眠状态，调度程序不能够选择一个处于睡眠状态的进程执行，进程在等待一些事件的发生时就会处于这个状态。而唤醒则是处于睡眠状态的进程等待的事件发生，那么进程就会处于可执行状态，其会被亦儒道可执行红黑树中。

5.1 等待队列

睡眠的进程都会存放在等待队列中，内核使用wake_queue_head_t来代表等待队列。等待队列有两种实现方式，分别为DECLARE_WAITQUEUE()静态创建和init_waitqueue_head()动态创建。在阻塞时进程会把自己放入等待队列并设置自己为不可执行状态，当阻塞的事件发生时，队列上的进程会唤醒。
进程加入等待队列有以下步骤：

1. 调用宏DEFINE_WAIT()创建一个等待队列；
2. 调用add_wait_queue()把自己加入到队列中。进程会在等待的条件唤醒，所以需要在其他地方撰写相应的唤醒条件代码，当等待的事件发生时，可以执行wake_up()操作；
3. 调用prepare_to_wait()方法将进程状态设置为TASK_INTERRUPTIBLE或者TASK_UNINTERRUPTIBLE。当循环遍历时，该函数还可以把进程加回到等待队列；
4. 状态为TASK_INTERRUPTIBLE的进程可以被信号唤醒。这个唤醒为伪唤醒，因为进程等待的事件并未发生；
5. 进程被唤醒时，检查等待的事件是否发生。发生则退出休眠，不发生则循环调用Schedule()函数；
6. 等待的事件发生时，进程会将自己设置为TASK_RUNNING然后调用finish_wait()方法推出等待队列；

需要注意的是，当进程休眠前其所等待的事件发生时，进程就不会进入休眠状态。
函数inotify_read()函数是等待队列的一个典型用法，其负责从通知文件描述符中读取信息，该函数在fs/notify/inotify/inotify_user.c中实现。

static ssize_t inotify_read(struct file *file, char __user *buf,
                size_t count, loff_t *pos)
{
    struct fsnotify_group *group;
    struct fsnotify_event *kevent;
    char __user *start;
    int ret;
    DEFINE_WAIT(wait);

    start = buf;
    group = file->private_data;

    while (1) {
        prepare_to_wait(&group->notification_waitq, &wait, TASK_INTERRUPTIBLE);

        mutex_lock(&group->notification_mutex);
        kevent = get_one_event(group, count);
        mutex_unlock(&group->notification_mutex);

        if (kevent) {
            ret = PTR_ERR(kevent);
            if (IS_ERR(kevent))
                break;
            ret = copy_event_to_user(group, kevent, buf);
            fsnotify_put_event(kevent);
            if (ret < 0)
                break;
            buf += ret;
            count -= ret;
            continue;
        }

        ret = -EAGAIN;
        if (file->f_flags & O_NONBLOCK)
            break;
        ret = -EINTR;
        if (signal_pending(current))
            break;

        if (start != buf)
            break;

        schedule();
    }

    finish_wait(&group->notification_waitq, &wait);
    if (start != buf && ret != -EFAULT)
        ret = buf - start;
    return ret;
}

5.2 唤醒

唤醒操作在前面也提到过是通过wake_up()函数完成的，其会唤醒制定的等待队列上的所有进程。在wake_up()函数中函数如下：
首先，调用了try_to_wake_up()去将进程状态设置为TASK_RUNNING状态；
其次，调用enqueue_task()函数将进程放入可执行红黑树中；
最后，若被唤醒的进程优先级高于当前正在执行的进程，设置need_resched()标志；

这是个人在阅读《Linux内核设计与实现》时候的一点心得，里面加入了一些自己关于操作系统的理解，对自己的现有的知识进行梳理，如有错误敬请指正。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342