八、外部排序

八、外部排序

前面第七章介绍了内部排序需要把待排序数据全部放入内存中,然后再排序。这就限制了待排序数据的规模。当数据量特别大时,程序的内存空间有可能放不下。所以我们需要把大文件分几次读入内存,对每次读入的数据进行内部排序,生成几个有序的子文件;再将这几个有序文件通过外部排序方法归并到一个有序大文件中。

1. 多路平衡归并

将多个有序子文件归并成一个有序大文件时,每归并一次就要在外存读入一次数据。如果要减少归并次数,就要进行多路归并(同时将几个文件进行归并)。而多路归并要在多个关键字中比较,才能找到最小值。利用 “败者树” 可减少比较次数。

“败者树” 是一棵完全二叉树,因此用顺序结构存储。但它是由两种不同类型的结点组成的:
(1)叶子结点:是外部结点,其类型为数据类型。每个叶子结点中的值为从相应的有序子文件读出的当前数据。叶子结点的个数恰为待归并的文件数 k 。
(2)非叶子结点:是度为 2 的内部结点,其类型为整型,存储叶子结点的序号。根结点在 [1] 。非叶子结点的个数 = k(叶子结点的个数)-1 。

每个非叶子结点中的值为其左右两棵子树中的两个胜者相比时,其中败者的序号,胜者再向上一级去比较。

最终的胜者结点的序号存于败者树的根节点之上的 [0] ,再存于大文件中。胜者原先所在的有序子文件的下一个数据取代胜者在叶子结点中的位置,继续比较,求出新的胜者。和堆排序类似,在继续比较时,它不必和所有叶子的关键字去比较,只须沿着从相应的叶子到根的路径去调整 “败者树” 。这就大大减少了比较次数。

一个新的叶子结点取代胜者加入到这棵 “败者树” 中,要形成新的 “败者树” ,即求出新的最小值,需要进行比较的次数 = 这个结点所在层数 - 1 。

实现

//败者树类
template<typename D>class LoserTree
{//带模板的败者树类
private:
  int k;  //k 路归并
  int *ls;  //败者树非叶子结点指针
  D *b;  //败者树叶子结点指针
  ifstream *fin;
  ofstream fout;
  void Adjust(int i)
  {//沿着叶子结点 b[i] 到根结点 ls[1] 的路径调整败者树,胜者存 ls[0]
    int t;
    t = (i + k) / 2;
    while(t > 0)
    {
      if GT(b[i].key, b[ls[t]].key)
        swap(i, ls[t]);
      t = t / 2;
    }
    ls[0] = i;
  }
  void CreateLoserTree()
  {//沿着序号最大的叶子到根的 k 条路径将 ls 调整成为败者树
    int i;
    b[k].key = MIN;
    for(i = 1; i < k; i++)
      ls[i] = k;
    for(i = k-1; i >= 0; i--)
      Adjust(i);
  }
public:
  LoserTree(int num)
  {//构造函数
    k = num;
    ls = new int[k];
    b = new D[k + 1];
    fin = new ifstream[k];
    char s[7] = "F0.txt";  //文件名
    for(int i = 0; i < k; i++)
    {
      s[i] = i + '0';  //将数字 i 转换为字符
      fin[i].open(s, ios::in);
    }
    s[i] = k + '0';
    fout.open(s, ios::out);
  }
  ~LoserTree()
  {//析构函数
    delete[] ls;
    delete[] b;
    for(int i = 0; i < k; i++)
      fin[i].close();
    delete[] fin;
    fout.close();
  }
  void K_Merge()
  {//k 路归并
    int j = 0;
    for(int  i = 0; i < k; i++)
      InputFromFile(fin[i], b[i]);
    CreateLoserTree();
    char s[7] = "F0.txt";  //文件名
    s[1] = k + '0';
    cout << "有序大文件" << s << "的数据为" << endl;
    while(b[ls[0]].key != MAX)
    {
      visit(b[ls[0]]);
      if (++j % M == 0)
        cout << endl;
      OutputFile(fout, b[ls[0]]);
      if (!fin[ls[0].eof()])
        InputFromFile(fin[ls[0]], b[ls[0]]);
      else
        b[ls[0]].key = MAX;
      Adjust(ls[0]);
    }
  }
};

2. 置换-选择排序

要提高外部排序的效率,除了选择 “败者树” 归并方法外,还应该尽量使有序子文件较长,从而减少待归并文件的数量。

置换-选择排序采取增多待排序数据个数的方法使生成的有序子文件更长。具体算法是:逐个把已排序的数据送入外存,再从大文件读入一个数据到内存空出的位置,只要这个数据的关键字不小于刚送到外村的关键字,该数据就会排到当前有序子文件中。

置换-选择排序在搜索内存中的最小值时,也是采用败者树。和多路平衡中的败者树不同的是,叶子结点多了一个存储数据段号的 mum 域。如果新读入数据的关键字小于刚送到外存的数据的关键字,则设置新读入数据的段号比刚送到外存的数据的段号大 1 ,标志新读入的数据不排在当前的有序子文件中。

实现

//置换-选择排序类
template<typename D>class Replace_Select
{//带模板的置换-选择排序类
private:
  struct WA  //内存工作区的结构体
  {
    D rec;  //数据
    int rnum;  //所属归并段的段号
  };
  int k;  //k 路归并
  WA *wa;  //内存工作区指针
  int *ls;  //败者树非叶子结点指针
  void Select_MiniMax(int q)
  {//从 wa[q] 起到败者树的根比较选择当前段的最小数据给 ls[0]
    for(int t = (k + q) /2; t > 0; t = t / 2)
      if (LT(wa[ls[t]].rnum, wa[q].rec.key) || EQ(wa[ls[t].rnum, wa[q].rnum]) 
          && LT(wa[ls[t]].rec.key, wa[q].rec.key))
        swap(q, ls[t]);
    ls[0] = q;
  }
  void Construct_Loser(ifstream &f)
  {//输入k个数到wa[],创建败者树ls[],选出关键字最小的数据,ls[0]指示其在wa中的位置
    int i;
    for(i = 0; i < k; i++)
      wa[i].rnum = ls[i] = 0;
    for(i = k-1; i >= 0; i--)
    {
      InputFromFile(f, wa[i].rec);
      wa[i].rnum = 1;
      Select_MiniMax(i);
    }
  }
  void get_run(int rec, int &rmax, ifstream &fi, ofstream &fo)
  {//求得一个归并段,fi 为输入文件指针, fo 为输出文件指针,rc 为当前段
    int q;
    KeyType minimax;
    while(wa[ls[0]].rnum == rc)
    {
      q = ls[0];
      minimax = wa[q].rec.key;
      OutputFile(fo, wa[q].rec);
      visit(wa[q].rec);
      InputFromFile(fi, wa[q].rec);
      if (fi.eof())
        wa[q].rnum = rmax + 1;
      else
      {
        if LT(wa[q].rec.key, minimax)
        {
          rmax = rc + 1;
          wa[q].rnum = rmax;
        }
        else
          wa[q].rnum = rc;
      }
      Select_MiniMax(q);
    }
  }
public:
  Replace_Select(int num)
  {//构造函数,num 为内存工作区可容纳的数据个数
    k = num;
    ls = new int[k];
    wa = new WA[k];
  }
  ~Replace_Select()
  {//析构函数
    delete[] ls;
    delete[] wa;
  }
  void Replace_Selection(char* FileName)
  {//用置换-选择排序将无序大文件生成若干尽量长的有序子文件
    ifstream fin(FileName);
    int rc, rmax;
    char s[7] = "F0-txt";  //有序子文件名
    Construct_Loser(fin);
    rc = rmax = 1;
    do
    {
      s[1] = rc - 1 + '0';
      ofstream fout(s);
      cout << s << "的内容是";
      get_run(rc, rmax, fin, fout);
      cout << endl;
      fout.close();
      rc = wa[ls[0]].rnum;
    }while(rc <= rmax);
    cout << "共产生" << rc-1 << "个初始归并段文件" << endl;
  }
};
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 因为之前就复习完数据结构了,所以为了保持记忆,整理了一份复习纲要,复习的时候可以看着纲要想具体内容。 树 树的基本...
    牛富贵儿阅读 6,758评论 3 10
  • B树的定义 一棵m阶的B树满足下列条件: 树中每个结点至多有m个孩子。 除根结点和叶子结点外,其它每个结点至少有m...
    文档随手记阅读 13,149评论 0 25
  • 内排序的归并排序是采用二路归并。 将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有...
    Arya鑫阅读 14,145评论 0 10
  • 第一章 绪论 什么是数据结构? 数据结构的定义:数据结构是相互之间存在一种或多种特定关系的数据元素的集合。 第二章...
    SeanCheney阅读 5,735评论 0 19
  • 今天晚上临睡前和女儿聊了会天,说起学校换鞋这回事,女儿说:妈妈今天我们没有换鞋,因为今天有的小朋友没带,老师说明天...
    瑶妈1阅读 63评论 0 0