编程珠玑 第一章总结

第一章只介绍了一个问题,我将问题重新描述一下

  • input:一个最多含有n个正整数的文件,每个数都小于n,n = 10^7,输入文件中没有任何整数重复
  • output:升序排列的整数列表

程序设计:
思路1:磁盘归并排序
思路2:多趟排序 (这种思路相当于每次先寻找在[start - end]中的数,然后再排序, 略)
思路3:位图排序

磁盘归并排序:
本质也就是多路归并算法,先将大文件分成多个小文件,每个小文件可放入内存中排序,这里的排序算法,我认为可以任意的排序算法,归并排序效率高,但是需要分配额外的内存空间, 这里我先采用快速排序算法。最后将多个小文件依次按照放入最小堆中,每轮弹出一个数,存在一个临时文件里。

为了简化操作,我只是把整个算法实现一遍,当然没有用大数据量去做。
快速排序算法(这是最原始的一种):

void qsort1(vector<int> &nums, int l, int u) {
    if (l < u) {
        int m = l;
        for (int i = l + 1; i <= u; i++) {
            int num = nums[i];
            if (num < nums[l]) {
                swap(nums[++m], nums[i]);

            }
        }
        swap(nums[m], nums[l]);
        qsort1(nums, l, m - 1);
        qsort1(nums, m + 1, u);
    }
}

然后我在1.txt,2.txt,3.txt随意放了一些数字,将各个小文件排序后重新写入文件中,代码如下:

int getInt(vector<int> &res_array, string s) {
    istringstream iss(s);
    int e, res;
    while(iss >> e)
    {
        res_array.push_back(e);
        res++;
    }
    return res;
}
void from_file(vector<int> &r, fstream& infile) {
    string s;
    while(getline(infile, s))
    {
        getInt(r, s);
    }
}

void write_file(vector<int> &r, fstream& infile) {
    for (auto i: r) {
        infile << i << " ";
    }
}

最小堆可以用stl中的优先队列,优先队列和最大堆(最小堆的区别)具体实现,等我有空再写。
为了简化操作,我直接在内存中采用多路归并排序。
基于文件的多路归并操作先从各个文件中取出一个数,放入优先队列中,然后pop出一个数,然后从这个数对应的文件中再取一个数放入优先队列,如此循环。

最终的测试代码如下:

#include <iostream>
#include <sstream>
#include <fstream>
#include <vector>
#include <queue>
#include <functional>
#include <unordered_map>
using namespace std;
class element {
public:
    element() {}
    element(int i, int x): index(i), n(x) {};
    int get_index() const{
        return index;
    }
    int get_n() const {
        return n;
    }
    bool operator < (const element&) const;
private:
    int index;
    int n;
};
bool element::operator < (const element& e) const{
    return n >= e.n;
}
void quick_sort(vector<int> &v, int l, int u) {
    if (l >= u) {
        return;
    }
    int m = l;
    for (int i = l + 1; i <= u; i++) {
        if (v[i] < v[l]) {
            swap(v[++m], v[i]);
        }
    }
    swap(v[l], v[m]);
    quick_sort(v, l, m - 1);
    quick_sort(v, m + 1, u);
}
int getInt(vector<int> &res_array, string s) {
    istringstream iss(s);
    int e, res;
    while(iss >> e)
    {
        res_array.push_back(e);
        res++;
    }
    return res;
}
void from_file(vector<int> &r, fstream& infile) {
    string s;
    while(getline(infile, s))
    {
        getInt(r, s);
    }
}

void write_file(vector<int> &r, fstream& infile) {
    for (auto i: r) {
        infile << i << " ";
    }
}

int main(int argc, char *argv[]) {
    vector<vector<int>> v(3, vector<int>());
    fstream f1;
    fstream f2;
    fstream f3;
    f1.open("1.txt", fstream::out | fstream::in);
    f2.open("2.txt", fstream::out | fstream::in);
    f3.open("3.txt", fstream::out | fstream::in);
    from_file(v[0], f1);
    from_file(v[1], f2);
    from_file(v[2], f3);
    f1.close();
    f1.clear();
    f2.close();
    f2.clear();
    f3.close();
    f3.clear();
    for (int i = 0; i < v.size(); i++) {
        quick_sort(v[i], 0, v[i].size() - 1);
    }
    unordered_map<int, vector<element>> m;
    for (int i = 0; i < 3; i++)
    {
        vector<element> e;
        for (auto j: v[i]) {
            e.push_back(element(i, j));
        }
        m[i] = e;
    }
    for (auto i: m[2]) {
        cout << i.get_n() <<endl;
    }
    priority_queue<element> q;
    int p[3] = {0, 0, 0};
    for (int i = 0; i <3 ;i++) {
        q.push(m[i][0]);
    }
    vector<int> res;
    while (!q.empty()) {
        cout << "get_n" << q.top().get_n() << endl;
        cout << "get_index " << q.top().get_index() << endl;
        res.push_back(q.top().get_n());
        p[q.top().get_index()]++;
        int index = q.top().get_index();
        if (p[index] >= v[index].size()) {
            ;
        }else {
            q.push(m[index][p[index]]);
        }
        q.pop();
    }
    for (auto i: res) {
        cout << i << endl;
    }
    return 0;
}

位图法的实现

首先位图法是用每个bit的位置来表征数的大小的,力求将所有的数放入内存中,然后按序搜索输出即可。
位图法存在以下要求:
正整数不重复全部放入内存中
如果能满足,自然是极快的,因为磁盘i/o开销的时间是内存开销时间的几十倍。
需要实现的功能:
整数到内存空间的映射。
主要api:

unsigned int bit[N]
#define SHIFT 5
#define MAXLINE 32
#define MASK 0x1F

void setbit(int *bm, int i) {
    bm[i >> SHIFT] |= ( 1 << (I & MASK));
}

bool getbit(int *bm, int i) {
    return bm[i >> SHIFT] & (1 << (I & MASK));
}

i & MASK 相当于i %32 ,求位位置 ; i >> SHIFT 相当于 i / 32算字节位置。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容

  • 摘要:本文将向您讲述诸多数据处理面试题以及方法的总结。 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出...
    拾壹北阅读 1,690评论 0 28
  • 概述 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部...
    蚁前阅读 5,164评论 0 52
  • 概述:排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部...
    每天刷两次牙阅读 3,726评论 0 15
  • 教你如何迅速秒杀掉:99%的海量数据处理面试题 本文经过大量细致的优化后,收录于我的新书《编程之法》第六章中,新书...
    Helen_Cat阅读 7,399评论 1 39
  • 陪你看 日出 日落 陪你看 春雨 夏花 秋叶 冬雪
    学理的伪文青阅读 218评论 0 1