huffman编码

huffman编码简介

python实现

开头

    # -*- coding: utf-8 -*-
    import heapq
    import collections
    import json

    import io
    from BitVector import BitVector # 网上的bitbector实现
    import hashlib
    import sys
    import time
    import base64

二叉树类

class TreeNode(object):
    def __init__(self, key=None, val=None, code=None):
        self.key, self.val, self.code = key, val, code
        self.left = None
        self.right = None

    def __cmp__(self, other):
        return cmp(self.val, other.val)

    def __repr__(self):
        return 'key=%s\nval=%s\ncode=%s' % (self.key, self.val, self.code)

定义装饰器用于计时

def caltime(func):
    def wrapper(*args, **kwargs):
        st = time.clock()
        res = func(*args, **kwargs)
        print '%s take %.3f s...' % (func.__name__, time.clock()-st)
        return res
    return wrapper

定义huffman类

class Huffman(object):
    def __init__(self, raw_name, action='zip'):
        self.raw_name = raw_name
        if action=='zip':
            with open(self.raw_name, 'rb') as f:
                self.data = f.read()
            self.save_name = raw_name + '.hfm'
        elif action=='unzip':
            if not raw_name.endswith('.hfm'):
                raise IOError('file name must be ends with .hfm')
            self.save_name = raw_name.rsplit('.', 1)[0]

        self.root_node = None
        self.encode_dict = None
        self.tree_str = None

    @caltime
    def _build_heap(self):
        count = collections.Counter(self.data)
        count_list = count.items()
        return [TreeNode(key=ord(x[0]), val=x[1]) for x in count_list]

    @caltime
    def _build_huffman_tree(self):
        heap = self._build_heap()
        while heap:
            left_node = heapq.heappop(heap)
            right_node = heapq.heappop(heap)
            parent_node = TreeNode(val=left_node.val+right_node.val)
            parent_node.left = left_node
            parent_node.right = right_node
            if heap:
                heapq.heappush(heap, parent_node)
            else:
                return parent_node

    # =========================================================== #
    # 进行huffman编码，返回编码字典
    # =========================================================== #
    @caltime
    def _huffman_encode(self):
        def huffman_encode_helper(nd, cur_code=''):
            encode_dict = {}
            if nd.left is None and nd.right is None:
                nd.code = cur_code
                encode_dict.update({nd.key: nd.code})
            if nd.left:
                encode_dict.update(huffman_encode_helper(nd.left, cur_code+'0'))
            if nd.right:
                encode_dict.update(huffman_encode_helper(nd.right, cur_code+'1'))
            return encode_dict

        self.root_node = self._build_huffman_tree()
        self.encode_dict = huffman_encode_helper(self.root_node)
        self.tree_str = self._serialize_huffman_tree()

    # =========================================================== #
    # huffman树序列化
    # =========================================================== #
    @caltime
    def _serialize_huffman_tree(self):
        def pre_order(nd):
            if nd is None:
                return ['#']
            output = [[nd.key, nd.code]] if nd.key is not None else [None]
            output += pre_order(nd.left)
            output += pre_order(nd.right)
            return output
        return json.dumps(pre_order(self.root_node))

    # =========================================================== #
    # 按照码本进行字符压缩
    # =========================================================== #
    @caltime
    def huffman_zip(self):
        print 'start huffman encoding...'
        self._huffman_encode()
        new_data = ''.join([self.encode_dict[ord(x)] for x in self.data])
        bit_sz = len(new_data)
        pad_sz = 8 - bit_sz%8
        new_data += '0'*pad_sz
        # bit_data = BitVector(bitstring=new_data) # 使用BitVector很慢
        byte_data = []
        for ii in range(0, len(new_data), 8):
            bit = 0
            for j in range(8):
                bit = (bit<<1) + int(new_data[ii+j])
            byte_data.append(chr(bit))

        print 'save to %s...' % self.save_name
        with open(self.save_name, 'wb') as fp:
            # 把序列化的huffman树写在前面
            fp.write('%s-%s-%s-' % (len(self.tree_str), self.tree_str, bit_sz))
            # bit_data.write_to_file(fp)
            fp.writelines(byte_data)

    # =========================================================== #
    # huffman树反序列化，重建树
    # =========================================================== #
    @caltime
    def _deserialize_huffman_tree(self):
        def pre_order(node_list):
            nd_data = node_list.pop(0)
            if nd_data=='#':
                return None
            nd = TreeNode(key=chr(nd_data[0]), code=nd_data[1]) if isinstance(nd_data, list) else TreeNode()
            nd.left = pre_order(node_list)
            nd.right = pre_order(node_list)
            return nd

        return pre_order(json.loads(self.tree_str))

    # =========================================================== #
    # huffman解压缩
    # =========================================================== #
    @caltime
    def huffman_unzip(self):
        with open(self.raw_name, 'rb') as fp:
            n_tree = ''
            while 1:
                c = fp.read(1)
                if c!='-':
                    n_tree += c
                else:
                    break
            ## 重建huffman树
            print 'start huffman decoding...'
            self.tree_str = fp.read(int(n_tree))
            self.root_node = self._deserialize_huffman_tree()
            fp.read(1)
            n_data = ''
            while 1:
                c = fp.read(1)
                if c!='-':
                    n_data += c
                else:
                    break
            n_data = int(n_data)
            byte_data = fp.read()
        ## 保存到文件
        print 'save to %s...' % self.save_name
        nd = self.root_node
        with open(self.save_name, 'wb') as fp:
            ii = 0
            data = []
            while ii<=n_data:
                if nd.left is None and nd.right is None:
                    data.append(nd.key)
                    nd = self.root_node
                else:
                    bit = ord(byte_data[ii/8]) & (128>>ii%8)
                    nd = nd.left if bit==0 else nd.right
                    ii += 1
            fp.writelines(data)

总结

huffman压缩

词频统计

统计每个字符（8位）出现的频率，针对中文编码，每个字节可用 0x?? 表示

构建二叉树

每次取出词频最低的2个字符进行构建（利用堆），并将其父节点加入词库

进行编码

自上而下左0右1给每个叶子节点赋值，得到编码字典字符->二进制序列

压缩

将源文件所有字符按编码字典转换为二进制序列后（需补齐位数为8的倍数）
写入新文件
我在文件头写入了二叉树（编码字典）信息，供解压缩使用

运行结果

start huffman encoding...
_build_heap take 0.079 s...
_build_huffman_tree take 0.116 s...
_serialize_huffman_tree take 0.001 s...
_huffman_encode take 0.123 s...
save to xxx.pdf.hfm...
huffman_zip take 2.759 s...

看一下生成的压缩文件

.hfm文件

huffman解码

重建二叉树

从压缩文件头读入二叉树信息，反序列化后构建二叉树

解码

从文件读入字节流，按位操作，从根节点开始，0左1右，直到叶子节点，
复原出原字符，写入新文件
猜想使用2个线程一个读一个写会不会更快

运行结果

start huffman decoding...
_deserialize_huffman_tree take 0.003 s...
save to xxx.pdf...
huffman_unzip take 1.030 s...

最后编辑于：2017.12.05 01:58:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,924评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,781评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,813评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,264评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,273评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,383评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,800评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,482评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,673评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,497评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,545评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,240评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,802评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,866评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,101评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,673评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,245评论 2赞 341

huffman编码

huffman编码简介

python实现

总结

推荐阅读更多精彩内容