OS_dispatch_data 的小探究

背景

QA 报了一个 BUG,部分时间比较长的音频播放失败,经过定位后发现是音频格式判断出了问题,判断方法如下:

#define AMR_MAGIC_NUMBER "#!AMR\n"
+ (BOOL)isAmrData:(NSData *)data {
    BOOL result = NO;
    NSUInteger length = strlen(AMR_MAGIC_NUMBER);// length = 6
    if (data.length > length) {
        NSData *headerData = [data subdataWithRange:NSMakeRange(0, length)];
        NSString *magicNumber = [NSString stringWithUTF8String:[headerData bytes]];
        result = [magicNumber isEqualToString:@AMR_MAGIC_NUMBER];
    }
    return result;
}

这个方法的作用是取二进制数据的前几个字节作为 Magic number 从而判断该二进制是否是 AMR 格式的音频,通过调试发现,当音频二进制数据比较大时,magicNumber 拿到的值一直为 nil,怀疑是对 char* 编码出了问题,打印下 [headerData bytes]

(lldb) po (char *)[headerData bytes]
"#!AMR\n<\xffffffdeU^\xffffff90\xffffffe3\t\xffffff83\xffffff80\xffffff88z\xffffffaf\xfffffff3pT\x16\xffffff80"

好吧,问题就出在这了,前面我用 subdataWithRange 取了前面 6 个字节,但是通过 bytes 返回的地址,去取到的数据却是不止 6 个字节。
通过对比发现当 headerData 的类型为 _NSInlineData 时,bytes 取到的是正确的,而类型为 OS_dispatch_data 取到的是错误的。

(lldb) po [headerData class] // 正确
_NSInlineData
(lldb) po (char *)[headerData bytes]
"#!AMR\n"

==============================

(lldb) po [headerData class] // 错误
OS_dispatch_data
(lldb) po (char *)[headerData bytes]
"#!AMR\n<\xffffffdeU^\xffffff90\xffffffe3\t\xffffff83\xffffff80\xffffff88z\xffffffaf\xfffffff3pT\x16\xffffff80"

通过 Xcode 的 Memory Document,查看正确和错误 bytes 的内存对比发现:
OS_dispatch_data 这个类型用 bytes 方法获取内存地址后,第 7 个字节为 3C, 而能够正常编码的 _NSInlineData 类型,在 7 个字节是 00。
我们因为是用 UTF-8 编码的,一个英文占一个字节,而 00 这个字节对应 ASCII 的第 0 位,也就是空字符(Null),也就是 C 语言中的 '\0',对于表示一串字符串, 它所的意义是“字符串结束符”。
由于 OS_dispatch_data 这个类型的 data,通过 bytes 拿到的值第七位并非 00,所以在编码的时候没有正确的截断导致出现了错误。

image.png

那为什么 OS_dispatch_data 这个类型的 headerData 取得的 bytes 地址指向的内存,第七位不是 00 呢?

看回最开始的源码

NSData *headerData = [data subdataWithRange:NSMakeRange(0, length)];

我们的 headerData 是 data 通过 subdataWithRange 取得的,而通过测试,而如果 data 是 _NSInlineData 这个类型,每次调用 subdataWithRange 创建一个新的对象(比如这里的新对象是 headerData),新的对象再调用 bytes 取得的地址每次都不一样。
而如果 data 是 OS_dispatch_data 类型,则每次截取后取到的 bytes 是一样的。


(lldb) po [data class]
_NSInlineData
(lldb) po [[data subdataWithRange:NSMakeRange(0, 6)] bytes];
0x0000000283caa930 // 地址不一样
(lldb) po [[data subdataWithRange:NSMakeRange(0, 6)] bytes];
0x0000000283ca8a50 // 地址不一样
==================================

(lldb) po [headerData class] 
OS_dispatch_data
(lldb) po [[data subdataWithRange:NSMakeRange(0, 6)] bytes];
0x0000000116a7c000 // 地址一样
(lldb) po [[data subdataWithRange:NSMakeRange(0, 6)] bytes];
0x0000000116a7c000 // 地址一样

这里可以大概猜到 _NSInlineData 和 OS_dispatch_data 都是 NSData 的类簇,虽然方法名是一样的,但是底层实现是不一样的。

刨根问底

为什么会产生 OS_dispatch_data

前面已经提到,音频时间比较长的时候下载拿数据是 OS_dispatch_data 格式的,通过调试,发现是 AFNetworking 的 AFURLSessionManager 在对 response data 进行 copy 复制产生的:

  1. 对于大的的文件,复制前的对象是 NSConcreteMutableData 复制过后是 OS_dispatch_data
  2. 而对于小文件, copy 的结果是 _NSInlineData,个人猜测是 _NSInlineData 进行 subdataWithRange 会进行内存的复制和切割操作,分隔出来的数据末端用 00 填充,而对于较大的数据,copy 操作时会产生一个 OS_dispatch_data,其中对内存操作做了某些优化。
image.png

OS_dispatch_data 的 subdataWithRange 实现

通过 Xcode 的 Symbolic Breakpoint 给 -[OS_dispatch_data bytes] 下断点,


image.png

我们可以看到 OS_dispatch_data 的 bytes 实现是调用了 _dispatch_data_get_flattened_bytes,这串 GCD 代码,由于 GCD 是开源是,我们可以通过 GCD 代码一窥究竟。
我下载的是 libdispatch-913.30.4.tar.gz

通过调试发现对 OS_dispatch_data 对象调用 subdataWithRange, 实际上是调用了 -[_NSDispatchData subdataWithRange:] 这个方法,接着调用了 [NSByteCountFormatter allowedUnits],最后再调用了 dispatch_data_create_subrange 这个 GCD 方法。

image.png
image.png

所以我们的关注点放在了 dispatch_data_create_subrange 这个方法上,打开 GCD 源码查看,下面是 这个方法 , 我删掉了部分代码,完整版可以去 这里 看。


// offset 是起始偏移 length 是长度,比如我们是 NSMakeRange(0, 6) 那么 offset 就是 0, length 就是 6
dispatch_data_t
dispatch_data_create_subrange(dispatch_data_t dd, size_t offset,
        size_t length)
{
    dispatch_data_t data;

    // 如果要是create_subrange 的数据是叶子数据( dd->num_records == 0 ),代表改数据是存有内存地址的原始数据对象,而非引用别人的空壳对象

    if (_dispatch_data_leaf(dd)) {
     // 创建一个指向叶子的对象,将对象的 data_object 指向自身,并增加引用计数,将 from (offset)和 length 设置好
        data = _dispatch_data_alloc(1, 0); // 第一个参数传 1 ,说明 records 有 1个对象,同时也说明非叶子数据(没有被其他人指向),下次 _dispatch_data_leaf(data) 的结果 为 false
        data->size = length;
        data->records[0].from = offset;
        data->records[0].length = length;
        data->records[0].data_object = dd;
        _dispatch_data_retain(dd);
        return data;// 直接将这指向叶子的对象返回
    }

    // Subrange of a composite dispatch data object
    const size_t dd_num_records = _dispatch_data_num_records(dd);
    size_t i = 0;

    // if everything is from a single dispatch data object, avoid boxing it
  
    // 数据是连续的 (records 数组只有一个元素)
    if (offset + length <= dd->records[i].length) {
    // 如果是指向叶子的对象,则找到原本的叶子,计算好 offset 和 length,调用一次 dispatch_data_create_subrange
        return dispatch_data_create_subrange(dd->records[i].data_object,
                dd->records[i].from + offset, length);
    }
    // .... 省略了很多代码 .....
    
    // 数据有多个记录,可能内存是不连续的
    data = _dispatch_data_alloc(count, 0);
    data->size = length;
    memcpy(data->records, dd->records + i, count * sizeof(range_record));

    if (offset) {
        data->records[0].from += offset;
        data->records[0].length -= offset;
    }
    if (!to_the_end) {
        data->records[count - 1].length = last_length;
    }

    for (i = 0; i < count; i++) {
        _dispatch_data_retain(data->records[i].data_object);
    }
    return data;
}

这段代码,大概就是对 data 对象进行 切割,如果 data 中的数据是连续的,那么其实是啥也不干,只是创建了一个新的对象,并记录下偏移值,如果内存是不连续的,会进一步根据 offset 和 length 去复制所需要的内存块,值得注意的是,即使到了这一步,复制出来的块也至少包含了一个完整的内存卡,而不会根据 length 去裁剪的数据长度。

下面我们看看 bytes 的实现

OS_dispatch_data 的 _dispatch_data_get_flattened_bytes 实现

通过调试发现,对 OS_dispatch_data 对象调用 bytes 实际上是调用 _dispatch_data_get_flattened_bytes 这个 GCD 方法,该方法里,针对于连续的内存,调用 _dispatch_data_map_direct 可以直接拿到 bytes 地址,而对于非连续内存,他会调用 _dispatch_data_flatten 去遍历各个内存块并且复制拼接成一个连续完整的数据。

_dispatch_data_get_flattened_bytes(dispatch_data_t dd)
{
    const void *buffer;
    size_t offset = 0;

    if (slowpath(!dd->size)) {
        return NULL;
    }

    buffer = _dispatch_data_map_direct(dd, 0, &dd, &offset);
    // 此处 buffer 不为 nil,说明是连续的内存,直接返回内存地址
    if (buffer) {
        return buffer;
    }
    
    // 内存非连续区域,需要调用 _dispatch_data_flatten 将分段其复制到一个区域
    void *flatbuf = _dispatch_data_flatten(dd);
    if (fastpath(flatbuf)) {
        // we need a release so that readers see the content of the buffer
        if (slowpath(!os_atomic_cmpxchgv2o(dd, buf, NULL, flatbuf,
                &buffer, release))) {
            free(flatbuf);
        } else {
            buffer = flatbuf;
        }
    } else {
        return NULL;
    }

    return buffer + offset;
}

以下是 _dispatch_data_map_direct 的代码,可以看到无论是叶子数据,或者指向叶子的数据(用 subdataWithRange “切割” 过),最终都是返回叶子数据 buffer = dd->buf + offset; 所以每次返回的地址的一样的

_dispatch_data_map_direct(struct dispatch_data_s *dd, size_t offset,
        struct dispatch_data_s **dd_out, size_t *from_out)
{
    const void *buffer = NULL;

    dispatch_assert(dd->size);
    if (slowpath(!_dispatch_data_leaf(dd)) &&
            _dispatch_data_num_records(dd) == 1) {
        offset += dd->records[0].from;
        dd = (struct dispatch_data_s *)dd->records[0].data_object;
    }

    if (fastpath(_dispatch_data_leaf(dd))) {
        buffer = dd->buf + offset;
    } else {
        buffer = os_atomic_load((void **)&dd->buf, relaxed);
        if (buffer) {
            buffer += offset;
        }
    }
    if (dd_out) *dd_out = dd;
    if (from_out) *from_out = offset;
    return buffer;
}

解决问题

既然 OS_dispatch_data 通过 bytes 拿到的数据不对,那将其转换成 _NSInlineData 或者 NSConcreteMutableData 可否行得通?
通过测试,对 OS_dispatch_data 对象调用 mutableCopy 即可解决问题。

(lldb) po [headerData class]
OS_dispatch_data

(lldb) po (char *)[headerData bytes]
"#!AMR\n<\xffffffdeU^\xffffff90\xffffffe3\t\xffffff83\xffffff80\xffffff88z\xffffffaf\xfffffff3pT\x16\xffffff80"

(lldb) p headerData = [headerData mutableCopy]
(NSConcreteMutableData *) $6 = 0x0000000282884ab0 6 bytes
(lldb) po [headerData class]
NSConcreteMutableData

(lldb) po (char *)[headerData bytes]
"#!AMR\n"

当然了 还有更优雅和快速的方式,直接使用 strncmp 对比指定长度的字符

+ (BOOL)isAmrData:(NSData *)data {
    BOOL result = NO;
    if (!strncmp([data bytes], AMR_MAGIC_NUMBER, strlen(AMR_MAGIC_NUMBER))) {
        result = YES;
    }
    return result;
}

博客原文

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容

  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,067评论 1 32
  • 1.ios高性能编程 (1).内层 最小的内层平均值和峰值(2).耗电量 高效的算法和数据结构(3).初始化时...
    欧辰_OSR阅读 29,248评论 8 265
  • OC语言基础 1.类与对象 类方法 OC的类方法只有2种:静态方法和实例方法两种 在OC中,只要方法声明在@int...
    奇异果好补阅读 4,230评论 0 11
  • 1.NSTimer不准时的原因:(1).RunLoop循环处理时间,每次循环是固定时间,只有在这段时间才会去查看N...
    稻春阅读 1,220评论 0 3
  • *面试心声:其实这些题本人都没怎么背,但是在上海 两周半 面了大约10家 收到差不多3个offer,总结起来就是把...
    Dove_iOS阅读 27,107评论 29 470