MA plot
MA plot即M-versus-A plot,在芯片数据处理出现之前也称为Bland-Altman plot,是由发明者名字命名的,而MA plot是对M与A作图而得名,M是minus的缩写,代表两个值之差,A是add的缩写,代表两个值之和。有研究者也把MA plot称为Ratio-Intensity (RI) plots,同时MA也正好是micro-array的简写。
MA plot的作用是为了展示两个值几乎相等的变量(x和y)之间的关系,为了展示两个变量之间的变化关系,大多数人的思维都是把x与y分别作为横轴和纵轴进行绘图,如果y=x,则该图呈45度角的直线(如下图中左边图的蓝色直线),可以通过查看点形成的直线偏离预期直线的多少来衡量系统偏差,然而该图存在以下几个缺点:
1. 人的视觉对水平线比更敏感
2. 不同坐标轴的刻度可能会使预期参考直线偏离45度
3. 很难从直观上衡量偏离一条线性的大小
MA plot的处理方法是把该直线顺时针旋转45度,把参考对角线变为直线,具体做法是把(x+y)/2作为横轴,(y-x)作为纵轴,则参考直线变为一条水平线,如下方右图,这样可以很清楚的在视觉上展示两个相等的变量之间偏离参考值的大小,即存在的系统误差的大小
对于芯片数据中信号值x和y的比较,一般先对它们进行log2处理,再进行Minus(log2{Y}-log2{x}=log2(y/x))和Add((log2{x}+log2{y})/2)做MA plot,为什么使用log2处理的原因如下:
1. 取对数后的两组数据的值差异比不取对数时更独立于其值大小
2. 对于取对数后的值标准化只需简单的加法即可
3. 取对数后使分布不太过度偏斜
4. 取对数后使变异大小跨度更真实
5. 取log2而不取ln或log10是因为芯片的信号值大小范围为0~2^16-1的整数值(一般都是用计算机的16位来存储信号强度值)
参考:
http://bmbolstad.com/Dissertation/Bolstad_2004_Dissertation.pdf
http://bioinformatics.mdanderson.org/MicroarrayCourse/Lectures10/r3_bw.pdf
http://www.jstor.org/stable/24307038?seq=1#page_scan_tab_contents