scanpy | rank_genes_groups_violin 事实证明，没事不要瞎搞...

最近一直在用scanpy分析单细胞数据，真的是越用越顺手，但常在河边走哪有不湿鞋的呢？这不一不小心就给自己埋下了一个难以察觉的潜在问题。为什么这么说呢？因为这个问题通常情况下不会遇到，而且就算一不小心入坑，大部分情况下也不会受任何影响，仅在某些特殊需求时出现问题。

当确定了细胞类型后，下一步肯定要看看各细胞类型间的差异基因，如果做了两种条件的处理，也会看看各细胞类型在两个条件下的差异基因。差异基因做完了，接着会选择一些关注的基因展示一下具体的表达情况，不管是出于验证处理过程正确与否还是作为示例展示，看差异基因的具体表达情况都是最直接有效的方式，类似如下图。

通过这样的小提琴图，可以很直观地看出基因在不同条件下的表达分布情况。为了做出这样的图，结果意外出现了。用了好长时间才反应过来，发现问题所在。

import scanpy as sc
import matplotlib.pyplot as plt

adata = sc.read_h5ad('human_heart.h5ad')
adata = adata[adata.obs['sample'].isin(['ctrl1','ctrl2']),:]
adata.layers['counts'] = adata.X
adata.X = adata.layers['counts'].toarray()

原始read count存储在对象的counts属性层里面，从中提取想要的子集出来分析，然后用read count替换X矩阵的数据以便从头分析。也许，眼尖的朋友在这里已经发现了一些端倪。后续接着就是一套标准处理：

sc.pp.normalize_total(adata)
sc.pp.log1p(adata)
adata.raw = adata
sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5)
sc.pp.scale(adata, max_value=10)
sc.pp.pca(adata, n_comps=100)
sc.pp.neighbors(adata, n_neighbors=15, n_pcs=50)
sc.tl.leiden(adata, resolution=0.5)
sc.tl.umap(adata)

细胞类型鉴定过程忽略，这里以Endothelial为例，来做ctrl1和ctrl2两者的差异基因分析。到这里，一切都很顺利没有任何问题。

ad_endo = adata[adata.obs.celltype=='Endothelial',:]
sc.tl.rank_genes_groups(ad_endo , groupby="sample", groups=['ctrl1'], reference='ctrl2', pts=0.1, method="wilcoxon")

做完差异分析，想看看基因的表达值在两个条件下的具体情况时，前面埋的雷在这里爆了。抛出了下面的错误：

sc.pl.rank_genes_groups_violin(ad_endo, groups='ctrl1', n_genes=8)

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/software/lib/python3.6/site-packages/scanpy/plotting/_tools/__init__.py", line 913, in rank_genes_groups_violin
    df[g] = X_col
  File "/home/software/lib/python3.6/site-packages/pandas/core/frame.py", line 3044, in __setitem__
    self._set_item(key, value)
  File "/home/software/lib/python3.6/site-packages/pandas/core/frame.py", line 3119, in _set_item
    self._ensure_valid_index(value)
  File "/home/software/lib/python3.6/site-packages/pandas/core/frame.py", line 3170, in _ensure_valid_index
    value = Series(value)
  File "/home/software/lib/python3.6/site-packages/pandas/core/series.py", line 327, in __init__
    data = sanitize_array(data, index, dtype, copy, raise_cast_failure=True)
  File "/home/software/lib/python3.6/site-packages/pandas/core/construction.py", line 496, in sanitize_array
    raise Exception("Data must be 1-dimensional")
Exception: Data must be 1-dimensional

可以看出，这个潜在的问题不影响前面的整体分析流程，仅是在绘制差异基因小提琴图时有问题。从这点来说，其实也不算什么问题，只不过影响了绘图的便捷性。既然，问题出现了，还是要确定一下原因，以便确认问题影响的范围。

一开始挺蒙的，毕竟，一连串的标准过程都正确执行了，如果有问题早该出现了。经过一番思索和排除还是不知问题所在。但事出反常必有妖，还是要搞清楚问题，于是就继续倒腾。最终，在浪费了一天的时间后，搞清楚啥时候埋的雷了。

有些不起眼的反常，可能就是问题的罪魁祸首。所以，没事不要瞎搞，还是按照官方路线走，不然，表面虽然看似风平浪静，但实际已埋下祸根，不知后面啥时候就会爆出来。

就像这个问题，一个格式引发的异常，愣是没法联想到，为何？因为前面一系列的操作都毫无影响，有时候这种情况更危险，内部已经不正常，外面却没有任何表现，一副正常有序的景象，让人不易察觉。

正常情况下，adata对象里面的矩阵为基于numpy array的sparse matrix格式：

<3467x33538 sparse matrix of type '<class 'numpy.float32'>'
        with 100688614 stored elements in Compressed Sparse Row format>

回过头看看，自己生成的adata对象里矩阵的格式，是普通的numpy array：

ad_endo.X
array([[-0.00851632,  0.        ,  0.        , ..., -0.06525466,
         0.        ,  0.        ],
       [-0.00851632,  0.        ,  0.        , ..., -0.06525466,
         0.        ,  0.        ],
       [-0.00851632,  0.        ,  0.        , ..., -0.06525466,
         0.        ,  0.        ],
       ...,
       [-0.00851632,  0.        ,  0.        , ..., -0.06525466,
         0.        ,  0.        ],
       [-0.00851632,  0.        ,  0.        , ..., -0.06525466,
         0.        ,  0.        ],
       [-0.00851632,  0.        ,  0.        , ..., -0.06525466,
         0.        ,  0.        ]], dtype=float32)

现在一切都明朗了，原来是前面导出原始read count矩阵的时候，不知当时咋回事在替换的同时加了一个格式转换，为后面的错误埋下了伏笔：

# 错误方式
adata.X = adata.layers['counts'].toarray()

# 正确方式
adata.X = adata.layers['counts']

原因找到了，纠正起来也就方便了。可以选择从头再分析一遍彻底解决隐患，或者仅是验证一下可以简单点，既然不影响分析结果，修改一下矩阵格式即可。

from scipy.sparse import csr_matrix

ad_endo.X = csr_matrix(ad_endo.X)
ad_endo.X
<3467x33538 sparse matrix of type '<class 'numpy.float32'>'
        with 100688614 stored elements in Compressed Sparse Row format>

此时，修改后再绘图就可以顺利出图了：

sc.pl.rank_genes_groups_violin(ad_endo, groups='ctrl1', n_genes=8)

不过，这样虽然可以画出图，但是看起来有点怪怪的，因为这里绘图使用scale的数据。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 191,715评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 80,725评论 2赞 368
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 139,084评论 0赞 314
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 51,513评论 1赞 262
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,422评论 4赞 352
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 45,614评论 1赞 268
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,171评论 3赞 379
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 34,850评论 0赞 252
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,049评论 1赞 284
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,237评论 2赞 304
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,002评论 1赞 320
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 31,895评论 3赞 309
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,265评论 3赞 296
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,663评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 29,926评论 1赞 249
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,102评论 2赞 337
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,317评论 2赞 335

scanpy | rank_genes_groups_violin 事实证明，没事不要瞎搞...

推荐阅读更多精彩内容