在使用CARD数据库时,针对宏基因组数据,需要另外下载WildCARD_data,下载完成后需对数据进行预处理,才可以使用。
在进行数据预处理时,出现了报错信息:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
wget -O wildcard_data.tar.bz2 https://card.mcmaster.ca/latest/variants
mkdir -p wildcard
tar -xvf wildcard_data.tar.bz2 -C wildcard
rgi wildcard_annotation -i wildcard --card_json ./card.json -v 3.0.8 > wildcard_annotation.log 2>&1
- 出现报错,报错信息如下:
ERROR: UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1:
invalid start byte in codecs.py line 322
- 查阅资料,发现是字符编码的问题,0x8b说明是gzip压缩过的数据
- 进入wildcard文件夹,里面的fasta数据都是压缩形式的:card-genomes.txt.gz
- 解决方法:
cd wildcard
gunzip *.gz
rgi wildcard_annotation -i wildcard --card_json ./card.json -v 3.0.8 > wildcard_annotation.log 2>&1
- WELL DONE