2019-6-23
好记性不如烂笔头
Ubantu下的TensorFlow-GPU版本的环境搭建背景环境说明安装步骤准备环境安装TensorFLow-GPU安装显卡支持显卡驱动CUDA/cudnn安装验证安装后记FAQ
背景
在win7下做TF开发,已经有几个项目跑起来了。但在做到目标检测例子的时候,发现COCO数据集安装pycocotools死活在win下搞不定,而且原作者还很牛逼的说不支持,虽然民间有牛人在,但是我还是乘着这个机会,转到Ubantu。
同时将GPU版本的TF搭建记录下来。
笔者没有linux系统开发经验,所以可以是新手上任,大家多多提意见,也请多多包含。
环境说明
Ubantu:19
Anaconda:3
python:3.7
TensorFlow-GPU:1.13.1
CUDA/cudnn:10+/7.6
显卡:GTX960:418.56号驱动
安装步骤
准备环境
-
annaconda
操作系统OK过后,安装Anaconda,选择linux版本,下载过后是一个.sh文件,运行命令行
bash Anaconda3-2018.12-Linux-x86_64.sh
然后一路yes,等待安装完成。Annaonda会帮忙安装python,注意看即可。
-
检查显卡是否可以适配
-
查询显卡驱动
查看显卡驱动是为了确保我们的CUDA、cudnn等N卡训练支持
spci |grep -i vga 01:00.0 VGA compatible controller: NVIDIA Corporation GM206 [GeForce GTX 960] (rev a1)
显示GPU使用情况,用以下命令:
nvidia-smi #(显示一次当前GPU占用情况) nvidia-smi -l #(每秒刷新一次并显示) watch -n 5 nvidia-smi #(其中,5表示每隔6秒刷新一次终端的显示结果)
我猜,当你输入过后,是如下表现
(base) leonliang@Leonliang-RP:/$ nvidia-smi VIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
这说明,你需要装驱动(请见后续“安装显卡支持”章节描述)。
这里附上显卡驱动跟CUDA的版本匹配关系。我建议你现在不要下载,等待Anaconda完成TF安装后,再作决定。
安装TensorFLow-GPU
通过Anaconda安装TF-GPU,推荐这里使用Anaconda的虚环境进行环境创建。
conda search tensorflow-gpu # 先查找下安装版本
……
tensorflow-gpu 1.9.0 hf154084_0 pkgs/main
tensorflow-gpu 1.10.0 hf154084_0 pkgs/main
tensorflow-gpu 1.11.0 h0d30ee6_0 pkgs/main
tensorflow-gpu 1.12.0 h0d30ee6_0 pkgs/main
tensorflow-gpu 1.13.1 h0d30ee6_0 pkgs/main
选择1.13.1版本进行安装:
在你选择了yes过后,需要一个漫长的等待,如果你怕卡死,可以打开ubantu的‘系统监视器’,查看网速一栏,兴许可以找到活着的感觉。
conda install tensorflow-gpu=1.13.1
……
cudatoolkit pkgs/main/linux-64::cudatoolkit-10.0.130-0
cudnn pkgs/main/linux-64::cudnn-7.6.0-cuda10.0_0
……
在这里,我们看到Anaconda安装的CUDA=10+,cudnn是7.6,所以我们将显卡驱动更新到最新的410+吧(驱动--CUDA对应表),具体可以见后面论述显卡安装的章节。
anaconda会帮安装cuda和cudnn,省去一大堆事情!!强烈建议用此方法!
另外在官网上,推荐用nightly安装,请读者自行关注。
安装显卡支持
显卡驱动
已经知道Anaconda下载的CUDA=10,cudnn=7.6,那我们得知道显卡的驱动版本驱动--CUDA对应表,如下:
网上有在Ubantu上N卡安装驱动的三种方法,各位可以看自己喜好进行安装。
笔者采用的安装方法比较奇葩,是在一个Ubantu问题反馈中找到的,如此
What I've tried:
* Use the default that drivers that Ubuntu came with * Install the drivers using the apt-get install nvidia-driver-418
* Install the drivers using Nvidia installer (wihtout x11 running, using sh ./NVIDIA-Linux-x86_64-418.56.run) #这一步我没做
* Run nvidia-settings
* Use lightDM and not GNOM
* Purge all nvidia* and install the nvidia-driver-390 from the distro (and not the recommended one)
* And many more suggestions that I found online
What is my status right now
The driver is still not working - # 之所以没用,是因为Ubantu需要重启
请注意,安装完驱动后,重启机器。请见
我相信你可能会遇到连接超时问题,比如如下:
……
W: 无法下载 http://ppa.launchpad.net/openjdk-r/ppa/ubuntu/dists/disco/InRelease 无法连接上 ppa.launchpad.net:80 (91.189.95.83),连接超时 [IP: 91.189.95.83 80]
……
我相信代理可以帮你解决这个问题,简单来说,如下:
1、安装npm
sudo apt-get install npm
2、下载安装http代理
npm i -g http-proxy-to-socks
3、使用代理
sudo apt-get -oAcquire::Http::Proxy= update
成功!
CUDA/cudnn安装
Anaconda在安装TF-GPU的时候,自动安好了。这里啥都不用管!!
验证安装
确认一切就位过后,敲入如下python代码,进行GPU调用实验(笔者这里是虚环境,请在对应环境中运行)。
怎么使用anaconda的spyder IDE?
——终端中输入spyder即可,注意使用IDE的时候,终端不能关掉
import tensorflow as tf
import numpy as np
# 使用 NumPy 生成假数据(phony data), 总共 100 个点.
x_data = np.float32(np.random.rand(2, 100)) # 随机输入
y_data = np.dot([0.100, 0.200], x_data) + 0.300
# 构造一个线性模型
#
b = tf.Variable(tf.zeros([1]))
W = tf.Variable(tf.random_uniform([1, 2], -1.0, 1.0))
y = tf.matmul(W, x_data) + b
# 最小化方差
loss = tf.reduce_mean(tf.square(y - y_data))
optimizer = tf.train.GradientDescentOptimizer(0.5)
train = optimizer.minimize(loss)
# 初始化变量
init = tf.initialize_all_variables()
# 启动图 (graph)
sess = tf.Session()
sess.run(init)
# 拟合平面
for step in range(0, 201):
sess.run(train)
if step % 20 == 0:
print (step, sess.run(W), sess.run(b))
# 得到最佳拟合结果 W: [[0.100 0.200]], b: [0.300]
在结果中,我们多少能够看到调用CUDA,GPU等成功信息。
后记
Ubantu给人的感觉挺好,特别是下载速度,简直比win快太多了。
关于安装:更为详细的信息,请见TF官网GPU描述
FAQ
Q:我没有Ubantu经验,直接切到Ubantu会不适应么?
A:确实是不适应,但是系统自身就帮你把线网卡,浏览器,以及输入法,word,excel等软件自动搞定了,有问题直接上网解决,如果作开发的话,是没有什么害怕的。玩游戏什么的,基本无望。
Q:A卡可以作训练么?
A:对不起我暂时还不了解这个事情
Q:请问目前我的显卡驱动就算最新了,跟anaconda下载的cuda驱动都不匹配,怎么办?
A:先试一下“验证安装”的内容是否能跑过?如果不可以,在Anaconda环境中手工对CUDA和cudnn进行针对显卡驱动的适配。如果这样还不行,那么我觉得您可能要考虑换机器了。