这是一篇介绍如何在笔记本上使用centos 7 系统安装nvidia驱动和cuda 的文章。
本篇还会介绍清晰的安装思路。
探索了三天才完成,最后才搞懂思路,中间其实遇到了一个正确的教程,但是没有思路,所以一直没成功,这里先介绍一下前两天发生的坑。
事情是这样发生的,一天下午下了班,我想在linux下开发和研究神经网络模型,我通过gpuz发现我的笔记本nvidia显卡是支持cuda的,那为何不用呢?所以我产生了一个需求,使用nvidia跑caffe模型。
这个需求在windows下是不好完成的,因为我跑得东西在docker 镜像里,在docker想使用gpu加速,还需要安装nvidia-docker插件,这个插件,我不想再windows下安装,所以我选择linux,而首选的是centos。实际上ubuntu的桌面体验比centos还好点,而且根据网上的教程,也更顺利,但是我还是选择了cetnos。
所以我必须要在centos上安装nvidia驱动,cuda,docker,nvidia-docker。
一开始我以为事情很简单。
我就直接搜索 centos 7 安装 nvidia 驱动 。
这是第一种方法:
类似的教程有这些:
http://blog.csdn.net/alex_my/article/details/44705663
https://www.linuxidc.com/Linux/2017-03/141644.htm
https://www.cnblogs.com/snake553/p/7159376.html
还有很多,换汤不换药,我甚至还找到了这些安装思路的原版国外教程:
http://www.advancedclustering.com/act_kb/installing-nvidia-drivers-rhel-centos-7/
这些教程的思路是这样的:
检查电脑是否支持cuda,是否有nvidia显卡,需要什么驱动
禁用开源的nvidia驱动,安装官方驱动
重启成功
安装cuda
有思路也有套路,既有手动安装,也有yum安装,我都试过,对于我来说都失败了,根本就没进行到安装cuda。因为我安装完成之后,电脑无法进入桌面环境,只能进命令行模式,期间辛亏早已开启ssh,用另一台电脑ssh链接,尝试了很多次,但最终都失败。最后成功的时候,至重启一次,一直在图形界面都成功了。
为什么不成功,以上针对部分电脑能成功,主要针对只有主板集显和nvidia独显的电脑,或者Intel核显和vga的nvidia独显,如果你是这种电脑,可能很容易的就安装成功,并且进入桌面环境。
不过我的笔记本电脑不是,我的笔记本电脑是vga intel 核显和 nvidia独显,nvidia不支持vga,就是不支持直接屏幕输出,我了解到一种新的主板设计,我不搞硬件,第一次听说:现在很多笔记本都采用 NVIDIA® Optimus™ 技术,摘自官网的介绍:NVIDIA® Optimus™ 技术聪明地将您的笔记本电脑 PC 提升到绝佳状态,提供出色的图形性能,并在需要时延长电池续航时间,使您能够更长时间地享受视觉盛宴。
官网链接: http://www.nvidia.cn/object/optimus_technology_cn.html
大体的意思是说,这些笔记本有两个显卡,一个intel ,负责显示,一个nvidia,负责解锁高难度姿势,比如3D渲染,cuda等等。工作原理:把一些高难度姿势交给nvidia,nvidia计算完成,交给intel,Intel显示给用户。
比如这样:
这是笔记本右键弹出的菜单,我也是才知道有这个操作。
这是在linux下检测硬件显示的,其中带有VGA的只有intel的图形处理器。
这样就明显了,前面的那种安装nvidia驱动或者cuda的方法是错误的。因为前一种安装方法针对两个显卡都是nvidia切都可以直接vga输出的。因为第一种方法,只能让nvidia驱动开启并且会是xorg服务(linux的图形桌面服务)使用nvidia驱动开启,但是并不能,因为nvidia不能直接输出到屏幕,顶多nvidia计算资源,将结果交给intel,Intel显示到屏幕,所以还是需要在intel上启动xorg,
这个思路是我自己尝试的,网上没有具体的教程,是我看相关的介绍才想出来的,但是配置xorg老是出问题还是没有解决,不过方向是对了。
这个时候我已经快要放弃了,但是我也意识到,或许是对的方向,所以我就安装Bumblebee(大黄蜂),什么是大黄蜂?
"Bumblebee 致力于使 NVIDIA Optimus 在 GNU/Linux 系统上可用,实现两块不同的供电配置的显卡同时插入使用,共享同一个 framebuffer。"
原文链接:
https://wiki.archlinux.org/index.php/Bumblebee_(%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87)
这个软件就是linux 上的 Optimus技术,只是在需要的时候启用nvidia来计算,正是这个思路。
第二个方法出现了,在centos上安装Bumblebee
相关教程如下:
https://www.linuxidc.com/Linux/2012-09/70418.htm
https://www.linuxidc.com/Linux/2012-09/70418.htm
http://leenux.lofter.com/post/165224_54b752
项目地址:
https://github.com/Bumblebee-Project/Bumblebee/wiki
arch wiki地址:(arch的wiki真心好)
https://wiki.archlinux.org/index.php/Bumblebee_(%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87)
但是我参照上面的方法包括官网,都没有成功,这我就不太清楚了,可能是因为期间我又自己安装了nvidia显卡驱动的原因,不过我有一个猜想,就是上面的方法,只是安装了大黄蜂,但是并没有安装bumblebee-nvidia驱动,或者内核不够高,或者内核错误,总之,上面的教程都是关闭图形界面,进入命令行,禁用开源nvidia驱动(禁用nouveau驱动)等等,但是最终我都没有成功,最后在一片国外文章上安装,期间只是跟着复制命令,重启,最后成功了,终于进入教程部分,请大家跟着我做:
你也可以直接去这个页面:
https://linuxhint.com/install-nvidia-drivers-centos/
截图所示的大体意思就是很多电脑的设计是用了nvidia optimus技术,如何安装的,跟着我做,等等。
我就模仿这篇文章写一下教程:
检查pci设备
need-to-insert-img
lspci | grep -i "vga\|nvidia"
如果你有两个显卡,并且有一个是nvidia显卡,再去官网查一下这个型号是否支持cuda,如果支持,最终能安装cuda。
在安装之前,一定要进入bios,关闭安全启动选项。
添加elrepo 源
need-to-insert-img
这个源是linux上的硬件驱动源,就跟驱动精灵差不多。
sudo rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
sudo rpm -Uvh http://www.elrepo.org/elrepo-release-7.0.3.el7.elrepo.noarch.rpm
具体的安装方法去官网,第二个链接可能有误:
官网地址:http://elrepo.org/tiki/tiki-index.php
添加epel源
need-to-insert-img
sudo yum install epel-release
安装大黄蜂
need-to-insert-img
sudo yum -y --nogpgcheck install http://install.linux.ncsu.edu/pub/yum/itecs/public/bumblebee/rhel7/noarch/bumblebee-release-1.2-1.noarch.rpm
这个安装途径和上面提到的第二个方法的教程所示都不一样,我也不知道问什么,可能是因为那些教程采用的是ubuntu的套路吧。
安装另一个东西,也跟大黄蜂有关
need-to-insert-img
sudo yum -y --nogpgcheck install http://install.linux.ncsu.edu/pub/yum/itecs/public/bumblebee-nonfree/rhel7/noarch/bumblebee-nonfree-release-1.2-1.noarch.rpm
说真的,我也不知道这为什么不一样,直接从原教程拿过来的,原教程还有结果截图,可以去看看。
升级cetnos内核
need-to-insert-img
sudo yum --enablerepo=elrepo-kernel install kernel-ml
sudo yum --enablerepo=elrepo-kernel install kernel-ml-devel
这时候内核已经是4.XX了,并且在启动时不会自动引导这个选项,还是默认3.xx的,我还没调整,回头在搜搜看怎么调,在这里记住,之后重启时,一定要选择4.xx的内核
如果是32位系统,就不要运行上面的第二条命令,而是输入下面这条,我是上面的第二条
sudo yum install bumblebee-nvidia bbswitch-dkms VirtualGL.x86_64 VirtualGL.i686 primus.x86_64 primus.i686 kernel-devel
添加用户,用户组
need-to-insert-img
sudo usermod -aG bumblebee YOUR_USERNAME
像我添加了root,和
sudo usermod -aG bumblebee root
sudo usermod -aG bumblebee augushong
重启,记住,在4.XX的内核启动
need-to-insert-img
原文运行了nvidia setting,是图形界面,我没运行,就算了。
至此,安装结束。
运行检查
bumblebee-nvidia --check
应该会出现成功的界面
如果有问题,就运行:
sudo bumblebee-nvidia --debug --force
可以多运行几次,或者重启在运行,然后在运行检查,理论上,都能正常了。
卸载:
sudo yum remove bumblebee-nvidia bbswitch-dkms primus kernel-devel
sudo yum remove kernel-ml kernel-ml-dev
使用
need-to-insert-img
原文没有介绍,我在第二天就遇到这篇文章,但是当时的思路还是第一种方法的思路,而且对交火显卡技术和正确安装大黄蜂后的使用方式不明确,所以第三天才转过来弯。这里介绍一下。
如果你的电脑配置一般,现在进入图形界面,已经能感觉拖动窗口不如之前那么流畅了。
运行所有命令,都是走cpu和intel,跟nvidia没什么关系,比如运行
glxspheres64
这是个3D图帧速检测,或许是,反正是检测显卡的。
optirun glxspheres64
这个是通过nvidia加速运行这个程序,明显运行的画面更快。
在命令前面加上 optirun,就相当于文章开头在windows下右键使用高性能XXXXX运行一样。
安装cuda
need-to-insert-img
可以参考其他教程,不过我感觉挺乱的,而且只有命令,没有思路介绍,估计只是从国外教程搬过来的,如果你已经有好的教程,那么可以直接去参照安装了,
我的安装方法,去官网检查显卡是否支持cuda
https://developer.nvidia.com/cuda-gpus
下载cuda,一定下载run安装包,不要试图用yum,
安装时,会阅读协议,可以看看,最后
(不截图了,自己走走看就知道了。。。。只介绍下思路吧,命令其他教程都烂大街了)
开始输入accecpt,同意
然后会提示是否安装驱动,一定输入n
接下来是安装cuda toolkit,安装y
安装案例smaple,安装y
接下来是目录等,一路回车或者自己看
最后,安装成功,注意,安装成功会最下面几行信息是警告,说是有东西没安装,不用管,不要怕,没有问题。
在这些信息上面,有两三行这样的东西
PATH xxxxx
LD_LABRARY_XX xxxx
xxx是我忘了,意思是说把这两个加到环境变量里,
具体的操作可以去搜,这里只介绍思路。
之后去运行一个案例,自己去搜
会让你编译一个例子,然后让你运行,你直接运行会报错,说你没有相关设备
你只要在运行的命令前面加上optirun就行,像这样,应该是这个命令没错
optirun deviceQuery
安装docker更简单,去搜教程,都能用,
不过想要用显卡加速,还要安装nvidia-docker,继续搜。
开启docker服务正常
开启nvidia-docker不正常,就是说运行systemctl start nvidia-docker.service
我通过大黄蜂运行nvidia-docker 好像也不行,估计是docker镜像得对大黄蜂支持才行,唉,还是有很长的路要走啊。
回头试试不用docker,直接搭建环境行不行。