划重点：选择GPU、挂载谷歌云端、选择tf版本、运行py脚本、设置点击不断连脚本

针对yolo模型的训练

1. 谷歌云端上传项目

a. 打开谷歌云端，类似百度网盘
b. 上传本地的项目到云端

2. 创建colab笔记本

a. 进入想保存Notebook的文件夹中，左上角新建-更多-Google Colaboratory，如果没有该选项，可点击关联更多应用，找到Google Colaboratory即可

b. 接下来进入colab笔记本，点击修改-笔记本设置

c. 选择硬件加速器-GPU，保存

d. 点击右上角连接，即连接colab GPU服务器。Colab 中的可用 GPU 通常包括 Nvidia K80、T4、P4 和 P100，具体参考Colab 提供哪些类型的 GPU？

3. 挂载谷歌云端

a. 点击装载Google云端硬盘，会直接连接云端，或者出现第二种情况

b. 第二种情况：出现以下代码，shift+enter运行，点击出现的网址，选择账户+允许，直到出现一串符号，复制到2所示框内，enter回车即连接上谷歌云端硬盘

c. 已连接上我的谷歌云端，上面有刚刚上传的项目

4. 设置好模型等数据加载、保存的路径

a. 可以双击需要运行的py文件，比如train.py。看看里面要加载和要保存的路径是否为相对路径
b. 要保存的模型文件直接保存在谷歌云端里，这样不仅可以在colab界面右击文件下载，还可以永久保存在谷歌云端，到时候在云端下载即可，也避免colab可能断连导致文件没来得及保存的情况

5. 开始训练

a. 查看tensorfow版本：

!pip list | grep tensorflow

一般默认是tensorflow2.2.0版本。

b. 转换到tensorflow1.15.2。如需转换到tensorflow1.x，可以使用如下代码（谷歌官方：尽量不要使用pip install来指定tensorflow版本，colab内置的tensorflow是对谷歌服务器专门优化过的，比pip安装的版本表现更好）：

%tensorflow_version 1.x

如果之前import过tensorfow包，需要重新加载笔记本，会有提示，再运行上行代码即可
c. 右键需要运行的项目文件名，复制路径

cd 到该目录下

cd /content/drive/My Drive/HI/tensorflow-yolov3

使用!python运行训练脚本

!python train.py

有时候第一个epoch非常慢，我这里P100 16G的GPU要1h左右，后面稳定在10min/epoch的速度，可能是服务器那边的机制，不要担心，先运行着。

6. 设置定时点击脚本

长时间不动colab，可能会出现断开连接的情况，这个时候程序就停了！虽然还保存了已经训练得到的模型，但还是没训练完。所以设置一个定时点击页面的脚本。

a. 在网页按F12，进入调试页面-consolo控制台
b. 输入下面的代码，enter回车即可

function ClickConnect(){
    console.log("Clicked on connect button"); 
    document.querySelector("paper-button").click()
}
setInterval(ClickConnect,60000)

若想要停止该脚本，使用下面的命令；或者刷新浏览器，colab不会断开。

delete ClickConnect(id_of_ClickConnect)
# id_of_ClickConnect是执行 setInterval() 时返回的 ID 值
# 如下图，ID为5588

至此，yolo的训练开始，耐心等待吧。

注意事项

pro版：$9.99/月(需美国信用卡)。更好的显卡(P100 16G等)、更稳定的连接性能、更长的连接时间(24小时)。

支持的信用卡类型
谷歌云端硬盘购买存储空间：$19.99/年(需美国信用卡)，100GB。免费的15GB用于存储模型可能不够用。
yolo训练时刷新页面不会断开，会自动连上，处理一些异常情况；但长时间断开就回不去了
colab没有终端，所以暂时没找到显示显存使用率的方法。
可以打开多个colab笔记本，它们连接不同的服务器，互不相关，最多连接数还没有验证。
colab笔记本如果pip安装过第三方包，下次再打开不需要再pip了，除非点击工具栏代码执行程序-将运行时恢复出厂设置。
colab使用tensorboard：参考colab使用TensorBoard

%load_ext tensorboard
%tensorboard --logdir /content/drive/My\ Drive/HI/tensorflow-yolov3/data/log

注意：路径中的空格前用转义符“\”
torch使用tensorboard，导入包→创建writer，可根据时间设置文件名→writer.add_...，flush→所有epoch完成，close。参考Pytorch的TensorBoard可视化-腾讯云。

colab查看显卡配置和驱动情况

!/opt/bin/nvidia-smi

colab里读取路径的分隔符一般使用Linux分隔符：“/”，而不是“\”

常见错误

Buffered data was truncated after reaching the output size limit：模型训练输出每个epoch结果时输出的错误。即使在COLAB上的RAM、GPU、磁盘是空闲的，这个错误仍然发生是因为在COLAB上显示单元格输出的内存有限。但是，机器仍在后台运行，可以从log看到训练信息，由于缓冲的限制它不会显示在界面。一种解决方案是使用verbose=0，而不是1。
报错：shell-init: error retrieving current directory: getcwd: cannot access parent directories: Transport endpoint is not connected。需要重新启动代码执行程序，注意本地变量都会丢失，参考colab suddenly unable to navigate through directories。

参考博客

增大内存、防止断连……Google Colab，你还有什么惊喜我不知道？
How to prevent Google Colab from disconnecting?（可查看最新的页面点击脚本）

Colab平台使用（GPU、挂载、tf版本、运行py脚本、设置点击脚本）