根据前面的工程,首先编译了kaldi工具,利用speech_data(即aishell1数据集,只是删除了一层wav目录),完成了stage 0、1、2步骤,主要是数据准备与fbank特征提取,将kaldi与Speech-Transformer目录均作为kaggle/working输出,再作为新工程的数据导入,修改目录名称为fbank_done
方法一 只copy部分文件,其余用软链接
1、复制speech-transformer-project/Speech-Transformer工程目录
# 复制speech-transformer-project/Speech-Transformer工程目录
!cp -r /kaggle/input/speech-transformer-project/Speech-Transformer /kaggle/working/
2、切换到egs/aishell目录下,替换steps utils目录(此处用软链接则无法修改内部文件的执行权限)
# 切换到egs/aishell目录下,替换steps utils目录
%cd /kaggle/working/Speech-Transformer/egs/aishell
!rm -R steps utils
!cp -r /kaggle/input/fbank-done/kaldi/egs/wsj/s5/steps /kaggle/working/Speech-Transformer/egs/aishell/
!cp -r /kaggle/input/fbank-done/kaldi/egs/wsj/s5/utils /kaggle/working/Speech-Transformer/egs/aishell/
!ls -l
3、将fbank_done里的dump data目录设置软链接到working目录
%cd /kaggle/working/Speech-Transformer/egs/aishell
!ln -s /kaggle/input/fbank-done/Speech-Transformer/egs/aishell/dump /kaggle/working/Speech-Transformer/egs/aishell/dump
!ln -s /kaggle/input/fbank-done/Speech-Transformer/egs/aishell/data /kaggle/working/Speech-Transformer/egs/aishell/data
!ls -l
4、切换到utils目录下,生成run.pl软链接(之前工程输出数据保存过程中会自动删除软链接)
%cd /kaggle/working/Speech-Transformer/egs/aishell/utils
!ln -s /kaggle/working/Speech-Transformer/egs/aishell/utils/parallel/run.pl /kaggle/working/Speech-Transformer/egs/aishell/utils/
# !ls -l
%cd /kaggle/working/Speech-Transformer/egs/aishell
!ls -l
5、创建 lib 目录,里面设置所有src目录下的共享库.so的软链接
!mkdir -p /kaggle/working/kaldi/src/lib
!ln -s /kaggle/input/fbank-done/kaldi/src/*/*.so /kaggle/working/kaldi/src/lib/
6、copy config目录,内部包含后面需调用的文件
!mkdir -p /kaggle/working/kaldi/tools
!cp -r /kaggle/input/fbank-done/kaldi/tools/config /kaggle/working/kaldi/tools/
!ls -l /kaggle/working/kaldi/tools/
7、安装kaldi_io
!pip install kaldi_io
8、开放可执行文件的权限
!chmod +x /kaggle/working/* -R
9、追加指定py文件搜索路径(不同路径下py文件可以被import)
import sys
sys.path.append(r'/kaggle/working/Speech-Transformer/src/bin')
sys.path.append(r'/kaggle/working/Speech-Transformer/src/data')
sys.path.append(r'/kaggle/working//Speech-Transformer/src/solver')
sys.path.append(r'/kaggle/working//Speech-Transformer/src/transformer')
sys.path.append(r'/kaggle/working//Speech-Transformer/src/utils')
10、直接利用%run命令运行train.py脚本进行训练,log文件不保存,而是直接打印到输出窗口
# 以%开头的代码为魔法函数,其中:
# %run 调用外部python脚本,直接运行出结果
# %load 加载本地文件到notebook,然后点击运行
%cd /kaggle/working/Speech-Transformer/egs/aishell
%run /kaggle/working/Speech-Transformer/src/bin/train.py \
--train-json dump/train/deltafalse/data.json \
--valid-json dump/dev/deltafalse/data.json \
--dict data/lang_1char/train_chars.txt \
--LFR_m 7 --LFR_n 6 --d_input 80 \
--n_layers_enc 6 --n_layers_dec 6 --n_head 8 --d_k 64 --d_v 64 \
--d_model 256 --d_word_vec 256 --d_inner 1024 \
--dropout 0.1 --pe_maxlen 5000 --tgt_emb_prj_weight_sharing 1 --label_smoothing 0.1 \
--epochs 25 --shuffle 1 \
--batch-size 64 --batch_frames 0 \
--maxlen-in 800 --maxlen-out 150 \
--num-workers 2 --k 0.2 --warmup_steps 300 \
--save-folder exp/train_result \
--checkpoint 0 --continue-from "" \
--print-freq 10 --visdom 0 --visdom_lr 0 --visdom_epoch 0 --visdom-id "Transformer Training"
11、直接执行run.sh脚本,与上面 %run train.py 任选其一运行即可。(不输出到窗口,而是保存到train.log文件)
# 执行run.sh
%cd /kaggle/working/Speech-Transformer/egs/aishell
# !./run.sh --checkpoint 0 --stage 0 --visdom 0 --visdom_id "train test" --visdom_lr 0 --visdom_epoch 0 --LFR_m 1 --LFR_n 1 --batch_frames 1500 --batch-size 16 --print-freq 100 --num-workers 4
# !./run.sh --checkpoint 0 --stage 1 --visdom 0 --visdom_id "train test" --visdom_lr 0 --visdom_epoch 0 --LFR_m 1 --LFR_n 1 --batch_frames 1500 --batch-size 16 --print-freq 100 --num-workers 4
# !./run.sh --checkpoint 0 --stage 2 --visdom 0 --visdom_id "train test" --visdom_lr 0 --visdom_epoch 0 --LFR_m 1 --LFR_n 1 --batch_frames 1500 --batch-size 16 --print-freq 100 --num-workers 4
# !./run.sh --checkpoint 0 --stage 3 --LFR_m 7 --LFR_n 6 --batch_frames 0 --batch-size 32 --print-freq 10 --num-workers 4 --visdom 0 --visdom_id "train test" --visdom_lr 0 --visdom_epoch 0
!./run.sh --stage 3 --LFR_m 7 --LFR_n 6 \
--d_input 80 --n_layers_enc 6 --n_head 8 --d_k 64 --d_v 64 \
--d_model 256 --d_inner 1024 --dropout 0.1 --pe_maxlen 5000 \
--d_word_vec 256 --n_layers_dec 6 --tgt_emb_prj_weight_sharing 1 \
--label_smoothing 0.1 \
--epochs 25 --shuffle 1 \
--batch-size 128 --batch_frames 0 \
--maxlen-in 800 --maxlen-out 150 \
--num-workers 2 --k 0.2 --warmup_steps 300 \
--checkpoint 0 --continue-from "" --print-freq 10 \
--visdom 0 --visdom_lr 0 --visdom_epoch 0 --visdom-id "Transformer Training"
通过执行%run train.py,可以在Console查看训练情况,及时调整训练策略
直接执行run.sh时,无法实时看到训练情况,所以Create Save & Run All Version,让其在后台执行。(记得要选择Run All with GPU,过程中仍然进行GPU使用时间计时,每周大约30+小时)
私有数据占用的空间,似乎是去掉了与平台公开数据集重复的数据后的最终容量?