基于 PEFT 的高效 ChatGLM2-6B 微调

参考

hiyouga/ChatGLM-Efficient-Tuning
LLMsNineStoryDemonTower-PEFT_finetune

恢复环境

环境来自百度飞桨的aistudio，部署glm2-6b推理测试

硬件原V100 16GB fp16报错OOM，参考如下硬件需求，改为V100 32GB环境。

V100-32GB

硬件需求

注：r 为LoRA 维数大小，p 为前缀词表大小，l 为微调层数，ex/s 为每秒训练的样本数。gradient_accumulation_steps 参数设置为 1。上述结果均来自于单个 Tesla V100(32GB) GPU，仅供参考。

1. 创建3.10环境

conda create -n py310 python=3.10
conda init

2. 关闭shell再打开，激活310

conda activate py310
python -V

3. 修改site packages

vi /home/aistudio/.conda/envs/py310/lib/python3.10/site.py
  "/home/aistudio/work/pip/lib/python310/site-packages"

image.png

4. 测试环境

cd ~/work/ChatGLM2-6B
python helloworld_glm2.py

image.png

微调训练

微调方法：

LoRA：仅微调低秩适应器。
P-Tuning V2：仅微调前缀编码器。
Freeze ：仅微调后几层的全连接层。

1. 准备微调训练

代码clone

git clone https://github.com/hiyouga/ChatGLM-Efficient-Tuning.git

安装依赖

cd ChatGLM-Efficient-Tuning
pip install -r requirements.txt

2. freeze方式微调

ChatGLM2-6B 模型的微调。需要使用--use_v2 参数来进行训练。
本地模型的微调，需要使用--model_name_or_path参数来指定。
不联网情况下微调训练
alpaca_gpt4_zh要用10个小时，换self_cognition数据集30秒训练完成。

mkdir output
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --do_train \
    --model_name_or_path /home/aistudio/work/chatglm2-6b \
    --dataset self_cognition \
    --dataset_dir data \
    --finetuning_type freeze \
    --output_dir output/freeze_sft_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 2 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

freeze finetune

对话测试：

python src/cli_demo.py  --checkpoint_dir output/freeze_sft_checkpoint --model_name_or_path /home/aistudio/work/chatglm2-6b

3. p_tuning方式微调

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --do_train \
    --model_name_or_path /home/aistudio/work/chatglm2-6b \
    --dataset self_cognition \
    --dataset_dir data \
    --finetuning_type p_tuning \
    --output_dir output/p_tuning_sft_checkpoint  \
    --overwrite_cache \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 2 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss

4. lora方式微调

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --do_train \
    --model_name_or_path /home/aistudio/work/chatglm2-6b \
    --dataset self_cognition \
    --dataset_dir data \
    --finetuning_type lora \
    --output_dir output/lora_sft_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 2 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-3 \
    --num_train_epochs 3.0 \
    --fp16

image.png

对话测试

python src/cli_demo.py  --checkpoint_dir output/lora_sft_checkpoint --model_name_or_path /home/aistudio/work/chatglm2-6b

向微调后的 ChatGLM-6B 模型问一些自我认知问题，可以发现它能够给出我们期望的回答。同时，还测试了两个额外的问题，验证结果说明模型的原本知识并没有被严重破坏。

image.png

ChatGLM2-6B 模型多 GPU 分布式微调

配置分布式环境

accelerate config # 首先配置分布式环境
accelerate launch src/train_bash.py ...  # 微调，参数同上

注：注意：若您使用 LoRA 方法进行微调，请指定以下参数 --ddpfindunused_parameters False 来避免报错。

模型部署

部署在项目框架中，请使用 export_model.py 将微调后的权重合并到 ChatGLM-6B 模型中并导出完整模型。

python src/export_model.py \
    --checkpoint_dir cognition \
    --output_dir path_to_save_model

通过类似如下代码的调用方式，您可以在任何项目中独立部署微调后的模型。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained(path_to_save_model, trust_remote_code=True)
model = AutoModel.from_pretrained(path_to_save_model, trust_remote_code=True).half().cuda()
response, history = model.chat(tokenizer, "你是谁", history=[])
print(response)

ChatGLM2-6B 评估预测

1. ChatGLM2-6B 指标评估（BLEU分数和汉语ROUGE分数）

ChatGLM2-6B 指标评估（BLEU分数和汉语ROUGE分数）

CUDA_VISIBLE_DEVICES=0 python examples/finetune.py \
    --do_eval \
    --dataset alpaca_gpt4_zh \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_eval_result \
    --per_device_eval_batch_size 8 \
    --max_samples 50 \
    --predict_with_generate

2. ChatGLM2-6B 模型预测

  CUDA_VISIBLE_DEVICES=0 python examples/finetune.py \
    --do_predict \
    --dataset alpaca_gpt4_zh \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_predict_result \
    --per_device_eval_batch_size 8 \
    --max_samples 50 \
    --predict_with_generate

3 ChatGLM2-6B 模型推理

  CUDA_VISIBLE_DEVICES=0 python src/infer.py  --checkpoint_dir path_to_checkpoint --quantization_bit=4

问题

微调显存问题

问题描述：在执行微调命令时，爆显存不足
解决方法：在 trainsft.sh 中添加参数 --quantizationbit=8，该命令的作用时进行 8bit 量化

使用 P-Tuning v2 进行微调时 AssertionError: Please disable fp16 training while using the P-Tuning v2 method.

问题描述：使用 freeze 进行量化微调时出错
$ AssertionError: Please disable fp16 training while using the P-Tuning v2 method.
问题原因：P-Tuning v2 微调不支持 fp16
解决方法：删除 --fp16 即可

最后编辑于：2023.07.23 18:28:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

基于 PEFT 的高效 ChatGLM2-6B 微调

参考

恢复环境

1. 创建3.10环境

2. 关闭shell再打开，激活310

3. 修改site packages

4. 测试环境

微调训练

1. 准备微调训练

2. freeze方式微调

3. p_tuning方式微调

4. lora方式微调

对话测试

ChatGLM2-6B 模型 多 GPU 分布式微调

模型部署

ChatGLM2-6B 评估预测

1. ChatGLM2-6B 指标评估（BLEU分数和汉语ROUGE分数）

2. ChatGLM2-6B 模型预测

3 ChatGLM2-6B 模型推理

问题

微调显存问题

使用 P-Tuning v2 进行 微调时 AssertionError: Please disable fp16 training while using the P-Tuning v2 method.

推荐阅读更多精彩内容

ChatGLM2-6B 模型多 GPU 分布式微调

使用 P-Tuning v2 进行微调时 AssertionError: Please disable fp16 training while using the P-Tuning v2 method.