240 发简信
IP属地:北京
  • warmup:
    学习率预热,简单来说就是先使用一个较小的学习率,先迭代几个epoch,等到模型基本稳定的时候再用初始设置的学习率进行训练。
    原因:当我们开始训练模型的时候,往往模型的参数都是随机初始化的,并不能代表什么,所以如果此时选择一个较大的学习率,往往会导致模型的不稳定。

  • 博主您好,我最近也在做bert文本分类的项目:但是遇到了如下问题:
    Traceback (most recent call last):
    File "/home/burette/anaconda3/lib/python3.5/site-packages/absl/flags/_flagvalues.py", line 528, in _assert_validators
    validator.verify(self)
    File "/home/burette/anaconda3/lib/python3.5/site-packages/absl/flags/_validators.py", line 82, in verify
    raise _exceptions.ValidationError(self.message)
    absl.flags._exceptions.ValidationError: Flag --data_dir must have a value other than None.
    一下是我的.sh文件:
    export BERT_CHINESE_DIR=/home/burette/yy/chinese_L-12_H-768_A-1
    export PEOPLEcut=/home/burette/yy/PEOPLEdata
    python run_cut.py \
    --task_name="people" \
    --do_train=True \
    --do_predict=True \
    --data_dir=$PEOPLEcut \
    --vocab_file=$BERT_CHINESE_DIR/vocab.txt \
    --bert_config_file=$BERT_CHINESE_DIR/bert_config.json \
    --init_checkpoint=$BERT_CHINESE_DIR/bert_model.ckpt \
    --max_seq_length=128 \
    --train_batch_size=32 \
    --learning_rate=2e-5 \
    --num_train_epochs=3.0 \
    --output_dir=/home/burette/yy/BERT_ChineseWordSegment_master/output/result_cut/

    路径查过好几次,肯定没有问题,您知道这是什么情况吗?

    BERT使用详解(实战)

    BERT模型,本质可以把其看做是新的word2Vec。对于现有的任务,只需把BERT的输出看做是word2vec,在其之上建立自己的模型即可了。 1,下载BERT BERT-...

  • 分析的很好,博主什么时候能分析一下XLNet的源码吗?

  • 我自己解决了,地址没写清楚,保存到系统里的tmp文件夹内了

    Bert系列(一)——demo运行

    谷歌推出的Bert,最近有多火,估计做自然语言处理的都知道。据称在SQuAD等11项任务当中达到了state of the art。bert的原理可参考论文,或者网上其他人翻...

  • 您好,感谢您的文章,我现在按照您的文章可以实现如下步骤:
    INFO:tensorflow:***** Eval results *****
    INFO:tensorflow: eval_accuracy = 0.86764705
    INFO:tensorflow: eval_loss = 0.57055694
    INFO:tensorflow: global_step = 1375
    INFO:tensorflow: loss = 0.57055694

    目前我面临的问题是模型保存的地址内没有模型文件,一下附上我的.sh文件:

    export BERT_BASE_DIR=/home/burette/yy/uncased_L-12_H-768_A-12

    export GLUE_DIR=/home/burette/yy/glue_data

    python run_classifier.py \
    --task_name=MRPC \
    --do_train=true \
    --do_eval=true \
    --data_dir=$GLUE_DIR/MRPC \
    --vocab_file=$BERT_BASE_DIR/vocab.txt \
    --bert_config_file=$BERT_BASE_DIR/bert_config.json \
    --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
    --max_seq_length=128 \
    --train_batch_size=8 \
    --learning_rate=2e-5 \
    --num_train_epochs=3.0 \
    --output_dir=/tmp/mrpc_output/

    我在bert文件夹内新建了tmp/mrpc_output文件夹,但是最后没有生成的模型。

    Bert系列(一)——demo运行

    谷歌推出的Bert,最近有多火,估计做自然语言处理的都知道。据称在SQuAD等11项任务当中达到了state of the art。bert的原理可参考论文,或者网上其他人翻...

  • 我在ubantu下可以运行成功。

    Bert系列(一)——demo运行

    谷歌推出的Bert,最近有多火,估计做自然语言处理的都知道。据称在SQuAD等11项任务当中达到了state of the art。bert的原理可参考论文,或者网上其他人翻...

  • @沫白了岸 嗯嗯路径方面我基本都试过了,全路径,或者先cd到对应目录都试过,我在ubantu的服务器上做了一遍就可以,在我的win10上就不行

    bert as service 的使用记录

    肖涵博士的bert-as-service 安装: 要求: (1)Python >= 3.5(2)Tensorflow >= 1.10(3)不支持Python2!!! 准备工作...

  • 您好,谢谢您的讲解,您知道根据您你的指令,运行到这一步报错是为什么吗?
    I:�[36mGRAPHOPT�[0m:build graph...
    E:�[36mGRAPHOPT�[0m:fail to optimize the graph!
    Traceback (most recent call last):
    File "e:\anaconda3\lib\runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
    File "e:\anaconda3\lib\runpy.py", line 85, in _run_code
    exec(code, run_globals)
    File "E:\Anaconda3\Scripts\bert-serving-start.exe\__main__.py", line 9, in <module>
    File "e:\anaconda3\lib\site-packages\bert_serving\server\cli\__init__.py", line 4, in main
    with BertServer(get_run_args()) as server:
    File "e:\anaconda3\lib\site-packages\bert_serving\server\__init__.py", line 71, in __init__
    self.graph_path, self.bert_config = pool.apply(optimize_graph, (self.args,))
    TypeError: 'NoneType' object is not iterable

    bert as service 的使用记录

    肖涵博士的bert-as-service 安装: 要求: (1)Python >= 3.5(2)Tensorflow >= 1.10(3)不支持Python2!!! 准备工作...

  • 不错啊,很有用

    项目从python2.7移植到python3.6

    因为客户需求,项目需要从python2.7移植到python3.6, 下面记录一些移植步骤。 环境配置 python 版本升级:ubuntu下Python升级到3.6.7 或...

  • 博主您好,初学NLP,想问问您的数据格式是怎样的?

    文本向量化方法比较:tf-idf、doc2bow、doc2vec、lsi、lda

    先放个代码和结果,改天闲了总结。用余弦距离计算相似度以判断向量化效果tf-idf、doc2bow稀疏,适合短文本doc2vec效果时好时坏,偶然性大,不稳lsi、lda效果好...

  • 博主您好,想问问您的tensorflow是哪个版本的,我用的是1.11版本会报如下错误:
    File "E:\Anaconda3\Project\Transformer\modules.py", line 183, in multihead_attention
    tril = tf.contrib.linalg.LinearOperatorTriL(diag_vals).to_dense()
    AttributeError: module 'tensorflow.contrib.linalg' has no attribute 'LinearOperatorTriL'

    一步步解析Attention is All You Need!

    本文将通过细节剖析以及代码相结合的方式,来一步步解析Attention is all you need这篇文章。 这篇文章的下载地址为:https://arxiv.org/a...