240 发简信
IP属地:青海
  • ec2 run machine learning project

    自己的机器配置太慢了,所以打算在ec2上搭环境跑。可恶昨天居然搭了一天!记录一下主要碰到的问题 ec2上有8个gpu,结果code只能拿到一个g...

  • Distributed Pytorch碰到的一个问题

    这两天仔细看了下分布式pytorch的文档…起因是跑分布式pytorch的时候,在training的最后一个epoch挂掉了首先在最后一个epo...

  • Resize,w 360,h 240
    pytorch中碰到的memory leak问题

    最近碰到pytorch分布式训练时候,memory几乎线性增加,撑炸机器的问题。pytorch中内存泄漏常见的原因大概是以下几点: 不恰当的lo...

  • sparks 中数据倾斜的大坑

    这两天弄训练数据的时候碰到了一个大坑本来数据集就比较大,在划训练样本的时候,训练样本的分布就出现了不均匀的情况(有的parition多,有的少)...

  • spark job failure:Remote RPC Client Disassociated

    可能是需要加机器,或者选择升级机型 当然,以上在正常情况下不是最好的解决办法。当初的我通过加大机型直接绕开了问题…worker失联很有可能是因为...

  • git cherry-pick

    比如team最近在做新的version,某天该version code freeze了,但是你发现你最新的commit居然在code freez...

  • Cannot grow BufferHolder by size because the size after growing exceeds size limitation

    今天用spark的时候碰到的问题,直接对一个大的dataframe做agg,导致buffer超了。可以人为的在dataframe上append一...

  • word2vect中的negative-sample

    最近在调研embedding的方法,重新学习了一下word2vect,深感自己有很多不足…在看xin rong博士的paper:https://...

  • scala load data出现org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainLongDicti...

    出现这个问题是因为在parquet数据中,有的column数据类型不一致。发现这个问题是在load data的时候。如果 load 的数据是多路...