NatsuYori - 简书

IP属地：上海

ec2 run machine learning project
自己的机器配置太慢了，所以打算在ec2上搭环境跑。可恶昨天居然搭了一天！记录一下主要碰到的问题 ec2上有8个gpu，结果code只能拿到一个g...

120 0 0
Distributed Pytorch碰到的一个问题
这两天仔细看了下分布式pytorch的文档…起因是跑分布式pytorch的时候，在training的最后一个epoch挂掉了首先在最后一个epo...

751 0 0

pytorch中碰到的memory leak问题
最近碰到pytorch分布式训练时候，memory几乎线性增加，撑炸机器的问题。pytorch中内存泄漏常见的原因大概是以下几点：不恰当的lo...

0.1 6418 0 1
sparks 中数据倾斜的大坑
这两天弄训练数据的时候碰到了一个大坑本来数据集就比较大，在划训练样本的时候，训练样本的分布就出现了不均匀的情况（有的parition多，有的少）...

607 0 0
spark job failure：Remote RPC Client Disassociated
可能是需要加机器，或者选择升级机型当然，以上在正常情况下不是最好的解决办法。当初的我通过加大机型直接绕开了问题…worker失联很有可能是因为...

935 0 0
git cherry-pick
比如team最近在做新的version，某天该version code freeze了，但是你发现你最新的commit居然在code freez...

306 0 0
Cannot grow BufferHolder by size because the size after growing exceeds size limitation
今天用spark的时候碰到的问题，直接对一个大的dataframe做agg，导致buffer超了。可以人为的在dataframe上append一...

2069 0 0

word2vect中的negative-sample
最近在调研embedding的方法，重新学习了一下word2vect，深感自己有很多不足…在看xin rong博士的paper：https://...

353 0 0
scala load data出现org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainLongDicti...
出现这个问题是因为在parquet数据中，有的column数据类型不一致。发现这个问题是在load data的时候。如果 load 的数据是多路...

4296 0 0