自己的机器配置太慢了,所以打算在ec2上搭环境跑。可恶昨天居然搭了一天!记录一下主要碰到的问题 ec2上有8个gpu,结果code只能拿到一个gpu。原因是环境变量CUDA_...
自己的机器配置太慢了,所以打算在ec2上搭环境跑。可恶昨天居然搭了一天!记录一下主要碰到的问题 ec2上有8个gpu,结果code只能拿到一个gpu。原因是环境变量CUDA_...
这两天仔细看了下分布式pytorch的文档…起因是跑分布式pytorch的时候,在training的最后一个epoch挂掉了首先在最后一个epoch/batch挂掉的原因,肯...
最近碰到pytorch分布式训练时候,memory几乎线性增加,撑炸机器的问题。pytorch中内存泄漏常见的原因大概是以下几点: 不恰当的loss累加 有些人累加梯度会直接...
这两天弄训练数据的时候碰到了一个大坑本来数据集就比较大,在划训练样本的时候,训练样本的分布就出现了不均匀的情况(有的parition多,有的少),主要的症状体现在200个pa...
可能是需要加机器,或者选择升级机型 当然,以上在正常情况下不是最好的解决办法。当初的我通过加大机型直接绕开了问题…worker失联很有可能是因为分布式运行的操作太过复杂了(或...
比如team最近在做新的version,某天该version code freeze了,但是你发现你最新的commit居然在code freeze之后merge的!!于是你该...
今天用spark的时候碰到的问题,直接对一个大的dataframe做agg,导致buffer超了。可以人为的在dataframe上append一个新的字段,根据字段先做一个a...
最近在调研embedding的方法,重新学习了一下word2vect,深感自己有很多不足…在看xin rong博士的paper:https://arxiv.org/abs/1...
上一篇文章,讲解了词向量的基本思想,为什么需要词向量,以及如何构建词向量。 然而,仅仅知道思想是不够的,所以这篇笔记详细地展示了word2vec的内部结构(以skip-gra...
出现这个问题是因为在parquet数据中,有的column数据类型不一致。发现这个问题是在load data的时候。如果 load 的数据是多路径的,有两种方式可以完成:方式...
CART(classification and regression tree)算法是分类回归树算法,它是决策树的一种实现。决策树一般有ID3,ID4.5和CART这三种算法...
欠拟合问题一般是很好解决的,提高模型复杂度(网络深度,embedding size等等)、加大训练数据量等。但是过拟合就是比较头疼的问题了,简单的根据欠拟合的方法倒推,模型的...
最近需要预测reach,是个回归问题。太久没碰代码,看到这个问题都有点懵…一般我们入门,接触的最基础的指标,就是均方差MSE(Mean Square Error):其中为预测...
最近工作用到了rebase,对于rebase还是有点懵,仔细补了一下姿势。一般来说,使用rebase主要是为了master分支的干净,git干净对公司来说是非常重要的。 re...
先说解决方案:把xgboost model的num_worker参数调小。 这个问题是在本地测试xgb时候碰到的,之前code在分布式集群上面测试过了,并没有问题。bug诡异...
Airflow是Airbnb开源的框架,可以做data pipeline和任务监控调度。它的优点在于能够非常方便的去监控、执行任务。比如每天重复要run的code,需要定时抓...
起因是我想给数据做个分布统计,但是数据太多了,画出来很杂,所以打算把数据按照范围做个分组,但是又不想自己写,所以找了好久的方法,目前也只有这两种偷懒的方法: pandas->...
之前上数据库课的时候还是看过window这个概念的,但是好久没用了…基本忘光…用到这个函数的起因,是在组织feature的时候需要历史特征,本来只需要前一天的历史数据,用fi...
行内与独行 行内公式:将公式插入到本行内,符号:$公式内容$,如:$xyz$ 独行公式:将公式插入到新的一行内,并且居中,符号:$$公式内容$$,如:$$xyz$$ 上标、下...