f6458ce75e53 - 简书

发简信

f6458ce75e53

5
关注
2
粉丝
0
文章
0

字数
0

收获喜欢
4

总资产

IP属地：贵州

f6458ce75e53

爱尔blue
写了 0 字，被 1 人关注，获得了 0 个喜欢
f6458ce75e53

朱小虎XiaohuZhu
写了 426867 字，被 4467 人关注，获得了 3326 个喜欢

朱小虎 Neil Zhu，University AI / CSAGI 创始人

f6458ce75e53

TensorFlowOnSpark 源码解析
前言这两天琢磨了下spark-deep-learning和spark-sklearn两个项目，但是感觉都不尽人如意。在training时，都需要把数据broadcast到各...

祝威廉
6350 5 10
f6458ce75e53

祝威廉
写了 263680 字，被 3535 人关注，获得了 2394 个喜欢

新博客地址： <a href="https://links.jianshu.com/go?to=https%3A%2F%2Fwww.zhihu.com%2Fpeople%2Fallwefantasy" target="_blank">https://www.zhihu.com/people/allwefantasy</a>
f6458ce75e53

@祝威廉 17年美团云做深度学习平台，用了这个项目，但用的时候都改的不像样子，后来给提了一个patch，解决需要改动代码的(整体发现很多问题)因整个yarn spark都改动了，patch差距有点大，也懒得去兼容就没有合并进去

TensorFlowOnSpark 源码解析
前言这两天琢磨了下spark-deep-learning和spark-sklearn两个项目，但是感觉都不尽人如意。在training时，都需要把数据broadcast到各...

祝威廉
6350 5 10
f6458ce75e53

@祝威廉以前是，现在不是

TensorFlowOnSpark 源码解析
前言这两天琢磨了下spark-deep-learning和spark-sklearn两个项目，但是感觉都不尽人如意。在training时，都需要把数据broadcast到各...

祝威廉
6350 5 10
f6458ce75e53

其实可以直接做到不修改任何代码迁移代码，直接将脚本封装成一个函数，也就是mapfun
,使用yarn分发代码到各个节点，美团云当初就是这么做的

TensorFlowOnSpark 源码解析
前言这两天琢磨了下spark-deep-learning和spark-sklearn两个项目，但是感觉都不尽人如意。在training时，都需要把数据broadcast到各...

祝威廉
6350 5 10

f6458ce75e53

彩色蚂蚁
写了 123576 字，被 698 人关注，获得了 617 个喜欢

程序员，喜欢钻研有趣的东西，公众号：“ 望月的蚂蚁”，关于：乐高，桌游，摄影，旅行等有趣的东东。公众号： “大数据务虚杂谈” 关于：大数据平台建设的实践
f6458ce75e53

Ray - 面向增强学习场景的分布式计算框架
如果关注这个领域的同学可能知道，Ray其实在去年就已经在开源社区正式发布了，只不过后来就一直没有什么太大动静，前段时间也是因为机缘巧合，我又回头学习了解了一下，顺便总结如下：...

彩色蚂蚁
5532 0 9
f6458ce75e53

我说的调度率是rm怎么将资源分配给各个用户的任务

Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow训练的选择
最近这段时间和同事一起花了不少精力来看Tensorflow on Hadoop的事情。为什么要把Tensorflow跑在Hadoop上呢？因为数据和计算资源都在Hadoop上...

LeftNotEasy
8077 7 11
f6458ce75e53

Yarn的调度思想我理解是给每台机器分配任务(container)，常用的fair保证的是资源离散调度，将container 分配到各个机器，这会导致gpu被切分的很散，而一台机器很难像cpu一样有数十个核，需求一机多卡的任务，会难以得到调度，另一方面为了体现公平，并不是将一个任务分配完再去分配下一个任务，在gpu场景下(tensorflow,caffe,mxnet 等)这些框架需要资源完全分配才能运行任务，调度算法不大合适，原来的mr，spark比较适合这类型的调度场景。上一份工作经历就是基于你说的这些框架，在恶劣的情况下资源调度率只有百分之60，最后是修改调度策略才解决。至于docker，怎么和yarn结合，有机会可以一起讨论下

Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow训练的选择
最近这段时间和同事一起花了不少精力来看Tensorflow on Hadoop的事情。为什么要把Tensorflow跑在Hadoop上呢？因为数据和计算资源都在Hadoop上...

LeftNotEasy
8077 7 11
f6458ce75e53

LeftNotEasy
写了 2390 字，被 26 人关注，获得了 11 个喜欢

f6458ce75e53

3.1虽然支持了GPU资源，但是调度策略太差，调度率很低，docker 方案还是不灵活

Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow训练的选择
最近这段时间和同事一起花了不少精力来看Tensorflow on Hadoop的事情。为什么要把Tensorflow跑在Hadoop上呢？因为数据和计算资源都在Hadoop上...

LeftNotEasy
8077 7 11
f6458ce75e53

理解 LSTM 网络
作者： Christopher Olah （OpenAI）译者：朱小虎 Xiaohu (Neil) Zhu（CSAGI / University AI）原文链接：https:...

朱小虎XiaohuZhu
710742 96 967 29
f6458ce75e53

程序员
小彤花园编，96810 篇文章，1663177 人关注

如果你是程序员，或者有一颗喜欢写程序的心，喜欢分享技术干货、项目经验、程序员日常囧事等等，欢迎投稿《程序员》专题。专题主编：小彤花园 http://www.jianshu.com/users/4a4eb4feee62/ 【程序员】专题拒稿指北：http://www.jianshu.com/p/7c8b33b5f63b 投稿须知： 1.收录相关技术文章，但不限于技术，也可以是项目经验类的文章和程序员日常。 2.文章內不得有任何推广信息。包括但不限于公众号、微博、微信，更不得在通过投稿后再修改文章加入推广信息。你可以将这些推广以及个人信息放在个人主页介绍里。 3.字数极少，段落混乱，大段代码没有放到代码框的文章不收录 4.不相关的内容不收录，请确认文章内容和本专题相关目前针对优质作者及爱好者，开设了官方程序员微信群，希望加入请发简信给主编小彤花园索取个人微信，主编会将你加入到【程序员】微信群，分享内容，收获知识。添加微信时备注昵称。
f6458ce75e53