240 发简信
IP属地:内蒙古
  • TensorFlowOnSpark 源码解析

    前言 这两天琢磨了下spark-deep-learning和spark-sklearn两个项目,但是感觉都不尽人如意。在training时,都需要把数据broadcast到各...

  • @祝威廉 17年美团云做深度学习平台,用了这个项目,但用的时候都改的不像样子,后来给提了一个patch,解决需要改动代码的(整体发现很多问题)因整个yarn spark都改动了,patch差距有点大,也懒得去兼容就没有合并进去

    TensorFlowOnSpark 源码解析

    前言 这两天琢磨了下spark-deep-learning和spark-sklearn两个项目,但是感觉都不尽人如意。在training时,都需要把数据broadcast到各...

  • @祝威廉 以前是,现在不是:smile:

    TensorFlowOnSpark 源码解析

    前言 这两天琢磨了下spark-deep-learning和spark-sklearn两个项目,但是感觉都不尽人如意。在training时,都需要把数据broadcast到各...

  • 其实可以直接做到不修改任何代码迁移代码,直接将脚本封装成一个函数,也就是mapfun
    ,使用yarn分发代码到各个节点,美团云当初就是这么做的

    TensorFlowOnSpark 源码解析

    前言 这两天琢磨了下spark-deep-learning和spark-sklearn两个项目,但是感觉都不尽人如意。在training时,都需要把数据broadcast到各...

  • 120
    Ray - 面向增强学习场景的分布式计算框架

    如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:...

  • 我说的调度率是rm怎么将资源分配给各个用户的任务

    Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow训练的选择

    最近这段时间和同事一起花了不少精力来看Tensorflow on Hadoop的事情。为什么要把Tensorflow跑在Hadoop上呢?因为数据和计算资源都在Hadoop上...

  • Yarn的调度思想我理解是给每台机器分配任务(container),常用的fair保证的是资源离散调度,将container 分配到各个机器,这会导致gpu被切分的很散,而一台机器很难像cpu一样有数十个核,需求一机多卡的任务,会难以得到调度,另一方面为了体现公平,并不是将一个任务分配完再去分配下一个任务,在gpu场景下(tensorflow,caffe,mxnet 等)这些框架需要资源完全分配才能运行任务,调度算法不大合适,原来的mr,spark比较适合这类型的调度场景。上一份工作经历就是基于你说的这些框架,在恶劣的情况下资源调度率只有百分之60,最后是修改调度策略才解决。至于docker,怎么和yarn结合,有机会可以一起讨论下

    Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow训练的选择

    最近这段时间和同事一起花了不少精力来看Tensorflow on Hadoop的事情。为什么要把Tensorflow跑在Hadoop上呢?因为数据和计算资源都在Hadoop上...

  • 3.1虽然支持了GPU资源,但是调度策略太差,调度率很低,docker 方案还是不灵活

    Tensorflow on YARN Native Service - 可能目前最好的跑分布式Tensorflow训练的选择

    最近这段时间和同事一起花了不少精力来看Tensorflow on Hadoop的事情。为什么要把Tensorflow跑在Hadoop上呢?因为数据和计算资源都在Hadoop上...

  • 120
    理解 LSTM 网络

    作者: Christopher Olah (OpenAI)译者:朱小虎 Xiaohu (Neil) Zhu(CSAGI / University AI)原文链接:https:...