Avatar notebook default
15篇文章 · 20025字 · 2人关注
  • Resize,w 360,h 240
    ES实现百亿级数据实时分析-实战案例

    背景 我们小组主要负责Alpha机器学习平台(以下简称Alpha)的设计与实现工作,前段时间算法同学提出一个需求,希望能够按照小时为单位,看到每...

  • Resize,w 360,h 240
    机器学习平台——资源优化之路

    前言 人在做自己喜欢的事情时,时光总是过得很快。不知不觉到公司已经两年多了,在这两年的时间里,我做了很多“有趣又有用”的事情,其中最让我有成就感...

    6.8 1913 2 12
  • Resize,w 360,h 240
    “绞杀者模式”实现任务从Mesos向K8s迁移

    背景 我们机器学习平台上的任务最初是通过 Marathon 启动在Mesos集群上的,分布式训练框架是 ps-lite。但随着技术的变更升级,M...

  • Resize,w 360,h 240
    任务启动过程调用关系简化

    背景 两年前入职公司的时候,我们的机器学习任务都是启动在Mesos集群上,当时使用的训练框架还是ps-lite。一个ps-lite训练任务包含两...

  • Resize,w 360,h 240
    基于K8s的机器学习平台搭建(一)

    背景 我们公司作为一个业内领先的新闻资讯类公司,基于机器学习的推荐排序、自然语言处理、图像识别等算法能力必不可少,所以我们公司的机器学习平台也有...

  • K8s运行TensorFlow找不到libcuda.so.1

    今天在尝试将TensorFlow训练部署到K8s GPU机器上时,发现部分实例启动不起来,报出下面的错误: 从日志信息可以看到,是缺少libcu...

  • Resize,w 360,h 240
    我的团队建设历程

    不知不觉,从去年9月份入职到现在的公司,已经过去一年了。这一年付出了很多,也收获了很多,在此想把这一年的经历做一下简单的总结。 团队的问题 在我...

    3.3 1901 4 10 1
  • Resize,w 360,h 240
    训练分级方案

    背景 从下面两张图中可以看到,有大量实验资源利用率不足50%(当前为23个,2019.08.21数据,占比约42.5%),这些训练大多都独占一台...

  • Resize,w 360,h 240
    资源优化方案和效果

    背景 之前机器学习平台可用机器数量为324台,其中CPU机器289台,GPU机器35台。但由于一台机器上只能部署一个训练实例,导致集群整体资源利...

文集作者