240 投稿
收录了21篇文章 · 3人关注
  • Resize,w 360,h 240
    ES实现百亿级数据实时分析-实战案例

    背景 我们小组主要负责Alpha机器学习平台(以下简称Alpha)的设计与实现工作,前段时间算法同学提出一个需求,希望能够按照小时为单位,看到每...

  • Resize,w 360,h 240
    《实时展示K8s可用资源》方案实现

    背景 算法同学经常要在我们的Alpha机器学习平台(以下简称Alpha)上启停实验,但由于机器学习任务耗费资源较多,且资源比较紧张,我们需要在用...

  • Kubernetes GPU共享实践

    环境准备 1. GPU 节点准备 GPU共享依赖NVIDIA驱动和nvidia-docker2,需要事先安装。NVIDIA驱动安装参考nvidi...

  • Resize,w 360,h 240
    机器学习平台——资源优化之路

    前言 人在做自己喜欢的事情时,时光总是过得很快。不知不觉到公司已经两年多了,在这两年的时间里,我做了很多“有趣又有用”的事情,其中最让我有成就感...

  • Resize,w 360,h 240
    Athena-贝壳流量实验平台设计与实践

    作者雏鹰(企业代号名),目前负责贝壳找房增长方向AB实验平台研发工作。 引言 ​ 随着贝壳找房业务的不断增长,精细化运营显得尤为重要。为了保...

  • Resize,w 360,h 240
    “绞杀者模式”实现任务从Mesos向K8s迁移

    背景 我们机器学习平台上的任务最初是通过 Marathon 启动在Mesos集群上的,分布式训练框架是 ps-lite。但随着技术的变更升级,M...

  • Resize,w 360,h 240
    任务启动过程调用关系简化

    背景 两年前入职公司的时候,我们的机器学习任务都是启动在Mesos集群上,当时使用的训练框架还是ps-lite。一个ps-lite训练任务包含两...

  • Resize,w 360,h 240
    基于K8s的机器学习平台搭建(一)

    背景 我们公司作为一个业内领先的新闻资讯类公司,基于机器学习的推荐排序、自然语言处理、图像识别等算法能力必不可少,所以我们公司的机器学习平台也有...

  • K8s运行TensorFlow找不到libcuda.so.1

    今天在尝试将TensorFlow训练部署到K8s GPU机器上时,发现部分实例启动不起来,报出下面的错误: 从日志信息可以看到,是缺少libcu...

  • Resize,w 360,h 240
    我的团队建设历程

    不知不觉,从去年9月份入职到现在的公司,已经过去一年了。这一年付出了很多,也收获了很多,在此想把这一年的经历做一下简单的总结。 团队的问题 在我...

    3.3 王勇1024 4 10 1