240 发简信
IP属地:澳门
  • Docker镜像瘦身方法

    1.使用smaller镜像作为基础镜像2.清理无用的yum apt pip缓存 使用多阶段构建 多个RUN指令合并为一个

  • 120
    海量数据处理问题之MapReduce

    什么是MapReduce? MapReduce是Google提出的一个的软件架构, 用于大规模数据集的并行运算。Map Reduce的思想很简单,就是 通过Map步骤使用多台...

  • 社招阿里,字节,拼多多,滴滴面挂经历总结

    阿里: 投递部门:阿里云智能事业群投递岗位:Java开发专家面试结果: 二面挂 一面(电面): 面试官因为是我同事的朋友,他说那就给你一点建议:(1) 面试和面试官阐述的...

  • 爬虫线程开的多了应该是。

    爬取搜狐几十万新闻数据——一些见解与感悟

    因为负责一个新闻推荐系统的项目,需要采集大量的新闻数据作为文本分类的材料,通过自己的不断摸索,以知乎上某位大牛的框架为基础,完成了一个能采集几十万新闻数据的爬虫,并且健壮性非...

  • @像一块滚石_e941 这个应该是提取了错误的url,你改了代码吗?

    爬取搜狐几十万新闻数据——一些见解与感悟

    因为负责一个新闻推荐系统的项目,需要采集大量的新闻数据作为文本分类的材料,通过自己的不断摸索,以知乎上某位大牛的框架为基础,完成了一个能采集几十万新闻数据的爬虫,并且健壮性非...

  • @像一块滚石_e941 这个线程本身就是一直运行的,不断获得url然后爬取网页内容,除非遇到被封异常退出的情况线程才会结束。

    爬取搜狐几十万新闻数据——一些见解与感悟

    因为负责一个新闻推荐系统的项目,需要采集大量的新闻数据作为文本分类的材料,通过自己的不断摸索,以知乎上某位大牛的框架为基础,完成了一个能采集几十万新闻数据的爬虫,并且健壮性非...

  • 对于机器学习中训练集(train set)、验证集(cross vaildation set)和测试集(test set)的理解

    机器学习中为什么要把数据集划分成这么三个部分?我们可以这么做个比喻来帮助我们理解。我们在数据集上训练模型的过程就相当于我们为了考试考出好成绩刷题的过程,我们的最终...

  • 120
    爬取搜狐几十万新闻数据——一些见解与感悟

    因为负责一个新闻推荐系统的项目,需要采集大量的新闻数据作为文本分类的材料,通过自己的不断摸索,以知乎上某位大牛的框架为基础,完成了一个能采集几十万新闻数据的爬虫,并且健壮性非...

个人介绍
在杭程序员,曾在华为云数据库团队,360企业云盘团队工作,任职运维开发相关岗位,技术栈:python,golang, kubernetes,prometheus云原生相关套件,在这里记录一些工作面试遇到的问题。