薛定谔哥哥 - 简书

发简信

薛定谔哥哥

1
关注
9
粉丝
5
文章
4423

字数
13

收获喜欢
1

总资产

IP属地：澳门

薛定谔哥哥

Docker镜像瘦身方法
1.使用smaller镜像作为基础镜像2.清理无用的yum apt pip缓存使用多阶段构建多个RUN指令合并为一个

171 0 0
薛定谔哥哥

海量数据处理问题之MapReduce
什么是MapReduce? MapReduce是Google提出的一个的软件架构，用于大规模数据集的并行运算。Map Reduce的思想很简单，就是通过Map步骤使用多台...

169 0 0

薛定谔哥哥

社招阿里，字节，拼多多，滴滴面挂经历总结
阿里：投递部门：阿里云智能事业群投递岗位：Java开发专家面试结果: 二面挂一面(电面)：面试官因为是我同事的朋友，他说那就给你一点建议：(1) 面试和面试官阐述的...

2454 0 0
薛定谔哥哥

爬虫线程开的多了应该是。

爬取搜狐几十万新闻数据——一些见解与感悟
因为负责一个新闻推荐系统的项目，需要采集大量的新闻数据作为文本分类的材料，通过自己的不断摸索，以知乎上某位大牛的框架为基础，完成了一个能采集几十万新闻数据的爬虫，并且健壮性非...

薛定谔哥哥
10340 13 12
薛定谔哥哥

@像一块滚石_e941 这个应该是提取了错误的url，你改了代码吗？

爬取搜狐几十万新闻数据——一些见解与感悟
因为负责一个新闻推荐系统的项目，需要采集大量的新闻数据作为文本分类的材料，通过自己的不断摸索，以知乎上某位大牛的框架为基础，完成了一个能采集几十万新闻数据的爬虫，并且健壮性非...

薛定谔哥哥
10340 13 12
薛定谔哥哥

不会停的蜗牛
写了 399919 字，被 7771 人关注，获得了 7904 个喜欢

我是 Alice 喜欢人工智能，行动派 创造力，思考力，学习力提升修炼进行中 欢迎志同道合的小伙伴们和我一起学习 微信：XerDudu，备注简书 公众号：极客X养成计划 转载记得联系作者哦！
薛定谔哥哥

@像一块滚石_e941 这个线程本身就是一直运行的，不断获得url然后爬取网页内容，除非遇到被封异常退出的情况线程才会结束。

爬取搜狐几十万新闻数据——一些见解与感悟
因为负责一个新闻推荐系统的项目，需要采集大量的新闻数据作为文本分类的材料，通过自己的不断摸索，以知乎上某位大牛的框架为基础，完成了一个能采集几十万新闻数据的爬虫，并且健壮性非...

薛定谔哥哥
10340 13 12

薛定谔哥哥

对于机器学习中训练集(train set)、验证集(cross vaildation set)和测试集(test set)的理解
机器学习中为什么要把数据集划分成这么三个部分？我们可以这么做个比喻来帮助我们理解。我们在数据集上训练模型的过程就相当于我们为了考试考出好成绩刷题的过程，我们的最终...

1022 0 1
薛定谔哥哥

大学生活
柚子sara 编，72388 篇文章，728132 人关注

《大学生活》专栏收稿要求｜写在前面｜ “这个专栏收稿的标准真的不低啊！专栏只收与大学有关的文章，什么明星，风水，工作跑题的文章，就请不要投这个专栏了。” 投稿的具体要求如下（务必仔细阅读）: 1.质量！（1）如果你的文章被拒且没有理由，那原因一定是质量不行。（2）通篇流水账，你有考虑过小学语文老师的感受吗？（3）还有日记，摘抄、目标类、打卡类的文章，请投到相关的专题，或者自己监督自己！！（4）拒绝标题党，鸡汤文！（5）诗歌一般不收录，因为有对应的专题。（6）没有标题（系统自定的当天的日期为题目）的不要！连标题都没有，一点都不严谨！ 2.字数的问题。（1）入选进专栏的或日记或随笔或连载，字数要过八百。（2）短篇小说字数要两千。连载小说要有二百字的小说简介，题目格式为小说名章节数小标题。 3.排版要求。（1）文章尽量简单大方，避开罗里吧嗦的花哨！（2）行距，间距保持一致。（3）文章不是聊天界面，当然也不是图片库！｜写在后面的话｜有美人美食美景之说，也有美文之念。好的文章看了心旷神怡，而不好的文字，看多了，真的想骂街。所以请尊重自己的文字也请尊重我们这些小编的时间，我们会温柔待之你的文字，但拒稿也是不得不为之。凡事都要汰旧换新，请努力做到迎浪不败的作者吧
薛定谔哥哥

爬取搜狐几十万新闻数据——一些见解与感悟
因为负责一个新闻推荐系统的项目，需要采集大量的新闻数据作为文本分类的材料，通过自己的不断摸索，以知乎上某位大牛的框架为基础，完成了一个能采集几十万新闻数据的爬虫，并且健壮性非...

10340 13 12
薛定谔哥哥