东皇Amrzs - 简书

IP属地：台湾

【TF】如何快速预览并解析TFRecord数据
大规模深度学习，快速处理和解析TFRecord已经是必备要求了，记录一下如何快速预览和解析TFRecord导入相关包加载TFRecord（这里...

1341 0 0
[NLP] Doc2vec原理解析及代码实践
Doc2vec段落向量的训练方法，与训练词向量类似，段落向量的训练分为训练数据预处理和段落向量训练两个步骤。训练数据预处理：对段落进行分词处理...

3976 0 0

深入理解推荐系统：Position Bias
Position Bias现象：在排序结果中，排在前面的结果通常能获取更高点击率，如图1(a)；对于同一个结果，排在不同的位置，点击率也有差异...

3658 1 0
Paper Reading 《Real-Time Machine Learning: The Missing Pieces》
7R原则：提出分布式在线学习计算框架应该具备的7个原则简称（7R）： Performance Requirements：性能要求 R1: Lo...

404 0 0
Paper Reading《The Dataflow Model- A Practical Approach to Balancing Correctness, Latency, and Cos...
What is DataFlow ？谷歌的Dataflow首先是一个为用户提供以流式或批量模式处理海量数据能力的服务： https://clo...

737 0 0
[Spark MLlib] MLlib基本数据类型（1）
MLLib提供了一系列基本数据类型以支持底层的机器学习算法。主要的数据类型包括：标注点（Labeled Point）、本地向量（Local Ve...

1551 0 0
Impala 实现在指定位置添加列
今天在数据脱敏的工作中碰到一个需求：将数据仓库中的用户画像的phone字段以及该字段下的数据全部删除 1. 错误示范：impala里面直接删除该...

3806 0 0

Linux user permission
chgrp 命令功能：改变文件或目录所属的组。语法：chgrp ［选项］ group filename¼ 参数： -c或–changes ...

591 0 0
Linux mount disk
Linux的硬盘识别: 一般使用”fdisk -l”命令可以列出系统中当前连接的硬盘设备和分区信息.新硬盘没有分区信息,则只显示硬盘大小信息....

0.1 1238 0 1