小小兰哈哈 - 简书

发简信

小小兰哈哈

9
关注
3
粉丝
35
文章
23576

字数
13

收获喜欢
2

总资产

IP属地：北京

小小兰哈哈

Spark 学习笔记
dataframe create 创建dataframe val training = ss.createDataFrame(Seq( (1.0, Vectors.de...

597 0 0
小小兰哈哈

随机数
笔者近期使用了随机数做抽样，本来是一个简单的应用，但是我想要探究一下随机数的生成原理，就看了一些网上的相关文章，总结如下。首先贴一段是用c# 的random 产生随机数的代...

329 0 0

小小兰哈哈

ProductQuantizer-向量压缩
Product Quantizer 是一种将空间内的点x，通过kmeans算法映射到多个聚类中心, 然后在通过聚类中心表示该点x的向量压缩方法. 笔者在ANN算法和fastt...

1168 0 0
小小兰哈哈

生长函数和VC 维
背景: The sample complexity bounds of the previous chapter are uninformative when dealing...

1088 0 0
小小兰哈哈

PAC-learning
PAD-learnable的定义: P(Rs(h(x))>=ϵ)<=δ * 存在对应的其中是样本的数量，代表样本的分布代表样本空间 * 存在对应的Dm,其中,m是样本的数量...

732 0 0
小小兰哈哈

bert 模型压缩原理
1. 压缩目的: 在基本不影响模型效果的基础上,对bert模型进行同构压缩，将layer 与embedding size减少，尽可能提升模型的性能。比较经典的压缩尺寸是 ...

696 0 0
小小兰哈哈

AUC 理论推导
一. 应用场景 1.分类 2. ranking 二. AUC的意义解释在随机抽取两个正负样本，负样本得分比正样本高的比例. 这样的解释，在分类场景和rank场景都能说得通....

557 0 0

小小兰哈哈

Foundations of Machine Learning 详解
《Foundations of Machine Learning》一书是一本很好的机器学习教材，作者: Mohri,Rostamizeadeh, Talwalkar. Ma...

2061 0 0
小小兰哈哈

使用spark 训练机器学习大数据量情况下模型-native bayes
引言机器学习模型，如nb, svm, xgboost, gdbt, crf 等，是进行分类，排序，回归的常用工具。目前，有许多机器学习的工具性platform，如sklea...

290 0 1
小小兰哈哈

@Justaman 是的，这个写作有一段历史了，记忆有点模糊，应该是远吗

elmo 实验心得及elmo个人理解
1. 名词：ELMO：哈工大LTP 开发的动态词向量。问题一：何为动态词向量：普通的词向量，是静态的，也就是一个词代表一个N维向量，这种向量不随着语境的变化而变化，不管在...

小小兰哈哈
3368 2 0
小小兰哈哈

正则表达式匹配中的分组匹配
分组的含义在正则表达式中，需要在一个序列中匹配到的单元，在写编辑正则模板的时候用括号0 括起来。并且.为了方便给括号里面的内容璧值，可以采用group-Name，分组命名的...

2825 0 0
小小兰哈哈

深度学习——cnn与全连接层的前向传播机制
神经网络在目前各种nlp与cv的场景都有广泛的应用。那么，Tensor流经过各个layer的机理是什么？一.CNN cnn引入有两个需要注意的概念,一是滑动窗口的机制,另一...

950 0 0

小小兰哈哈

tensorflow c++ api 预测python训练好的模型
一.安装说明： 1.安装bazel, Eigen 1）安装bazel 本人采用的源码安装方式，在https://github.com/bazelbuild/bazel/rel...

636 0 0
小小兰哈哈

fasttext的源码阅读
最近做了fasttext的源码阅读，分享一下心得。 1.所用数据结构： 1）Matrix（父类)->DenseMatrix（子类） DenseMatrix类里面有...

851 0 1
小小兰哈哈

fasttext-advance版本
该方法的优化点是将位置信息添加到word2vec的计算中。 word2vec有两种实现方式，一种是cbow，基于context（上下文S词）预测中心词，另一种是skipgra...

325 0 0
小小兰哈哈

利用大量无标注样本提升小数据标注集的效果
本文中介绍使用无标注样本提升小数据标注集合的效果，也就是一种数据增强的思想。一般来说，目前在nlp中，使用比较普遍效果公认的数据增强方法，一是eda，另一种是回译；EDA是...

1189 0 0
小小兰哈哈

deep pyramid CNN 论文阅读
最近有个分类任务要用c++完成，调研了目前开源的深度学习的文本分类方法，tencent的AILAB在ACL里面发表的《Deep Pyramid Convolutional N...

756 0 0

小小兰哈哈

pytorch 安装（转载）
使用CUDA安装9 conda install pytorch=0.4.1 cuda90 -c pytorch 要么 conda install pytorch=0.4.1 ...

227 0 0
小小兰哈哈

xgboost模型一些问题的论文解读
xgboost是目前效果最优的一款集成模型。那么，xgboost是个啥东西，xgboost的boost思路又是怎么产生的呢。阅读了paper 《greedy functio...

650 0 0
小小兰哈哈

bazel build说明笔记
bazel笔记： bazel的编译是基于工作区，也就是项目的根目录 1. workspace文件：制定当前文件夹就是一个bazel工作区。 2.一个或多个build文件，如果...

3857 0 0

暂无个人介绍