dataframe create 创建dataframe val training = ss.createDataFrame(Seq( (1.0, Vectors.de...
dataframe create 创建dataframe val training = ss.createDataFrame(Seq( (1.0, Vectors.de...
笔者近期使用了随机数做抽样,本来是一个简单的应用,但是我想要探究一下随机数的生成原理,就看了一些网上的相关文章,总结如下。 首先贴一段是用c# 的random 产生随机数的代...
Product Quantizer 是一种将空间内的点x,通过kmeans算法映射到多个聚类中心, 然后在通过聚类中心表示该点x的向量压缩方法. 笔者在ANN算法和fastt...
背景: The sample complexity bounds of the previous chapter are uninformative when dealing...
PAD-learnable的 定义: P(Rs(h(x))>=ϵ)<=δ * 存在对应的其中是样本的数量,代表样本的分布代表样本空间 * 存在对应的Dm,其中,m是样本的数量...
1. 压缩目的: 在基本不影响模型效果的基础上,对bert模型进行同构压缩,将layer 与embedding size减少, 尽可能提升模型的性能。 比较经典的压缩尺寸是 ...
一. 应用场景 1.分类 2. ranking 二. AUC的意义解释 在随机抽取两个正负样本,负样本得分比正样本高的比例. 这样的解释,在分类场景和rank场景都能说得通....
《Foundations of Machine Learning》一书是一本很好的机器学习教材, 作者: Mohri,Rostamizeadeh, Talwalkar. Ma...
引言 机器学习模型,如nb, svm, xgboost, gdbt, crf 等,是进行分类,排序,回归的常用工具。目前,有许多机器学习的工具性platform,如sklea...
@Justaman 是的,这个写作有一段历史了,记忆有点模糊,应该是远吗
elmo 实验心得及elmo个人理解1. 名词:ELMO:哈工大LTP 开发的动态词向量。 问题一:何为动态词向量: 普通的词向量,是静态的,也就是一个词代表一个N维向量,这种向量不随着语境的变化而变化,不管在...
分组的含义 在正则表达式中,需要在一个序列中匹配到的单元,在写编辑正则模板的时候用括号0 括起来。并且.为了方便给括号里面的内容璧值,可以采用group-Name,分组命名的...
神经网络在目前各种nlp与cv的场景都有广泛的应用。那么,Tensor流经过各个layer的机理是什么? 一.CNN cnn引入有两个需要注意的概念,一是滑动窗口的机制,另一...
一.安装说明: 1.安装bazel, Eigen 1)安装bazel 本人采用的源码安装方式,在https://github.com/bazelbuild/bazel/rel...
最近做了fasttext的 源码阅读,分享一下心得。 1.所用数据结构: 1)Matrix(父类)->DenseMatrix(子类) DenseMatrix类里面有...
该方法的优化点是将位置信息添加到word2vec的计算中。 word2vec有两种实现方式,一种是cbow,基于context(上下文S词)预测中心词,另一种是skipgra...
本文中介绍使用无标注样本提升小数据标注集合的效果,也就是一种数据增强的思想。 一般来说,目前在nlp中,使用比较普遍效果公认的数据增强方法,一是eda,另一种是回译;EDA是...
最近有个分类任务要用c++完成,调研了目前开源的深度学习的文本分类方法,tencent的AILAB在ACL里面发表的《Deep Pyramid Convolutional N...
使用CUDA安装9 conda install pytorch=0.4.1 cuda90 -c pytorch 要么 conda install pytorch=0.4.1 ...
xgboost是目前效果最优的一款集成模型。那么,xgboost是个啥东西,xgboost的boost思路又是怎么产生的呢。 阅读了paper 《greedy functio...
bazel笔记: bazel的编译是基于工作区,也就是项目的根目录 1. workspace文件:制定当前文件夹就是一个bazel工作区。 2.一个或多个build文件,如果...