采用了hierarchy的架构,即两层encoder(rnn_size取200),分别代表word-level和sentence-level。亮点在于,两层attention...

采用了hierarchy的架构,即两层encoder(rnn_size取200),分别代表word-level和sentence-level。亮点在于,两层attention...
文中指出,在大规模数据集上(尤其是书写不规范的ugc),cnn文本分类问题在char-level同样有很好的效果。文中alphabet总共有70个char: 模型包括6层卷积...
hierarchy指的是两层--word层和sentence层,模型很简单,想法很自然 word embedding bi-gru 作为word encoder word a...
DeepFM是一个集成了FM和DNN的神经网络框架,思路和Google的Wide&Deep相似,都包括wide和deep两部分。W&D模型的wide部分是广义线性模型,Dee...
ctr预估 其中底层为embedding+乘积层,embedding层由FM初始化(见FNN),从参数规模考虑embedding_size选择了10,隐层深度选择了3层,乘积...
ctr预估 ctr中传统的FM,以神经网络的角度来看可以等效为下图: 对比FM公式来看,第一项为图中最左边常数,第二项为每个field的权重,第三项为每两个field的交叉项...
推荐系统 Wide Component:一层线性结构(类似lr),特征包括raw feature以及手工特征(如cross product) Deep Component:e...
GBDT 梯度提升树实在提升树的基础上发展而来的一种使用范围更广的方法,当处理回归问题时,提升树可以看作是梯度提升树的特例(分类问题时是不是特例?)。 因为提升树在构建树每一...
目标 新兴企业种类多、创建流程短,传统人工搜集、分类的做法已不实用 互联网语料发达、更新速度快 直接目标:从互联网的大规模语料中,发掘出企业名 难点 这其是一个二段式的问题:...
传统的embedding,将词向量空间映射到d维 编码器+解码器--多层cnn,卷积核的大小k,参数规模为kd * 2d,其中kd为每一次卷积的输入矩阵大小(kd),2d为输...
对于输入Q,从QA库中检索出最接近的k个(q,a)对,其中检索模型(IR)基于BM25,并经过了去停用词等预处理 对每个候选的(Q,a)对进行评分,其中评分模型(Answer...
作者: Christopher Olah (OpenAI)译者:朱小虎 Xiaohu (Neil) Zhu(CSAGI / University AI)原文链接:https:...
在芬兰住过这么多年,这是头一次写的半文半图的文章来介绍芬兰。 这个国家对我影响至深,我太太说我言行举止里面至今都透露着北欧的风格。芬兰虽然不大,也就相当于两个山东省的面积,但...
问题定义:最受用户好评的作品/产品(同时需要有正面和负面两种反馈) 两种常见的错误算法是:得分 = 赞成票 - 反对票得分 = 赞成票 / 总票数显然,前者显著倾向大样本,后...
小时候玩FM,总对买妖人有谜之信仰,那种一毛不拔撸来一堆属性18、19、20的球员,那种感觉,就像买东西淘到便宜货--怎一个爽字了得~~~淘便宜货就要承担风险,当然,风险与潜...
参考文章:动量选股是王道:勇敢追涨,该出手时就出手A股到底能不能做股票量化投资?《Anomalies in Chinese A-Shares》 动量:资产在过去某个时间段内的...
总体结构: Skip-gram模型的目标函数是最大化: 对于Skip-gram,更大的context window 可以生成更多的训练样本,获得更精确的表达,但训练时间更长。...
Topic: Word RepresentationDataset: Sogou-T, HowNet 1889 distinct sememes 2.4 average se...