IP属地:北京
一. cart决策树简述 我们知道决策树算法有ID3、C4.5和cart三种,ID3和C4.5是基于信息增益和信息增益比率做特征选择的,存在大量...
1. 目标 由于Flask是一个轻量级的Web框架,自带app.run()方法能够提供http接口服务,测试环境下测试非常方便,但是如果在生产环...
1. 问题 在工作中,多次遇到了jar包冲突的情况,就以这个为例,整理下解决思路。 现有某Spark程序,从Elasticsearch中读取数据...
1. 背景 1.1 问题概述 有10万+条短文本,均是用户反馈的问题(每条文本长度大概在200字左右),需要对这些文本进行主题聚类,看下用户反馈...
1. 需求 例如用户给定一个包含与或关系的关键词匹配规则: (G20&中国&(互联网|人工智能|AI)&(腾讯|阿里|阿里巴巴|百度|京东)) ...
1. 首先SimHash的算法生成图如下图所示: 生成步骤如下: 对于每篇文章,选择分词作为该篇文章的特征,获取去掉噪音的词做为文档特征,为每个...
1. TFIDF介绍 1.1 基本概念 TF(Term Frequency):代表词频,表示词在某篇文章中出现的频次,一般情况下词频越大,代表该...
1、分类 Collection接口 List,按照插入顺序保存元素 Set,插入元素不能重复且无序 Queue,先进先出 Map接口 键值对的一...