偏统计理论知识 1. 扑克牌54张,平均分成2份,求这2份都有2张A的概率。 M表示两个牌堆各有2个A的情况:M=4(25!25!)N表示两个牌堆完全随机的情况:N=27!2...
偏统计理论知识 1. 扑克牌54张,平均分成2份,求这2份都有2张A的概率。 M表示两个牌堆各有2个A的情况:M=4(25!25!)N表示两个牌堆完全随机的情况:N=27!2...
数据分析框架 海盗指标 AARRR 获取用户(Acquisition) 提高活跃度(Activation) 提高留存率(Retention) 获取营收(Revenue) 自传...
1.查询多列数据的最大值 CASE WHEN 方式 转换行格式后使用MAX函数 使用GREATEST函数 2.排序 跳过位次排序 连续排序 分组排序
注:MySQL8 中支持窗口函数(window functions) 在WHERE子句中引用别名列:将含有别名的列放入内嵌视图 在SELECT语句里使用条件逻辑:CASE表达...
1.行转列 2.列转行 3.在子查询中实现多列过滤 单列: 多列: 4.同一属性的多值过滤 使用关联进行查询 使用Group by实现查询
操作环境(ubuntu16.04) 启动服务 ./zkServer.sh start 客户端连接 ./zkCli.sh -server 127.0.0.1:2181 创建节点...
优化数据访问 是否向数据库请求了不需要的数据 MySQL是否在扫描额外的记录 MySQL使用三种方式应用WHERE条件 索引中使用WHERE 在存储引擎层完成 使用索引覆盖扫...
索引 存储引擎用于快速找到记录的一种数据结构(索引的基本功能)在MySQL中,存储引擎先在索引中找对对应值,根据匹配的索引记录找到对应的数据行。 索引类型 B-Tree索引1...
时间复杂度 O(1) 极少 O(logn) 几乎都是二分法 O(√n) 几乎是分解质因数 O(n) 高频 O(nlogn) 一般都可能要排序 O(n^2) 数组,枚举,动态规...
版本 7.7.1 环境 Windows10 单机模式 solr start 云模式 solr start -e cloud -noprompt 停止服务 solr stop ...
创建数据库 use DATABASE_NAME 查看所有数据库 show dbs 插入数据 db.DATABASE_NAME.insert({"name":"value"})...
MapReduce 一种并行编程模型,用于大规模数据处理任务 设计理念 计算向数据靠拢 减小网络中数据传输开销 框架 Master(运行JobTracker)/Slave...
创建表 create 'tempTable', 'f1', 'f2', 'f3' 向单元格添加数据 put 'tempTable', 'r1', 'f1:c1', 'hell...
HBase数据模型 表 行(由行键标识) 列族 列限定符 单元格 时间戳 HBase功能组件 库函数:链接到每个客户端 Master主服务器:负责管理和维护HBase表的分区...
HDFS最核心的概念 “块” 默认64MB 支持面向大规模数据存储 降低分布式节点的寻址开销 HDFS两大组件 名称节点 (管家)FsImage(维护文件系统树及元数据)...
Hadoop Hadoop 是一个开源的,可运行于大规模集群上的分布式计算平台 Hadoop 两大核心 HDFS MapReduce Hadoop 项目结构
大数据的概念 4V 数据量大(Volumn) 数据类型繁多(Variety) 结构化数据(10%) 非结构化数据(90%) 处理速度快(Velocity) 价值密度低(Val...
shell shell是一个程序,接受从键盘输入的命令,然后把命令传递给操作系统去执行。 一些命令 ls 列出目录内容 ls -l 长格式输出 file 确定文件类...
创建目录 -mkdir hadoop fs -mkdir -p /aaa/bbb 从本地剪切文件到hdfs -moveFromLocal hadoop fs -moveFr...