240 发简信
IP属地:广东
  • Scala 学习笔记

    Scala 学习笔记 1.函数式编程 函数式编程:函数式编程把函数当作一等公民,充分利用函数,支持函数的多种使用方式。在scala中,函数可以像变量一样,既可以作为函数的参数...

  • 建立自己的语料库

    最近和一些人讨论到什么样的人才能算作专家,其中有一个问题是 专家是不是应该能说会写? 这个问题很有意思,这里说的“能说会写”,广义的认为就是一个人的高质量输出能力。大部分人在...

  • 120
    Apache Spark 3.0 预览版正式发布,多项重大功能发布

    原文地址 ​2019年11月08日 数砖的 Xingbo Jiang 大佬给社区发了一封邮件, 宣布 Apache Spark 3.0 预览版正式发布, 这个版本主要是为了对...

  • 120
    Flink基本原理

    1.支持流处理的引擎:Spark和Flink Spark:基于批处理来模拟流的计算;Flink:基于流计算来模拟批处理;流式:只要数据一直在产生,计算就持续地进行批处理:在预...

  • 120
    Scala实现:KD-Tree(k-dimensional tree)

    Scala实现:KD-Tree(k-dimensional tree) kd-tree是一种分割k维数据空间的数据结构。主要应用于多维空间数据的搜索,经常使用在SIFT、KN...

  • Spark 本地连接OSS

    Spark 本地连接OSS 1. 对象存储 OSS 阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠...

  • 已知一点经纬度及与另一点距离和航向,求另一点经纬度

    本文结合Vincenty公式计算椭圆形地球模型目标点的方法 参考资料 http://www.movable-type.co.uk/scripts/latlong-vincen...

  • 120
    google-s2背后的数学

    我相信,很多人看到这个都是对google-s2有了解的,所以我在这里废话就不多说了,直接进入正题。 首先我们先看下目前都有什么资源 (1)GO源码:github.com/go...

  • Flink 异步I/O

    1.为什么需要异步IO flink在做实时处理时,有时候需要和外部数据交互,但是通常情况下这个交互过程是同步的,这样就会产生大量的等待时间;而异步操作可以在单个函数实例中同时...

  • 大数据之统计学基础(二):随机变量及其概率分布

    随机变量及其概率分布 随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会...

  • Spark DataFrame中rollup和cube使用

    我们平时在做报表的时候,经常会有各种分维度的汇总计算,在spark中我们最常用的就是groupBy操作,groupBy就是按照给定的字段名分组,后面接sum、count、av...

  • 大数据之统计学基础(一) -- 描述统计

    描述统计 1.描述数据水平的统计量 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数: 分位数:四分位数、中位数(中位数反映一组数...

  • markdown中公式编辑教程

    标签: Mathjax 公式编辑 markdown 目录 希腊字母 上标与下标 括号小括号与方括号大括号尖括号上取整下取整 求和与积分求和积分其他 分式与根式分式连分数根式 ...

  • Scala实现机器学习中常用的相识度和距离计算

    在机器学习和人工智能领域,距离(distance)、相似度(similarity)是经常出现的基本概念,关于距离和相似度度量的方法也多种多样,本文将总结一些常用的距离计算方法...