240 发简信
IP属地:上海
  • 120
    PySpark之聚合函数

    简介 PySpark在DataFrame API中定义了内置的标准聚合(Aggregate)函数,当我们需要对DataFrame的列进行聚合操作时候,这些函数就可以派上用场。...

  • 120
    【呆鸟译Py】Python 数据科学速查表 - PySpark系列(SQL与RDD)

    【呆鸟译Py】Python 数据科学速查表 - Python、导入数据及 Jupyter Notebook 【呆鸟译Py】Python 数据科学速查表 - 数据处理系列(Nu...

  • pyspark一些简单常用的函数方法

    1、将一个字符或数字列转换为vector/array 2、从一个向量或数组列中获取某个位置处的值 3、单个list列变多列 参考https://stackoverflow.c...

  • 我在去年年底至今完整学习罗辑思维,尤其批判思维,认知心理学方面内容 ,结合自己毕业十年深度复盘感触颇多,暂时放下了机器学习和人工智能等专业技能学习,我认为这种放下很值得,因为为什么做一件事情比做什么事情重要的多,它决定你选择,学习方法,思考方法,以及如何在生活管理好自己情绪,如何工作中更好应用实践等等,未来人和人核心竞争在于时间创造价值,也就是作者说的质,在单位时间创造效能比他人多,生命长度越长,而思维能力包括逻辑思维和非逻辑思维是从小到大最容易忽略的底层核心能力,最后希望作者关注我的认知系列,谢谢😀

  • 比方说只有两种可能性,1和0,p(x=1)=P,p(x=0)=1-p(伯努利分布),熵H(P)=-plog(p)-(1-p)log(1-p),把熵这个公式去画图,是拱桥形(对称)的曲线,最大值时p=0.5,H(P)=1,为最大。

    机器学习面试之最大熵模型

    最大熵模型属于运用最大熵原理的多分类模型,这个模型在面试中经常会与逻辑回归一起问,比如,为什么说二者是类似的?要解答这个问题,需要对两个模型的原理都有清晰的理解,很多面试者虽...

  • 120
    (数据结构)十分钟搞定时间复杂度(算法的时间复杂度)

    我们假设计算机运行一行基础代码需要执行一次运算。 那么上面这个方法需要执行 2 次运算 这个方法需要 (n + 1 + n + 1) = 2n + 2 次运算。 我们把 算...

  • 120
    深度学习之路(一):用LSTM网络做时间序列数据预测

    简介 问题:有一组1维数据,可能是某商品的销售量,可能是股票的价格等,用深度学习模型来解决对该数据的预测问题,比如用前50个数据,来预测下一个数据。 数据的读取及处理: 读取...

  • 120
    机器学习-特征工程

    outline 概念 预处理 特征选择 降维 概念 数据集由数据对象组成,一个数据对象代表一个实体属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(...

  • 120
    需求分析基础知识整理

    一、需求分析相关 需求分析就是发现根本性的问题,设计就是从不同的维度去思考解决方案。 三大要素:动机、担忧、阻碍。 策略:强化动机;消除担忧;交互路径的设计减少阻碍。 真实需...

  • 数据预处理之异常值(python)

    除了缺失值外,异常值也是数据中常有的噪音,但并非异常值都需要被处理,异常值出现的原因有很多,结合实际业务,他们往往可以被分为“真异常”和“假异常”。有时特定业务动作的变化会引...

  • 120
    今我来思,堆栈泛化(Stacked Generalization)

    ​在集成学习(Ensemble Learning)中除了Bagging和Boosting对数据的横向划分划分之外,还有一个纵向划分(加深)的方法, 一般称为Stacked G...

  • 120
    2018年度BI工具总结

    每个企业都处于竞争激烈的环境中,每个企业都在努力获得并保持竞争优势。从应收账款到市场份额,企业都有各种跟踪指标。传统上,这些参数在分类账中进行跟踪,随后转换为电子表格...