240 发简信
IP属地:安徽
  • 零碎的笔记

    1.oracle数据库中查字段名称、类型及comment 2.查询owner 3.数据导出将txt转成csv 4.数仓建设的一些资料

  • hive not in 子查询踩坑

    在hive中使用not in 子查询时,一定要去掉null值;否则满足条件的数据会返回null值,而不是true,如下图所示是个例子

  • python数据分析系列1.5——map()&apply()&applymap()/sort()&sorted()&argsort()

    第二周的作业是熟悉Python基础,了解pandas数据结构,这些资料网上很全,所以本文打算总结一些"长得很像"的函数,关于概率分布将继续在下一篇文章描述。 1.1 map函...

  • 数据分析之描述性统计

    统计学包括描述性统计和推论统计。 描述性统计的含义——"A descriptive statistic is a summary statistic that quantit...

  • python数据分析系列一——描述性统计

    这是python数据分析系列文章,从统计学基础知识到机器学习,将跟随居士的学习教程持续更新。这一篇主要描述数据集中趋势,离散程度以及分布形态等知识点,下一篇将讲述概率分布。 ...

  • 120
    pandas常用函数

      说起pandas这个是python数据清洗的利器,它可以让你像sql一样操作数据,同时可以对数据进行各种计算,转换完成后还可以方便的存储到excel,转化为array、M...

  • python正则表达式必知必会

      正则是做数据分析和挖掘必须要会的一种方法,会了它很多问题其实就可以高效的解决了。说一个最常用的应用场景,在文本识别中,使用正则可以快速识别出类似于qq号、广告、联系方式等...

  • 120
    xgboost原理及调参方法-通俗易懂版本

      xgboost是各种比赛中最常使用的方法,网上介绍非常多,但是大部分看起来都比较费劲,这篇文章我将通俗的讲一下xgboost是在干什么,是怎么实现的,每一步的细节中要注意...

  • 120
    完全理解RNN(循环神经网络)

    1.RNN基础概念和结构   RNN(Recurrent Neural Network)即循环神经网络,用于解决训练样本输入是连续的序列,且序列的长短不一的问题,比如基于时间...

  • 好文,作者真是集帅气与智慧于一身的天才

  • hive进阶宝典二——hive 常用小技巧

    1.日期格式转换(将yyyymmdd转换为yyyy-mm-dd) 2.hive修改库名、表名注释、表属性 3..hive去掉字段中除字母和数字外的其它字符 4.hive解析j...

  • hive进阶宝典一——hive常用参数设置

    1.hive并行执行 **2.增大hive memory--java heep space ** 3.mr读取递归目录设置hive执行引擎为mr时,默认不支持读取递归目录,如...

  • hive lateral view explode (array()) array为null

    谈一下使用hive udtf 函数lateral view explode(array()) array为空时遇到的坑,这个UDTF转换的Array为空的记录,自动被过滤掉...

  • 120
    一次批量下载上交所公告pdf的尝试

    大家平时可能有需要批量下载pdf的场景,小编会分享一下第一次尝试批量下载上交所公告的尝试历程。 1.导入爬虫必备的常用包 2.构建list分别存放pdf的链接地址和pdf名称...