我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。 了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA(Explo...
IP属地:广东
我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。 了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA(Explo...
一、样本不均衡的介绍 1.1 样本不均衡现象 样本(类别)样本不平衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比...
一、原理,注意点:字符串存储,所以dtypes的类型要为object 二、读书数据,获取原始df的大小 三、使用categorical类型降低存储量,对数据的展示和使用没有影...
Pandas的axis参数怎么理解? axis=0或者"index":如果是单行操作,就指的是某一行如果是聚合操作,指的是跨行cross rows axis=1或者"colu...
现在很多人电脑使用的都是固态硬盘,相比于传统硬盘来说,只拿开机来说,如果系统优化的好,10S以内即可开机,就算没优化好,一般也不会超过一分钟,而机械硬盘开机基本1分钟起步。 ...
背景 懂编程语言最开始是属于程序猿的世界,现在随着国内人们受教育程度的提升、互联网科技的发展,业务人员也开始慢慢需要懂编程语言。从最近几年的招聘需求看,要求会Python则成...
1、while循环中使用sleep 缺点:不容易控制,而且是个阻塞函数 2、schedule模块 优点:可以管理和调度多个任务,可以进行控制缺点:阻塞式函数 3、Thread...