以前谁要说excel不好用,暴躁老姐立刻上线,头给你打掉
今天心里骂了无数遍
还是在找各种方法处理190万行的数据
一开始并不知道有多少万行数据,大约127MB的CSV文件,加载到excel里面约104万,我以为只有104万开始对这104万数据处理,这都是上周的事了,今天领导问我进度,咋样啦那些数据。我吞吞吐吐,领导觉得我处理这事对接客户怎么这么不积极,我那心里气的我是,104万就我这破电脑你知道多费劲吗,搞啥搞,没办法作为职场人只好再搞。生气的是接下来我把处理的数据弄丢了,啊,差点砸键盘。
数据为什么丢了?好问题。
因为下载下来是CSV格式,可以用exce打开,但是会提示你不保存为xlsx格式是会丢失的哦,我点了是,就丢失了,这时候应该点击否,改一下文件后缀即可保存。
然后我想,那我得把这玩意重新再弄啊,可是excel这么难用一个操作等好久,我换个处理快的,我选择了power query。好家伙,加载很快,使用很流畅,可是等等,怎么乱码了呢??我这csv里面有德文,法文,英文,同一编码转换的时候就乱码了。
想想数据库,sql,access,我直接用项目的sql会不会引起环境崩溃,我直接pass掉了,access我手头也没有这工具啊。然后安静下来,想了想,目前网上这些方法是用手头的工具处理,以前觉得会一样就行,看他们的运行效率承载行数是比较虚的,没想到这些很重要,在某些问题上选择工具直接决定着你结果的正确与错误。
在商业数据分析群里问了超过excel行数的数据怎么处理,有人建议分割excel,有这个工具但是我用亲身经历告诉你别尝试。比如这个是130MB的数据,想要运行快,还能分割那肯定越小越好,如果我每个文件4万行,我也得几十个文件,所以分割文件一步就是把人逼到死的第一步。
这个方法不行,最后我再次安静,目前市面上处理数据的工具一一在脑海里过了下。
excel,常用,小剂量数据处理,使用面广
powerquery,数据处理,200万一样受制约与运行电脑效率极其自身运行效率
powerpviot我也不做图啊
powerbi这个也不行,我也不可视化
那那就只能看看人家大数据用什么软件处理了,python这个行不行??写代码估计很灵活咯,可是我没环境,搭环境也很费劲呢,先看行不行,查了下来是可以的。先把数据给朋友处理,然后找我们组的开发给我搭环境,我说我是小白,你给我写个简单的脚本,我看下python怎么用。
最后选择用python处理就可以啦~比excel优秀很多倍
开发估计是想锻炼我,脚本写的很糙,虽然我也不会py,奈何我会百度,一步步,把他的粗糙的脚本改了改,变成我想要的数据,每天只要在外网下载最新的文件,放到固定位置上,然后运行脚本,就OK了。