焰火青春 - 简书

发简信

焰火青春

122
关注
53
粉丝
91
文章
121800

字数
145

收获喜欢
183

总资产

IP属地：广东

【大数据】PySpark 使用 FileSystem 操作 HDFS
需求：spark 可以直接使用 textFile 读取 HDFS，但是不能判断 hdfs 文件是否存在，不过 pyspark 可以调用 java...

0.2 1042 0 1
【Python】插入记录并获取其自增ID（PyMysql）
需求：一次插入多条，获取每条记录的自增 ID 注意：获取 ID 必须在 commit 之前，否则获取为 0

0.2 4040 0 1

【Linux】根据进程 ID 查找进程文件地址
需求：服务器近几日多次因为运存不足导致重启，找到相应程序运行地址

0.2 489 0 1
【大数据】使用队列复制 Hadoop 文件
使用队列资源拷贝 HDFS 文件：

0.2 111 0 1
【大数据】Spark 递归读取 HDFS
HDFS 若有子目录，Spark 是不能递归读取子目录，需要在 spark-submit 中配置以下参数：

0.2 934 0 1
【Python】遍历字典的同时删除某个 key
需求：遍历字典时，删除某个 key 正常情况下是不能直接删除的，需要借助其他方式：优化后：

0.2 1178 0 1
基于某种规则对一个list-dict进行排序|Python
需求：有数据 urls、data_list，现在需要根据 urls 的顺序来排序，最终输出的结果 html_list、url_list 是相对应...

0.2 175 0 1

es 写入 refresh 导致集群全局索引刷新
es_client.indices.refresh(index=index_name)，若不指定 index会导致全局刷新

0.2 532 0 1
spark 读取 ES（es.resource配置）
es.resource 可配置为： ES 别名单个索引名/doc_type 索引1,索引2,索引3

0.2 990 0 1

个人介绍

微信公众号：Rovingalone
微信：q982562616
骨子里是个阳光的人
爱好爬山、徒步，偶尔也写几篇生活随笔