240 发简信
IP属地:浙江
  • Resize,w 360,h 240
    PySpark 日志治理方法

    无论是PySpark程序、还是Scala 编写的Spark程序,对于运行中的日志写入与查看的现状都是类似的,大体有两点痛点: 1.特别是一直在线...

  • Resize,w 360,h 240
    PySparkStreaming At Least Once与不停机更新实现

    目标 1.实现在流式数据处理时,做到At-Least-Once的能力,即保证数据不丢失,保证每条数据“至少被计算1次”。 2.实现Streami...

  • Resize,w 360,h 240
    未来数据存储与处理的主观臆想

    背景 从毕业到现在大概一年时间,主要从事后台开发工作,工作过程中也因为业务需要,逐渐接触了一些大数据组件,如HDFS、MapReduce、Spa...