240 发简信
IP属地:天津
  • 智能指针线程安全问题

    智能指针是线程安全的吗?(以shared_ptr为例) 概述 前一阶段面试被别人问到了,第一反应是和普通对象一样,读安全写不安全。其实当时也没有细想,只是当作一个八股文记录下...

  • Hadoop streaming 问题记录

    其他用户没有读权限 其他用户访问我的数据,发现出现 Permission denied: user=, access=READ_EXECUTE, inode=,drwxr-x...

  • spark任务提交

    好久时间没有用spark了,最近工作需要,在提交spark任务的时候发现打jar一直很大,自己又是搞C++的,以前打jar的时候按照网上的提示,都是用的是在IDEA里面 Fi...

  • Spark延迟任务调度-实例分析

    最近在看Spark任务调度,尤其是延迟调度这块,翻了好多资料与博客都是发现延迟调度中是这样介绍的:“在为任务分配节点时(executor),先判断任务的最佳运行节点是否空闲,...

  • @sunnyhouse 前几步中有对应的链接地址

    机器学习笔记-文本分类(四)代码实现

    在学习文本分类的时候发现主要有以下几个步骤,借助代码说明(代码大多参考:机器学习算法原理与编程实战,不过发现给的语料有些编码问题,并且本人用的是Python3.6+windo...

  • 除了停用词的所有词,如果想提取权值超过一定范围的,可以自行设定吧

    机器学习笔记-文本分类(三)TF-IDF

    TF-IDF简介 TF(Term Frequency)是指词频,就是一个词在文本中出现的词数,常用标准化处理 IDF(Inverse Document Frequency)是...

  • 此处猜想了一下,如果是Shuffle过程中的ReduceTask,则其输入RDD的 PreferredLocations 是什么呢? 其数据来自许多host,locality levels 该是什么呢? 如果按照延迟调度中的说法,NO_PREF没有本地性偏好(maxLocality != TaskLocality.NO_PREF ),是不是ReduceTask所对应的locality level 为NO_PREF? 不知道是否正确

    Spark的位置优先: TaskSetManager 的有效 Locality Levels

    based on spark-1.5.1 standalone mode 在Spark Application Web UI的 Stages tag 上,我们可以看到这个的表...

  • Linux线程创建

    以前都是Windows编程,一直说看看Linux下的线程编程,有空了,回顾一下吧。 头文件 Linux下线程相关函数都在头文件 中,该头文件中的相关函数在专门的线程库li...

  • vector erase 在windows与Linux下的不同

    昨天面试的时候,面试官突然问到这个问题,一面懵逼,感觉一样,回来试了一下,还真是不一样,做个小计。STL中,关于vector rease的源码如下(其中以清除某个位置元素函数...

  • @Pythonxy 在第一步中有链接

    机器学习笔记-文本分类(四)代码实现

    在学习文本分类的时候发现主要有以下几个步骤,借助代码说明(代码大多参考:机器学习算法原理与编程实战,不过发现给的语料有些编码问题,并且本人用的是Python3.6+windo...

  • Hadoop中最后一个Reduce很慢的问题

    最近跑一个Hadoop程序,处理一年的log,处理的时候发现Map有18000多个,Reduce任务数我设置了1000个。最后半个小时过去了,所有Map都执行完毕,就有一个R...

  • 在maven那一步,添加了Scala文件夹,但是在Scala中点击右键,却没有Scala类,Scala插件安装过了

    spark应用开发-开发工具篇

    概要 目前Spark官方提供Java,Scala,Python三种语言的API。因为Spark是用Scala开发,而Scala本身是基于JVM的语言,所以Scala和Java...

  • Hadoop 处理UTF-8与GBK转化

    最近在处理一个log时,发现出现乱码,想起来自己要处理的log编码是GB18030,而hadoop默认的编码格式是UTF-8,所以需要转化。在读取数据的时候就是GBK转化为U...

  • 函数指针 指针 函数

    指针和函数的各种结合,看到都头疼,以前也看过这方面的,可是不久又忘了,好记性不如赖笔头,做一下整理。先让自己懵逼一下(类型随意吧) int (*p)(int a,int b)...

  • 前言中的URL不存在:stuck_out_tongue_winking_eye:

    基于Spark /Tensorflow使用CNN处理NLP的尝试

    前言 关于CNN如何和NLP结合,其实是被这篇文章指导入门的 。 我觉得使用CNN去处理一些NLP的分类问题,是非常不错的。 主要好处有: CNN能自动抽取出一些高级特征,减...