240 发简信
IP属地:河南
  • 120
    字符串相似度比较算法:Jaro–Winkler similarity的原理及实现

    前言 在前面的文章中,笔者有对编辑距离以及Levenshtein距离进行详细的说明,其实levenshtein距离是编辑距离的其中一种定义,本文所说的Jaro距离是编辑距离的...

  • 【学术】博士五年总结(计算机方向)[转]

    这五年最重要的,是渐渐知道了怎么去做一件比较大的事情。 说得很大,其实就一点,心要静下来。 首先,心静下来才能钻进某个领域里认真做事。现在的社交媒体太多了,各类新闻也太多,每...

  • 120
    Spark Streaming和Kafka集成深入浅出

    写在前面 本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理 本文主要介绍Spark Streaming基本概念、kafka集成、Offse...

  • 120
    hive建表相关技术

    1、hive相关配置 1.1分隔符 row format delimited 使用默认行分隔符。 SerDe是Serialize/Deserilize的简称。 1.2文件格式...

  • 120
    pentaho-mr执行记录

    1、kettle日志记录 总体mapper执行非常慢,reducer执行快。 2019/05/13 02:08:53 - cfgbuilder - Warning: The ...

  • 120
    hive命令执行小记

    1、表(非分区表)新增字段 alter table test.weblogs add columns( month string); 2、移动新增字段位置 alter tab...

  • kettle连接hadoop配置hdfs文件数据导出

    1、Win10本地安装JDK1.8环境,运行kettle 6.1。 2、在kettle中设置Active shim,在工具打开“hadoop distribution”,选择...

  • hive分区表_插入分区乱码_删除经验

    1、往hive分区表插入分区的值为中文,hive中显示乱码,在解决该问题前,需删除新增分区及数据。 2、尝试删除分区 1)尝试一:清空表数据,insert overwrite...

  • 120
    vmware部署hdp——主机检查问题处理

    1、主机检查一直在准备preparing,查看ambari-server日志,提示Error executing bootstrap Cannot create /var/r...