前言 在前面的文章中,笔者有对编辑距离以及Levenshtein距离进行详细的说明,其实levenshtein距离是编辑距离的其中一种定义,本文所说的Jaro距离是编辑距离的...
![240](https://cdn2.jianshu.io/assets/default_avatar/11-4d7c6ca89f439111aff57b23be1c73ba.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
前言 在前面的文章中,笔者有对编辑距离以及Levenshtein距离进行详细的说明,其实levenshtein距离是编辑距离的其中一种定义,本文所说的Jaro距离是编辑距离的...
这五年最重要的,是渐渐知道了怎么去做一件比较大的事情。 说得很大,其实就一点,心要静下来。 首先,心静下来才能钻进某个领域里认真做事。现在的社交媒体太多了,各类新闻也太多,每...
写在前面 本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理 本文主要介绍Spark Streaming基本概念、kafka集成、Offse...
1、hive相关配置 1.1分隔符 row format delimited 使用默认行分隔符。 SerDe是Serialize/Deserilize的简称。 1.2文件格式...
1、kettle日志记录 总体mapper执行非常慢,reducer执行快。 2019/05/13 02:08:53 - cfgbuilder - Warning: The ...
1、表(非分区表)新增字段 alter table test.weblogs add columns( month string); 2、移动新增字段位置 alter tab...
1、Win10本地安装JDK1.8环境,运行kettle 6.1。 2、在kettle中设置Active shim,在工具打开“hadoop distribution”,选择...
1、往hive分区表插入分区的值为中文,hive中显示乱码,在解决该问题前,需删除新增分区及数据。 2、尝试删除分区 1)尝试一:清空表数据,insert overwrite...
1、主机检查一直在准备preparing,查看ambari-server日志,提示Error executing bootstrap Cannot create /var/r...