我还是败了。。。win下的maven一直想弄死我,我就去linux了。
在centos桌面上创建快捷方式:
https://blog.csdn.net/qq_40741855/article/details/97917010?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
关于idea2019.3.3破解
有个jetbrains-agent,直接把jar包拖进idea再重启就成了,这也太爽啦。
idea的scala配置
settings里面plugins搜scala插件下载
maven配置
先改好/etc/profile 的环境变脸,再source一下让他生效,建个仓库,记住路径,(md笔记本键盘敲起来真不爽)再改一下settings。xml(在conf里),本地仓库和mirror改一下。
用阿里云仓库
export M2_HOME=/usr/local/maven/apache-maven-3.6.3
export M2=$M2_HOME/bin
export PATH=$M2:$PATH
/usr/local/maven/apache-maven-3.6.3
/usr/local/maven/mavenrepo
<localRepository>/usr/local/maven/mavenrepo</localRepository>
<mirror>
<id>aliyunmaven</id>
<mirrorOf>*</mirrorOf>
<name>aliyun maven</name>
<url>https://maven.aliyun.com/repository/public</url>
</mirror>
[Desktop Entry]
Name=IntelliJ IDEA
Comment=IntelliJ IDEA
Exec=/opt/idea/idea-IU-193.6494.35/bin/idea.sh
Icon=/opt/idea/idea-IU-193.6494.35/bin/idea.png
Terminal=false
Type=Application
Categories=Developer;
在idea上maven成功了。。。
一开始报jvm内存不够的问题。
在这里修改
-Xms256m -Xmx1024m
千万注意spark和scala的版本要对应起来。我在win和linux都没对应好。。。所以报错很多。
spark。2.4.4 对应的scala是2.11.12
2020-3-14
安装kettlehttps://www.cnblogs.com/tjp0210/p/11764394.html
https://sourceforge.net/projects/pentaho/files/Data%20Integration/
安装xmanager:https://www.newasp.net/soft/467373.html
↑↑记得关防火墙
打开spoon.sh时报错,没有libwebktgtk包:https://www.linuxidc.com/Linux/2016-06/132101.htm
先在CentOS或RHEL上安装Nux Dextop仓库:
https://www.linuxidc.com/Linux/2016-06/132101.htm
这个装起来好慢啊。。
出现了,一开始不能右键的原因是:没有吧hadoop里的hdfs配置文件弄到kettle里面去
启动hdfs了,再test。start-all.sh或者start-dfs.sh
报错:ojava.io.IOException: Cannot run program "lsb_release": error=2, 没有那个文件或目录
就是需要yum -y install redhat-lsb来解决。
还是有个erro
报错:ERROR [KarafLifecycleListener] The Kettle Karaf Lifecycle Listener failed to execute properly after waiting for 100 seconds. Releasing lifecycle hold, but some services may be unavailable
右键不成功,鼠标点几下就很卡!!
我觉得是因为内存不够的关系。。。
怎么办呢
换个ETL工具?
曹乐,我在linux界面直接打开了右键真的是,今天装了个xmanager图啥呢
2020-3-16
报错:System memory 425197568 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.
设置-Xms256m -Xmx1024m
怎么每个程序都要来一边。。
spark-submit打印的信息太多,看不到输出结果:
https://blog.csdn.net/jiezou12138/article/details/88876960?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
安装nodejs:https://blog.csdn.net/qq_31708763/article/details/82690129
突然xshell连不上虚拟机 了,震惊。
今天下午狗又开始叫了。我打开了窗户!!!找到你们了!两只狗,玛德,tmd小狗这么会叫,人家遛狗路过一下你也要叫,真特么烦。
xshell、连上了哈哈哈哈,为啥呢
上午win提醒我系统要更新,原来是1803?好像是,现在是1909了,一开机,提示说vm ware可能用不了,要升级到15.5(我看网上说)。装的是14.1.3?的vmware,结果在控制面板里把查看已安装更新,从上往下删,删一个,重启一次,发现就能打开vmware了,xshell也连得上,也能ping、通了。
安装express框架
https://blog.csdn.net/twodogya/article/details/80182328
安装jade:
https://blog.csdn.net/niewq/article/details/80297853
如果出现找不到jade的报错,就npm install jade --save
在那个项目文件下
2020-3-17
又打不开vm了。。。。还是安一个15.5的vmware把。先把原来的卸载:https://blog.csdn.net/Zs0509/article/details/90244569
重新装了vm15.5.1:
一开始安装不了,只要把exe名字改掉就行,还是不行就重启一下吧,把后台vm的程序都关了就行,重启简单一点。
无法获取 vmci 驱动程序版本句柄无效解决办法:
https://jingyan.baidu.com/article/a3a3f811ea5d2a8da2eb8aa1.html
就可以打开了。
You出问题了。。连不上网,要配置网卡。
本机
虚拟机这里
在重启一下网卡
systemctl restart network
虚拟机内存不够了。。。
于是我去win上面装了kettle。。。反正在哪清洗数据不是清洗嘛
遇到了spoon.bat闪退的情况。
https://bbs.csdn.net/topics/392400324
看这个,↑,改掉spoon.bat里面俩参数就行
我失败了,还是去master虚拟机里面扩容了(因为装kettle的时候说内存不够了)https://blog.csdn.net/Areigninhell/article/details/90403009
挂载点在/disk4上面,我就把kettle文件夹放到disk4了
还是不行。。test失败。shim不能loed。。突然发现,权限不够?!!!!!!!11
果然是因为权限的关系。
sudo 打开./spoon.sh tmd!!!!!!!!!!
还是有问题,清理个数据怎么这么麻烦。python写都没这么麻烦
玛德,把hostname改成主机名了才√了一个
行了,我差不多已经死了,随便他了,等会看看能不嫩传输局
kettle安装配置可能会出现的一些问题:https://blog.csdn.net/weinierzui/article/details/77931346
https://blog.csdn.net/cdmamata/article/details/56846895
又出现问题了。。。上传成功,但是没找到这个文件啊。。尴尬
没存进去:??
给普通用户root权限:https://blog.csdn.net/weixin_39849189/article/details/80362767
我把
改了
就√了三个。。
这玩意旁边那个点点点也能点出来了
之前选择hdp2.5的时候一直弹窗
You don't seem to be getting a connection to the Hadoop Cluster. Check the c
鬼了,怎么还没传进去、
有了,我又把start和hadoop copy files删掉又来了一遍,应该是这个原因。yeah~ 清洗数据:去掉年份
[root@master movielens]# hdfs dfs -cat /input_spark/movies.dat | head -5
1::Toy Story::Animation|Children's|Comedy
2::Jumanji::Adventure|Children's|Fantasy
3::Grumpier Old Men::Comedy|Romance
4::Waiting to Exhale::Comedy|Drama
5::Father of the Bride Part II::Comedy
cat: Unable to write to output stream.
。。。就好了。。。kettle没事干了。。。。。
报错:System memory 425197568 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.
-Xms256m -Xmx1024m
。。尴尬,类名打错了
出来结果了:
Movies recommended for you(用户 ID:推荐电影 ID:推荐分数:推荐电影名称):
1:3233:5.0872846:Smashing Time
1:1930:4.8514404:Cavalcade
1:3512:4.8493347:Return to Me
1:2760:4.8394413:Gambler, Theékos)
1:1131:4.822908:Jean de Florette
1:439:4.7534847:Dangerous Game
1:3517:4.7365184:Bells, The
1:1035:4.7099566:Sound of Music, The
1:2609:4.7043505:King of Masks, TheLian)
1:73:4.702996:Misérables, Les
Process finished with exit code 0
vim全是黄色方放:esc :nohl
spark集群运行:https://blog.csdn.net/qq_33689414/article/details/80232605
主要是要之前的jar包删掉就行,再重新生成jar包,spark-submit 就可以了,可以看到任务
spark-submit
--class recommend.MovieLensALS
--master spark://master:7077
--executor-memory 1G
--total-executor-cores 2 ~/IdeaProjects/Spark_Recommend_Dataframe/out/artifacts/Spark_Recommend_Dataframe_jar/Spark_Recommend_Dataframe.jar /input_spark /disk4/movielens/personalRatings.dat 10 5 10
也出来了。。就是还是很慢。。。
也就是说,一开始本地跑的时候,要这么写:
val spark=SparkSession.builder().appName("MovieLensALS").master("local[2]").getOrCreate()
生成jar包去跑集群的时候改成master("spark://master:7077")