首页

文章

如何在Linux下安装配置Apache Mahout

发布网友 发布时间:2022-02-26 21:22

我来回答

1个回答

热心网友 时间:2022-02-26 22:52

Mahout安装详细全过程
1、jdk安装 2
2、SSH无密码验证配置 2
3、 Hadoop配置 3
4、Hadop使用 6
5、Maven安装 7
6、安装mahout 7
7、hadoop集群来执行聚类算法 8
8、其他 8
————————————————————
1、jdk安装
1.1、到官网下载相关的JDK
下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html

1.2、打开“终端”
输入:sh jdk-6u24-linux-i586.bin

1.3、设置JAVA_HOME环境系统变量
输入:
vi /etc/environment
在文件中添加:
export JAVA_HOME=/root/jdk1.6.0_24
export JRE_Home=/root/jdk1.6.0_24/jre
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
同样,修改第二个文件。输入:
vi /etc/profile
在umask 022之前添加以下语句:
export JAVA_HOME=/root/jdk1.6.0_24
export JRE_Home=/root/jdk1.6.0_24/jre
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

1.4、注销用户,检测JDK版本。
输入:
java -version

2、集群环境介绍
集群包含三个节点:1 个 namenode,2 个 datanode,节点之间局域网连接,可以相互 ping 通。节点 IP 地址分布如下:
Namenode: master@192.168.1.10
Datanode1: slave1 @192.168.1.20
Datanode2: slave2@192.168.1.21
三台节点上均是CentOS系统,Hadoop在/root/hadoop/目录下。
在/etc/hosts上添加主机名和相应的IP地址:
192.168.1.10 master
192.168.1.20 slave1
192.168.1.21 slave2
3、SSH无密码验证配置
2.1 Hadoop 需要使用SSH 协议,namenode 将使用SSH 协议启动 namenode和datanode 进程,伪分布式模式数据节点和名称节点均是本身,必须配置 SSH localhost无密码验证。
用root用户登录,在家目录下执行如下命令:ssh-keygen -t rsa
[root@master ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): & 按回车默认路径 &
Created directory '/root/.ssh'. &创建/root/.ssh目录&
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38 root@master
通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置:
[root@master .ssh]# cat id_rsa.pub > authorized_keys
[root@master .ssh]# scp authorized_keys 192.168.1.20:/root/.ssh/
[root@master .ssh]# scp authorized_keys 192.168.1.21:/root/.ssh/
配置完毕,可通过ssh 本机IP 测试是否需要密码登录。

2.2 和namenode无密码登录所有Datanode原理一样,把Datanode的公钥复制到
Namenode的.ssh目录下。
[root@slave1 .ssh]# scp authorized_keys1 192.168.1.10:/root /.ssh
[root@ slave2.ssh]# scp authorized_keys2 192.168.1.10:/root /.ssh
将刚传过来的authorized_keys1、2加入到authorized_keys
[root@ master.ssh]# cat authorized_keys1 > authorized_keys
[root@ master.ssh]# cat authorized_keys2 > authorized_keys
这样也能在Datanode上关闭和启动Hadoop服务。
4、 Hadoop配置
下载 hadoop-0.20.2.tar.gz, 进行解压。
tar zxvf hadoop-0.20.2.tar.gz
修改/etc/profile,加入如下:
# set hadoop path
export HADOOP_HOME=/root/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

4.1、进入hadoop/conf, 配置Hadoop配置文件
4.1.1 配置hadoop-env.sh文件
添加 # set java environment
export JAVA_HOME=/root/jdk1.6.0_24
编辑后保存退出。

4.1.2 配置core-site.xml
# vi core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.1.10:9000/</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hadoop/hadooptmp</value>
</property>
</configuration>

4.1.3 配置hdfs-site.xml
# vi hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/root/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/root/hadoop/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>

4.1.4 配置mapred-site.xml
# vi mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.1.10:9001</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/root/hadoop/mapred/local</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/tmp/hadoop/mapred/system</value>
</property>
</configuration>

4.1.5 配置masters
# vi masters
192.168.1.10
4.1.6 配置slaves
# vi slaves
192.168.1.20
192.168.1.21

4.2、 Hadoop启动
4.2.1 进入 /root/hadoop/bin目录下,格式化namenode
# ./hadoop namenode –format

4.2.2 启动hadoop所有进程
在/root/hadoop/bin 目录下,执行start-all.sh命令
启动完成后,可用jps命令查看hadoop进程是否启动完全。正常情况下应该有如下进程:
10910 NameNode
11431 Jps
11176 SecondaryNameNode
11053 DataNode
11254 JobTracker
11378 TaskTracker

我在搭建过程中,在此环节出现的问题最多,经常出现启动进程不完整的情况,要不是datanode无法正常启动,就是namenode或是TaskTracker启动异常。解决的方式如下:
1)在Linux下关闭防火墙:使用service iptables stop命令;
2)再次对namenode进行格式化:在/root/hadoop/bin 目录下执行hadoop namenode -format命令
3)对服务器进行重启
4)查看datanode或是namenode对应的日志文件,日志文件保存在/root/hadoop/logs目录下。
5)再次在/bin目录下用start-all.sh命令启动所有进程,通过以上的几个方法应该能解决进程启动不完全的问题了。

4.2.3 查看集群状态
在 bin目录下执行:hadoop dfsadmin -report
# hadoop dfsadmin –report

4.3 在WEB页面下查看Hadoop工作情况
打开IE浏览器输入部署Hadoop服务器的IP:
http://localhost:50070
http://localhost:50030。

5、Hadop使用
一个测试例子wordcount:
计算输入文本中词语数量的程序。WordCount在Hadoop主目录下的java程序包hadoop-0.20.2-examples.jar 中,执行步骤如下:
在/root/hadoop/bin/目录下进行如下操作:
./hadoop fs -mkdir input(新建目录名称,可任意命名)
mkdir /root/a/
vi /root/a/a.txt
写入hello world hello
# hadoop fs -copyFromLocal /root/a/ input
在/root/hadoop/bin下执行:
# ./hadoop jar hadoop-0.20.2-examples.jar wordcount input output (提交作业,此处需注意input与output是一组任务,下次再执行wordcount程序,还要新建目录intput1与output1不能跟input与output重名)

6、Maven安装
6.1下载Maven
解压tar vxzf apache-maven-3.0.2-bin.tar.gz
mv apache-maven-3.0.2 /root/maven

6.2 vi ~/.bashrc
添加如下两行
export M3_HOME=/root/maven
export PATH=${M3_HOME}/bin:${PATH}

6.3 先logout,之后再login
查看maven版本,看是否安装成功
mvn -version

7、安装mahout
安装方法见:
https://cwiki.apache.org/confluence/display/MAHOUT/BuildingMahout

8、hadoop集群来执行聚类算法
8.1数据准备
cd /root/hadoop
wget http://archive.ics.uci.e/ml/databases/synthetic_control/synthetic_control.data

8.2 ./hadoop fs -mkdir testdata
./hadoop fs -put synthetic_control.data testdata
./hadoop fs -lsr testdata

bin/hadoop jar /root/mahout/mahout-examples-0.4-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

8.3查看一下结果吧
bin/mahout vectormp --seqFile /user/root/output/data/part-r-00000
这个直接把结果显示在控制台上。

9、hadoop集群来执行推荐算法
分布式
bin/hadoop jar /root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob -Dmapred.map.tasks=3 -Dmapred.rece.tasks=3 -Dmapred.input.dir=testdata/100wan.txt -Dmapred.output.dir=output2

伪分布式
bin/hadoop jar /root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar org.apache.mahout.cf.taste.hadoop.pseudo.RecommenderJob --recommenderClassName org.apache.mahout.cf.taste.impl.recommender.slopeone.SlopeOneRecommender -Dmapred.input.dir=testdata/10wan.dat -Dmapred.output.dir=output_w10wan
10、其他
离开安全模式:hadoop dfsadmin -safemode leave
...火柴小女孩》《词语手册》里有很多词语的意思的,求告知 暖融融解释 领淘通淘客助手这个软件怎么样? 淘宝客必备的九大工具有哪些? 电脑里硬盘如何共享怎么实现多台电脑共用一块硬盘 两台电脑一个硬盘两台电脑是否可以同时用一个硬盘 共享电脑硬盘怎样设置局域网电脑硬盘共享 现在下载歌曲好还是不下好 故障码P033D的含义解析 切菜机多功能型切菜机 scanbox三维扫描仪 苹果13没有删除的备忘录怎么恢复? iphone备忘录永久删除怎么恢复?iphone备忘录恢复最近删除文件方法介绍... 备忘录最近删除怎么找 初一班主任工作计划 新初一班主任工作计划 359度是什么角 报个 定向乡镇卫生院 的医学好不好 酒驾缓刑节保证书怎么写 合同法律咨询免费 这款充电宝可以带上飞机吗? 倪俊卿成就及荣誉 江苏种牛站有几家? 山东宏正牧业有限公司服务承诺 吃早餐后抽血会影响体检结果吗 电脑如何设置护眼模式(台式电脑如何设置护眼模式) 电脑显示器设置护眼电脑屏幕怎么设置比较护眼 广告机是否支持分屏显示功能? 上海东丰船务有限公司怎么样? 马弗炉管厂家 CF手游体验服怎样获取资格 穿越火线体验服在哪申请资格_cf手游体验服资格申请入口链接 穿越火线体验服资格申请链接在哪-穿越火线体验服资格申请链接介绍 快手浏览量多少才能赚钱?快手靠浏览量能挣多少钱? 小麦胚芽如何吃最好 个头怎么造句 高跟鞋走路磨脚该如何处理? 除螨虫的特效药 螨虫什么药物可以除掉 网上在哪买奢侈品 二手包包闲置了怎么办 夫妻想要怀孕要提前做哪些准备 手机图片如何投屏到电视上去 手机图片投屏到电视上去的方法 分区助手无法压缩卷怎么处理? 广州北斗公司有哪些 在文件夹里.把cfg文件删掉.电影还可以看么? 办理骑士卡要钱吗? 一千个伤心的理由吉他谱前奏怎么弹出 一千个伤心的理由吉他谱 去中国逛夜市,必买的小吃有哪些? 上海香肠的配料秘方有哪些? 在linux中输入什么命令创建apache服务和怎么配置及访问 组装台式电脑怎么重装系统windows7 如何 在Redhat Linux 系统上安装和配置apache 服务器 DELL台式机怎么重装系统? 在Linux系统环境下,如何配置Apache服务器,简要写出配置步骤及作用? 怎样在Linux系统下配置apache 台式电脑第一次安装系统怎么安装? linux命令怎么安装apache? linux如何配置apache服务器 怎么在linux安装apache linux 怎么配置apache linux 怎么配置安装apache2 在linux平台下安装、配置与管理apache linux安装apache的配置 什么软件清理手机垃圾最彻底 未越狱有什么办法可以清理手机垃圾 Linux分区是怎么表示和使用的? 有没有什么软件能彻底清理手机垃圾的 linux 分区有什么好处 linux分区格式有哪些 宏基台式电脑怎么重装系统 抖音点赞量怎么增加 apache和nginx哪个好 抖音怎么增加点赞和评论 nginx和apache是什么 怎样让抖音点赞多 如何在Ubuntu14.04上搭建私有docker registry 为什么使用docker搭建区块链环境 java入门新手教程 钉钉直播老师能看到是哪个学生点赞吗? 为什么钉钉已经是最新版本了,但是直播点赞和签到功能还不能用呢? 2016最新python入门到精通视频教程下载地址 钉钉上点赞,老师可以看到吗? 如何在Docker CentOS容器中使用Systemd docker ubuntu用什么版本 nginx怎么安装在linux中 linux下安装subversion并配置nginx+apache操作教程(2) linux服务器上下载某个文件怎么配置nginx 微信小程序过期了,怎么恢复它呐 Nginx必须安装在linux吗?
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com