Hadoop/Гарын авлага

Hadoop суулгах

Алхам 1. Жава JDK суулгах
magnai@ubuntu:~$ sudo apt-get update
magnai@ubuntu:~$ sudo apt-get upgrade
magnai@ubuntu:~$ sudo apt-get install default-jdk
magnai@ubuntu:~$ sudo java -version (суусан жавагийн хувилбар харах)
magnai@ubuntu:~$ sudo whereis java (суусан жавагийн замыг харах)

Алхам 2. SSH суулгах
magnai@ubuntu:~$ sudo apt-get install ssh
magnai@ubuntu:~$ sudo apt-get install rsync
magnai@ubuntu:~$ sudo ssh -keygen -t dsa -P -f ~/.ssh/id_dsa

Алхам 3. Хэрэглэгчийн шинэ бүлэг нэмэх
magnai@ubuntu:~$ sudo addgroup hadoop
magnai@ubuntu:~$ sudo adduser --ingroup hadoop hduser

Алхам 4. Hadoop суулгах
hduser@ubuntu:~$ sudo wget www.us.apache.org/dist/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
hduser@ubuntu:~$ sudo tar xfz hadoop-2.6.0.tar.gz
hduser@ubuntu:~$ sudo mv hadoop-2.6.0 /usr/local/hadoop
hduser@ubuntu:~$ sudo chown hduser:hadoop -R /usr/local/hadoop
hduser@ubuntu:~$ sudo update-alternatives--config java

Алхам 5. Hadoop системийг суурилуулах явцад дараах тохиргоог заавал хийх шаардлагатай. Энэ тохиргоо нь суурилуулсны дараа Hadoop -г асаах унтраах гэх мэт үйлдлүүдийг Hadoop CLI програмаас ажиллуулах боломжийг олгодог.

Алхам 5. Hadoop суурилуулалтын тохиргоо
hduser@ubuntu:~$ sudo nano ~/.bashrc
#HADOOP VARIABLES START
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP_VARIABLES END
hduser@ubuntu:~$ sudo source ~/.bashrc

Алхам 6. Hadoop системийн жава хэрэгжүүлэлтийн тохиргоо
hduser@ubuntu:~$ sudo nano /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

Алхам 7. Hadoop системд хандах замын тохиргоо
hduser@ubuntu:~$ sudo nano /usr/local/hadoop/etc/hadoop/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>

Алхам 8. Yarn тохиргоо буюу HDFS файл системийн тохиргоо
hduser@ubuntu:~$ sudo nano /usr/local/hadoop/etc/hadoop/yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.shuffleHandler</value>
</property>

Алхам 9. MapReduce зэрэгцээ боловсруулалтын тохиргоо
hduser@ubuntu:~$ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

Алхам 10. Энэ тохиргоо нь HDFS файл системийн цөм нь бөгөөд файл системийн бүх файлуудын мод бүтцийг хадгалдаг. Өөрөөр хэлбэл өгөгдлийг өөрийг нь хадгалдаггүй харин файлуудыг кластер дээр хаана хаана тархаан байрлуулсан талаарх мэдээллийг хадгалах боломжийг олгодог чухал тохиргоо юм. Хэрэглэгч ямар нэг файлыг олохын тулд NameNode- тэй харьцдаг. NameNode өөрт байгаа файлуудын тухай мэдээллээс DataNode-г олж өгдөг. DataNode-д байгаа өгөгдлийг NameNode зааж өгдөг гэсэн үг юм. HDFS файл системд шинээр файл хадгалах үед түүнийг хэдэн удаа хуулбарлан хадгалахыг dfs.replication -р тохируулж өгдөг.

Алхам 10. HDFS файл системийн тохиргоо
hduser@ubuntu:~$ sudo mkdir -p /usr/local/hadoop_store/hdfs/namenode
hduser@ubuntu:~$ sudo mkdir -p /usr/local/hadoop_store/hdfs/datanode
hduser@ubuntu:~$ sudo chown -R hduser:hadoop /usr/local/hadoop2/store
hduser@ubuntu:~$ sudo nano /usr/local/hadoop/etc/hadoop/hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop_store/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop_store/hdfs/datanode</value>
</property>

Алхам 11. Hadoop хувилбар харах
hduser@ubuntu:~$ sudo hadoop version
hduser@ubuntu:~$ sudo hadoop namenode -format

Алхам 12. Hadoop -г эхлүүлэх
hduser@ubuntu:~$ sudo start-all.sh эсвэл (start-dfs.sh бас start-yarn.sh)

Алхам 13. JPS команд нь жава програмчлалын хэл дээр бичигдсэн бөгөөд жава виртуал машин дээр ажиллаж байгааа процессуудын статусыг харуулдаг.

Алхам 13. Hadoop -н ажиллагааг шалгах
hduser@ubuntu:~$ sudo jps

Алхам 14. Hadoop -г зогсоох
hduser@ubuntu:~$ sudo stop-all.sh эсвэл (stop-dfs.sh бас stop-yarn.sh)