ウェブサイト検索

CentOS 7 の単一ノードに Apache Hadoop をインストールして構成する方法


Apache Hadoop は、分散ビッグ データ ストレージとコンピュータ クラスタ全体でのデータ処理用に構築されたオープン ソース フレームワークです。プロジェクトは次のコンポーネントに基づいています。

  1. Hadoop Common – 他の Hadoop モジュールに必要な Java ライブラリとユーティリティが含まれています。
  2. HDFS – Hadoop 分散ファイル システム – 複数のノードに分散された Java ベースのスケーラブルなファイル システム。
  3. MapReduce – ビッグ データの並列処理のための YARN フレームワーク。
  4. Hadoop YARN: クラスタ リソース管理のフレームワーク。

この記事では、CentOS 7 の単一ノード クラスターに Apache Hadoop をインストールする方法について説明します (RHEL 7 および Fedora 23 以降でも機能します) > バージョン)。このタイプの構成はHadoop 擬似分散モードとも呼ばれます。

ステップ 1: CentOS 7 に Java をインストールする

1. Java のインストールを続行する前に、まず root ユーザーまたは root 権限を持つユーザーでログインし、次のコマンドを使用してマシンのホスト名を設定します。

hostnamectl set-hostname master

また、システムの IP アドレスを指すように、独自のマシンの FQDN を含む新しいレコードを hosts ファイルに追加します。

vi /etc/hosts

以下の行を追加します。

192.168.1.41 master.hadoop.lan

上記のホスト名と FQDN レコードを独自の設定に置き換えます。

2. 次に、Oracle Java ダウンロード ページに移動し、curl を使用してシステム上の Java SE Development Kit 8 の最新バージョンを取得します。指示:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Java バイナリのダウンロードが完了したら、次のコマンドを実行してパッケージをインストールします。

rpm -Uvh jdk-8u92-linux-x64.rpm

ステップ 2: CentOS 7 に Hadoop フレームワークをインストールする

4. 次に、root 権限を持たない新しいユーザー アカウントをシステム上に作成します。これは、Hadoop のインストール パスと作業環境に使用されます。新しいアカウントのホーム ディレクトリは、/opt/hadoop ディレクトリに存在します。

useradd -d /opt/hadoop hadoop
passwd hadoop

5. 次のステップでは、Apache Hadoop ページにアクセスして、最新の安定バージョンのリンクを取得し、システムにアーカイブをダウンロードします。

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. アーカイブを抽出し、ディレクトリの内容を Hadoop アカウントのホーム パスにコピーします。また、コピーしたファイルのアクセス許可もそれに応じて変更してください。

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. 次に、hadoop ユーザーでログインし、.bash_profile ファイル。

su - hadoop
vi .bash_profile

ファイルの最後に次の行を追加します。

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. 次に、以下のコマンドを発行して環境変数を初期化し、そのステータスを確認します。

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. 最後に、以下のコマンドを実行して、hadoop アカウントの ssh キー ベースの認証を構成します (ホスト名 または FQDN を置き換えます) > それに応じて ssh-copy-id コマンドに対しても対応します)。

また、SSH 経由で自動的にログインするために、パスフレーズフィールドは空白のままにしておきます。

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan