CentOS / RHEL7にHadoopサーバーをデプロイするためのベストプラクティス-パート1-


このシリーズの記事では、Cloudera Hadoopクラスタービルディングの建物全体を、ベンダーと業界が推奨するベストプラクティスで取り上げます。

OSのインストールとOSレベルの実行前提条件は、Hadoopクラスターを構築するための最初のステップです。 Hadoopは、CentOS、RedHat、Ubuntu、Debian、SUSEなどのさまざまな種類のLinuxプラットフォームで実行できます。リアルタイムの本番環境では、ほとんどのHadoopクラスターがRHEL/CentOS上に構築されており、デモにはCentOS7を使用します。この一連のチュートリアルで。

組織では、キックスタートを使用してOSのインストールを実行できます。 3〜4ノードのクラスターの場合は手動でインストールできますが、10ノードを超える大きなクラスターを構築する場合は、OSを1つずつインストールするのは面倒です。このシナリオでは、キックスタート方式が登場します。キックスタートを使用して一括インストールを続行できます。

Hadoop環境から優れたパフォーマンスを実現するには、適切なハードウェアとソフトウェアをプロビジョニングする必要があります。そのため、本番Hadoopクラスターの構築には、ハードウェアとソフトウェアに関する多くの考慮事項が含まれます。

この記事では、OSのインストールに関するさまざまなベンチマークと、CentOS/RHEL7にClouderaHadoopクラスターサーバーをデプロイするためのいくつかのベストプラクティスについて説明します。

Hadoopサーバーをデプロイするための重要な考慮事項とベストプラクティス

以下は、CentOS/RHEL7にClouderaHadoopクラスターサーバーをデプロイするように設定するためのベストプラクティスです。

  • Hadoop servers do not require enterprise standard servers to build a cluster, it requires commodity hardware.
  • In the production cluster, having 8 to 12 data disks are recommended. According to the nature of the workload, we need to decide on this. If the cluster is for compute-intensive applications, having 4 to 6 drives is best practice to avoid I/O issues.
  • Data drives should be partitioned individually, for example – starting from /data01 to /data10.
  • RAID configuration is not recommended for worker nodes, because Hadoop itself providing fault-tolerance on data by replicating the blocks into 3 by default. So JBOD is best for worker nodes.
  • For Master Servers, RAID 1 is the best practice.
  • The default filesystem on CentOS/RHEL 7.x is XFS. Hadoop supports XFS, ext3, and ext4. The recommended file-system is ext3 as it is tested for good performance.
  • All the servers should be having the same OS version, at-least same minor release.
  • It is best practice to have homogeneous hardware (all worker nodes should have the same hardware characteristics (RAM, disk space & Core etc).
  • According to the cluster workload (Balanced Workload, Compute Intensive, I/O Intensive) and size, resource (RAM, CPU) planning per server will get differ.

以下の24TBストレージのサーバーのディスクパーティションの例をご覧ください。

Hadoopサーバー展開用のCentOS7のインストール

Hadoopサーバー用のCentOS7サーバーをインストールする前に知っておく必要があること。

  • Minimal installation is enough for Hadoop Servers (worker nodes), in some cases, GUI can be installed only for Master servers or Management servers where we can use browsers for Web UIs of Management tools.
  • Configuring networks, hostname, and other OS-related settings can be done after OS installation.
  • In real-time, server vendors will be having their own console to interact and manage the servers, for example – Dell servers are having iDRAC which is a device, embedded with servers. Using that iDRAC interface we can install OS with having an OS image in our local system.

この記事では、VMware仮想マシンにOS(CentOS 7)をインストールしました。ここでは、パーティションを実行するための複数のディスクはありません。 CentOSはRHEL(同じ機能)に似ているため、CentOSをインストールする手順を説明します。

1.ローカルWindowsシステムにCentOS7.x ISOイメージをダウンロードすることから始め、仮想マシンの起動中にそれを選択します。図のように「InstallCentOS7」を選択します。

2.言語を選択します。デフォルトは英語になり、[続行]をクリックします。

3.ソフトウェアの選択– [最小インストール]を選択し、[完了]をクリックします。

4.設定を求めるプロンプトが表示されるので、rootパスワードを設定します。

5.インストール先–これは注意が必要な重要なステップです。 OSをインストールする必要のあるディスクを選択する必要があります。OS専用のディスクを選択する必要があります。 [インストール先]をクリックしてディスクを選択します。リアルタイムで複数のディスクが表示されます。適切な「sda」を選択する必要があります。

6.その他のストレージオプション– 2番目のオプション(パーティションを構成します)を選択して、/ var、/ var/log、/ home、/ tmp、/ opt、/ swapなどのOS関連のパーティションを構成します。

7.完了したら、インストールを開始します。

8.インストールが完了したら、サーバーを再起動します。

9.サーバーにログインし、ホスト名を設定します。

# hostnamectl status
# hostnamectl set-hostname tecmint
# hostnamectl status

この記事では、OSのインストール手順とファイルシステムのパーティション分割のベストプラクティスについて説明しました。これらはすべて一般的なガイドラインであり、ワークロードの性質に応じて、クラスターの最高のパフォーマンスを達成するために、より多くのニュアンスに集中する必要がある場合があります。クラスター計画は、Hadoop管理者にとって芸術です。次の記事では、OSレベルの前提条件とセキュリティ強化について詳しく説明します。