クラスタ構成でのインストール

構成について

KAMONOHASHIのクラスタは次の4種類のサーバーで構成されます

マシーン

  • Kubernetes master: ディープラーニングの実行スケジューリング等に使用します
  • KAMONOHASHI: KAMONOHASHIのWEBシステム(Web,DBコンテナ)で使用します
  • Storage: 学習用データと学習結果ファイルの保管に使用します
  • 計算ノード: ディープラーニングの実行に使用します。GPUサーバー・CPUサーバーを指定可能です

構築の準備

  • マシンを用意します
    • クラスタ構成では4種類のサーバーを別々のマシンにインストールする前提です
    • 同一マシンにインストールすることも可能ですが、テストしていません
  • マシンの要件に合わせた設定をしてください
  • 各サーバーの最小リソース要件は下記になります。
    • データ・ユーザー数・実施するディープラーニングの内容に応じて下記よりも多く必要になる場合があります
    マシン種別 CPU メモリ 備考
    Kubernetes master 2 コア 2 GB  
    KAMONOHASHI 4 コア 8 GB /var/lib/に10GB以上の空き容量
    Storage 1 コア 2 GB /var/lib/に学習データ・学習結果ファイル分の空き容量
    GPUサーバー 2 コア 2 GB Fermi (2.1)より後の世代のNVIDIA GPU, /var/libに1学習分のデータが入る空容量

構築ツールのセットアップ

  • Kubernetes masterをインストールするマシンにログインします。
  • sudo su -を実行し、rootユーザーになります
  • mkdir -p /var/lib/kamonohashi/ && cd /var/lib/kamonohashi/ を実行します
  • git clone https://github.com/KAMONOHASHI/deploy-tools.git -b 2.1.0.2 --recursiveを実行してデプロイスクリプトを入手します
  • /var/lib/kamonohashi/deploy-tools/に移動します
  • プロキシ環境下では次のファイルにプロキシ設定を記載してください
    • ./deepops/scripts/proxy.sh
    • no_proxyにはlocalhost,127.0.0.1,.cluster.local,使用する各マシンのIPアドレス・ホスト名の記載を含めてください
  • ./deploy-kamonohashi.sh prepareを実行して構築に必要なソフトウェアをインストールします
    • ansibleでエラーが出る場合はansibleのアンインストールを実行してからprepareを実行してください
      • スクリプト実行中に適切なansibleがインストールされます

デプロイ構成の設定

./deploy-kamonohashi.sh configure clusterを実行します。 対話形式で聞かれる以下の内容を入力します

質問文 解説
Kubernetes masterを
デプロイするサーバ名
 
KAMONOHASHIを
デプロイするサーバ名
 
Storageをデプロイするサーバ名 HWベンダーのNFSを使用する場合はカスタマイズ設定ガイドを参照してください
計算ノード名 ,区切りで複数指定できます。
例: gpu1,gpu2,gpu3
SSHで利用するユーザー名: 構築時に使用するSSHユーザーを指定します。構築ツールがSSH経由で構築を行う仕様のため、指定が必要になります

入力内容に応じ、以下の設定ファイルに書き込みが行われます

  • deepopsの設定ファイル(deepops/config/inventry)
  • kamonohashiの設定ファイル(kamonohashi/conf/settings.yml)

設定内容をカスタマイズする場合は次を参照し、設定ファイルの編集を行ってください。 カスタマイズ設定ガイド

デプロイの実行

./deploy-kamonohashi.sh deploy allを実行します。 この際にデプロイ構成の設定で指定したユーザーでSSHが実行されます。 指定したユーザーでのSSHにパスワードが必要な場合は-k、 指定したユーザーでのsudoにパスワードが必要な場合は-Kのオプションを指定します。 例: ./deploy-kamonohashi.sh deploy all -k -K

実行後、対話形式で聞かれる以下の内容を入力します

質問文 解説
Admin Passwordを入力: KAMONOHASHIのadminアカウントで使用する8文字以上のパスワードです。数字のみのパスワードは使用不可となっているので注意してください。KAMONOHASHI Web UIログイン・DB接続、Object Storageへのログインに使用します。
一度構築に使用したパスワードはデプロイツールでは変更できません。パスワードを変える場合は、完全にデータを削除するか、パスワード変更手順を実施する必要があります。パスワード変更手順はkamonohashi-support@jp.nssol.nipponsteel.comにお問い合わせください
SSH password: 構築時に使用する、sshユーザーのパスワードです。-k指定時のみ聞かれます
SUDO password[defaults to SSH password]: 構築時に使用する、sshユーザーのsudoパスワードです。-K指定時のみ聞かれます。

入力後に構築が始まります。 構築には20分程かかります。

  • DGX利用時のみ、構築後に次の作業を行ってください
    • rm /etc/systemd/system/docker.service.d/docker-override.conf
    • これは構築に使用する NVIDIA deepopsのバグで、20.02.1の次のdeepopsのリリースがされれば対応される見込みです。

構築後にアクセス用のURLが表示されるので、それをブラウザで開きます