KAMONOHASHI 1.xから2.xへの移行

考慮事項

  • KAMONOHASHI2.xではインフラ部分にdeepopsを採用する変更を行いました。
    • Ubuntu16.04はサポートされないため、18.04へのバージョンアップが必要になります
    • インフラ部分を含めたアンインストールとインストールが必要になります
  • 2.xへのバージョンアップ後は、1.xへのバージョンダウンはできません
  • 2.xのマシンの要件を事前にご確認ください

事前準備

  • KAMONOHASHIのバックアップが取れていることを確認します
  • KAMONOHASHIのAdminアカウントでログインできることを確認します

KAMONOHASHI 1.xのアンインストール

次のコマンドを実行します

cd /var/lib/kamonohashi/deploy-tools/<version>/infra/
./deploy-kqi-infra.sh prepare
./deploy-kqi-infra.sh clean
  • deepopsがインストールするGPU driverとの競合を防ぐため、GPUドライバをアンインストールします
  • Ubuntu 16.04をUbuntu 18.04にバージョンアップしてください
  • Kubernetes Masterの/var/lib/kamonohashi/deploy-tools/ディレクトリを別の場所に退避します
  • アンインストール完了後、マシンの要件に合わせた設定をしてください

2.x構築ツールのセットアップ

  • Kubernetes masterをインストールするマシンにログインします。
  • sudo su -を実行し、rootユーザーになります
  • mkdir -p /var/lib/kamonohashi/ && cd /var/lib/kamonohashi/ を実行します
  • git clone https://github.com/KAMONOHASHI/deploy-tools.git -b 2.1.0.2 --recursiveを実行してデプロイスクリプトを入手します
  • /var/lib/kamonohashi/deploy-tools/に移動します
  • プロキシ環境下では./deepops/scripts/proxy.shファイルにプロキシ設定を記載してください
    • no_proxyにはlocalhost,127.0.0.1,.cluster.local,使用するマシンのIPアドレス・ホスト名の記載をしてください
  • ./deploy-kamonohashi.sh prepareを実行して構築に必要なソフトウェアをインストールします

  • ansibleでエラーが出る場合はansibleのアンインストールを実行してからprepareを実行してください
    • スクリプト実行中に適切なansibleがインストールされます
    • ubuntuアップグレードに際し、ansibleの実行ファイルのみ残存するケースがあります。ansibleのアンインストールとprepare実行時に次のようなエラーが発生します。その場合は、mv /usr/local/bin/ansible /tmp/のようなコマンドでansible実行ファイルを退避してprepareを実行してください

    • ansibleのアンインストールでのエラー

      Cannot uninstall requirement ansible, not installed
      
    • prepare実行時のエラー

      Traceback (most recent call last):
        File "/usr/local/bin/ansible", line 40, in <module>
          from ansible.errors import AnsibleError, AnsibleOptionsError, AnsibleParserError
      ModuleNotFoundError: No module named 'ansible'
      

デプロイ構成の設定

./deploy-kamonohashi.sh configure clusterを実行します。 対話形式で聞かれる以下の内容を入力します

質問文 解説
Kubernetes masterを
デプロイするサーバ名
 
KAMONOHASHIを
デプロイするサーバ名
 
Storageをデプロイするサーバ名 HWベンダーのNFSを使用する場合はカスタマイズ設定ガイドを参照してください
計算ノード名 ,区切りで複数指定できます。
例: gpu1,gpu2,gpu3
SSHで利用するユーザー名: 構築時に使用するSSHユーザーを指定します。構築ツールがSSH経由で構築を行う仕様のため、指定が必要になります

入力内容に応じ、以下の設定ファイルに書き込みが行われます

  • deepopsの設定ファイル(deepops/config/inventry)
  • kamonohashiの設定ファイル(kamonohashi/conf/settings.yml)

設定内容をカスタマイズする場合は次を参照し、設定ファイルの編集を行ってください。 カスタマイズ設定ガイド

デプロイの実行

以下のコマンドではデプロイ構成の設定で指定したユーザーでSSHが実行されます。 指定したユーザーでのSSHにパスワードが必要な場合は-k、 指定したユーザーでのsudoにパスワードが必要な場合は-Kのオプションを指定します。 例: ./deploy-kamonohashi.sh clean nvidia-repo -k -K

  • sshキーを~/.ssh/id_rsaで配置している場合は、ペアのid_rsa.pubも~/.sshに配置してください
  1. ./deploy-kamonohashi.sh clean nvidia-repoを実行します
    • ubuntu16用のnvidiaリポジトリ登録が残っているためです
  2. ./deploy-kamonohashi.sh deploy nvidia-gpg-keyを実行します。
    • nvidiaのGPGキーは期限が半年であり、期限が切れるとaptが失敗することの対応です
  3. ./deploy-kamonohashi.sh deploy allを実行します。

実行後、対話形式で聞かれる以下の内容を入力します

質問文 解説
Admin Passwordを入力: KAMONOHASHIのadminアカウントで使用する8文字以上のパスワードです。数字のみのパスワードは使用不可となっているので注意してください。KAMONOHASHI Web UIログイン・DB接続、Object Storageへのログインに使用します。
一度構築に使用したパスワードはデプロイツールでは変更できません。パスワードを変える場合は、完全にデータを削除するか、パスワード変更手順を実施する必要があります。パスワード変更手順は[kamonohashi-support@jp.nssol.nipponsteel.com]にお問い合わせください
SSH password: 構築時に使用する、sshユーザーのパスワードです。-k指定時のみ聞かれます
SUDO password[defaults to SSH password]: 構築時に使用する、sshユーザーのsudoパスワードです。-K指定時のみ聞かれます。

入力後に構築が始まります。 構築には20分程かかります。

構築後にアクセス用のURLが表示されるので、それをブラウザで開きます