チュートリアル：OCI HPCテクニカルTips集、OCI HPCパフォーマンス関連情報

カテゴリ：OCI HPCポータル更新内容："OpenFOAMインストール・利用方法"の共有ストレージ・ローカルディスク間データ同期をコンカレントに変更、"Slurmによるリソース管理・ジョブ管理システム運用Tips"にメンテナンスを考慮した計算/GPUノードのステータス変更方法を追加、"ベアメタルインスタンスのNVMe SSDローカルディスク領域ファイルシステム作成方法"にBM.GPU.H100.8を追加、これらに伴う修正及び誤記訂正・軽微な修正
oracle-japan · Jul 31, 2024 · 093bee4 · 093bee4
1 parent cde794a
commit 093bee4
Show file tree

Hide file tree

Showing 7 changed files with 539 additions and 370 deletions.
diff --git a/_pages/hpc.md b/_pages/hpc.md
@@ -308,7 +308,7 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル
 
 - **[ベアメタルインスタンスのNVMe SSDローカルディスク領域ファイルシステム作成方法](/ocitutorials/hpc/tech-knowhow/nvme-filesystem/)**
 
-    高速スクラッチ領域として利用することを想定したNVMe SSDローカルディスクを内蔵するHPCクラスタ向けベアメタルシェイプ **[BM.Optimized3.36](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-hpc-optimized)** やGPUクラスタ向けベアメタルシェイプ **[BM.GPU4.8/BM.GPU.GM4.8](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-gpu)** は、NVMe SSDローカルディスクをOSのファイルシステムとして利用するための設定をユーザ自身が行う必要があります。  
+    高速スクラッチ領域として利用することを想定したNVMe SSDローカルディスクを内蔵するHPCクラスタ向けベアメタルシェイプ **[BM.Optimized3.36](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-hpc-optimized)** やGPUクラスタ向けベアメタルシェイプ **[BM.GPU4.8/BM.GPU.A100-v2.8/BM.GPU.H100.8](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-gpu)** は、NVMe SSDローカルディスクをOSのファイルシステムとして利用するための設定をユーザ自身が行う必要があります。  
     本テクニカルTipsは、このファイルシステム作成方法を解説します。
 
 - **[コストパフォーマンスの良いファイル共有ストレージ構築方法](/ocitutorials/hpc/tech-knowhow/howto-configure-sharedstorage/)**
@@ -406,7 +406,7 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル
 
 - **[Slurmによるリソース管理・ジョブ管理システム運用Tips](/ocitutorials/hpc/tech-knowhow/slurm-tips/)**
 
-    オープンソースの **[Slurm](https://slurm.schedmd.com/)** は、HPC/GPUクラスのリソース管理・ジョブ管理をコストパフォーマンス良く運用するためのジョブスケジューラとして、現在有力な選択肢です。  
+    オープンソースの **[Slurm](https://slurm.schedmd.com/)** は、HPC/GPUクラスタのリソース管理・ジョブ管理をコストパフォーマンス良く運用するためのジョブスケジューラとして、現在有力な選択肢です。  
     本テクニカルTipsは、OCI上に構築するHPC/GPUクラスタのリソース管理・ジョブ管理を **Slurm** で効果的に運用するための様々なテクニカルTipsをご紹介します。
 
 ## 3-6. その他

diff --git a/tutorials/_hpc/benchmark/run-nccltests-h100.md b/tutorials/_hpc/benchmark/run-nccltests-h100.md
@@ -1,7 +1,7 @@
 ---
-title: "NCCL Tests実行方法（BM.GPU.H100.8版）"
+title: "NCCL Tests実行方法（BM.GPU.H100.8編）"
 excerpt: "本ドキュメントは、AIや機械学習のワークロード実行に最適な、高帯域・低遅延RDMA対応RoCEv2採用のクラスタ・ネットワークでGPUワークロード向けベアメタルインスタンス（BM.GPU.H100.8）をノード間接続するGPUクラスタで、GPU間通信の集合通信ライブラリNCCLの標準ベンチマークであるNCCL Testsを実行する方法を解説します。"
-order: "2140"
+order: "2141"
 layout: single
 header:
   overlay_filter: rgba(34, 66, 55, 0.7)
@@ -17,9 +17,9 @@ header:
 
 以上より、本ドキュメントで解説する **NCCL Tests** の実行は、以下の手順を経て行います。
 
-- コンテナ環境構築
-- **NCCL Tests** ビルド
-- **NCCL Tests** 実行
+1. コンテナ環境構築
+2. **NCCL Tests** ビルド
+3. **NCCL Tests** 実行
 
 本ドキュメントでは、以下の環境で **NCCL Tests** の **All-Reduce** 通信性能をコンテナ環境から計測し、16 GiBのメッセージサイズで **465 GB/s** の帯域（busbw）性能が出ています。
 
@@ -52,10 +52,10 @@ header:
 
 以上より、本章で実施するコンテナ環境構築は、以下の手順を経て行います。
 
-- コンテナ間SSH接続環境構築
-- MPI実行を妨げる設定の修正
-- コンテナ起動
-- sshdインストール・起動
+1. コンテナ間SSH接続環境構築
+2. MPI実行を妨げる設定の修正
+3. コンテナ起動
+4. sshdインストール・起動
 
 ## 1-1. コンテナ間SSH接続環境構築
 
@@ -143,22 +143,22 @@ $ mpirun --allow-run-as-root -n 16 -H inst-xxxxx-h100-ol89:8,inst-yyyyy-h100-ol8
 # nThread 1 nGpus 1 minBytes 1073741824 maxBytes 17179869184 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
 #
 # Using devices
-#  Rank  0 Group  0 Pid   1274 on instance-20240722-0952 device  0 [0x0f] NVIDIA H100 80GB HBM3
-#  Rank  1 Group  0 Pid   1275 on instance-20240722-0952 device  1 [0x2d] NVIDIA H100 80GB HBM3
-#  Rank  2 Group  0 Pid   1276 on instance-20240722-0952 device  2 [0x44] NVIDIA H100 80GB HBM3
-#  Rank  3 Group  0 Pid   1277 on instance-20240722-0952 device  3 [0x5b] NVIDIA H100 80GB HBM3
-#  Rank  4 Group  0 Pid   1278 on instance-20240722-0952 device  4 [0x89] NVIDIA H100 80GB HBM3
-#  Rank  5 Group  0 Pid   1279 on instance-20240722-0952 device  5 [0xa8] NVIDIA H100 80GB HBM3
-#  Rank  6 Group  0 Pid   1280 on instance-20240722-0952 device  6 [0xc0] NVIDIA H100 80GB HBM3
-#  Rank  7 Group  0 Pid   1281 on instance-20240722-0952 device  7 [0xd8] NVIDIA H100 80GB HBM3
-#  Rank  8 Group  0 Pid   2315 on instance-20240722-0955 device  0 [0x0f] NVIDIA H100 80GB HBM3
-#  Rank  9 Group  0 Pid   2316 on instance-20240722-0955 device  1 [0x2d] NVIDIA H100 80GB HBM3
-#  Rank 10 Group  0 Pid   2317 on instance-20240722-0955 device  2 [0x44] NVIDIA H100 80GB HBM3
-#  Rank 11 Group  0 Pid   2318 on instance-20240722-0955 device  3 [0x5b] NVIDIA H100 80GB HBM3
-#  Rank 12 Group  0 Pid   2319 on instance-20240722-0955 device  4 [0x89] NVIDIA H100 80GB HBM3
-#  Rank 13 Group  0 Pid   2320 on instance-20240722-0955 device  5 [0xa8] NVIDIA H100 80GB HBM3
-#  Rank 14 Group  0 Pid   2321 on instance-20240722-0955 device  6 [0xc0] NVIDIA H100 80GB HBM3
-#  Rank 15 Group  0 Pid   2322 on instance-20240722-0955 device  7 [0xd8] NVIDIA H100 80GB HBM3
+#  Rank  0 Group  0 Pid   1274 on inst-xxxxx-h100-ol89 device  0 [0x0f] NVIDIA H100 80GB HBM3
+#  Rank  1 Group  0 Pid   1275 on inst-xxxxx-h100-ol89 device  1 [0x2d] NVIDIA H100 80GB HBM3
+#  Rank  2 Group  0 Pid   1276 on inst-xxxxx-h100-ol89 device  2 [0x44] NVIDIA H100 80GB HBM3
+#  Rank  3 Group  0 Pid   1277 on inst-xxxxx-h100-ol89 device  3 [0x5b] NVIDIA H100 80GB HBM3
+#  Rank  4 Group  0 Pid   1278 on inst-xxxxx-h100-ol89 device  4 [0x89] NVIDIA H100 80GB HBM3
+#  Rank  5 Group  0 Pid   1279 on inst-xxxxx-h100-ol89 device  5 [0xa8] NVIDIA H100 80GB HBM3
+#  Rank  6 Group  0 Pid   1280 on inst-xxxxx-h100-ol89 device  6 [0xc0] NVIDIA H100 80GB HBM3
+#  Rank  7 Group  0 Pid   1281 on inst-xxxxx-h100-ol89 device  7 [0xd8] NVIDIA H100 80GB HBM3
+#  Rank  8 Group  0 Pid   2315 on inst-yyyyy-h100-ol89 device  0 [0x0f] NVIDIA H100 80GB HBM3
+#  Rank  9 Group  0 Pid   2316 on inst-yyyyy-h100-ol89 device  1 [0x2d] NVIDIA H100 80GB HBM3
+#  Rank 10 Group  0 Pid   2317 on inst-yyyyy-h100-ol89 device  2 [0x44] NVIDIA H100 80GB HBM3
+#  Rank 11 Group  0 Pid   2318 on inst-yyyyy-h100-ol89 device  3 [0x5b] NVIDIA H100 80GB HBM3
+#  Rank 12 Group  0 Pid   2319 on inst-yyyyy-h100-ol89 device  4 [0x89] NVIDIA H100 80GB HBM3
+#  Rank 13 Group  0 Pid   2320 on inst-yyyyy-h100-ol89 device  5 [0xa8] NVIDIA H100 80GB HBM3
+#  Rank 14 Group  0 Pid   2321 on inst-yyyyy-h100-ol89 device  6 [0xc0] NVIDIA H100 80GB HBM3
+#  Rank 15 Group  0 Pid   2322 on inst-yyyyy-h100-ol89 device  7 [0xd8] NVIDIA H100 80GB HBM3
 #
 #                                                              out-of-place                       in-place          
 #       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong

diff --git a/tutorials/_hpc/benchmark/run-nccltests.md b/tutorials/_hpc/benchmark/run-nccltests.md
@@ -1,5 +1,5 @@
 ---
-title: "NCCL Tests実行方法（BM.GPU4.8/BM.GPU.A100-v2.8版）"
+title: "NCCL Tests実行方法（BM.GPU4.8/BM.GPU.A100-v2.8編）"
 excerpt: "本ドキュメントは、AIや機械学習のワークロード実行に最適な、高帯域・低遅延RDMA対応RoCEv2採用のクラスタ・ネットワークでGPUワークロード向けベアメタルインスタンス（BM.GPU4.8/BM.GPU.A100-v2.8）をノード間接続するGPUクラスタで、GPU間通信の集合通信ライブラリNCCLの標準ベンチマークであるNCCL Testsを実行する方法を解説します。"
 order: "2140"
 layout: single
@@ -17,9 +17,9 @@ header:
 
 以上より、本ドキュメントで解説する **NCCL Tests** の実行は、以下の手順を経て行います。
 
-- コンテナ環境構築
-- **NCCL Tests** ビルド
-- **NCCL Tests** 実行
+1. コンテナ環境構築
+2. **NCCL Tests** ビルド
+3. **NCCL Tests** 実行
 
 本ドキュメントでは、以下の環境で **NCCL Tests** の **All-Reduce** 通信性能をコンテナ環境から計測し、10 GiBのメッセージサイズで **219 GB/s** の帯域（busbw）性能が出ています。
 
@@ -52,10 +52,10 @@ header:
 
 以上より、本章で実施するコンテナ環境構築は、以下の手順を経て行います。
 
-- コンテナ間SSH接続環境構築
-- MPI実行を妨げる設定の修正
-- コンテナ起動
-- sshdインストール・起動
+1. コンテナ間SSH接続環境構築
+2. MPI実行を妨げる設定の修正
+3. コンテナ起動
+ sshdインストール・起動
 
 ## 1-1. コンテナ間SSH接続環境構築
 
@@ -143,22 +143,22 @@ $ mpirun --allow-run-as-root -np 2 -H inst-xxxxx-gpu4-ol89:1,inst-yyyyy-gpu4-ol8
 # nThread 1 nGpus 1 minBytes 10737418240 maxBytes 10737418240 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
 #
 # Using devices
-#  Rank  0 Group  0 Pid    417 on inst-xxxxx-comp device  0 [0x0f] NVIDIA A100-SXM4-40GB
-#  Rank  1 Group  0 Pid    418 on inst-xxxxx-comp device  1 [0x15] NVIDIA A100-SXM4-40GB
-#  Rank  2 Group  0 Pid    419 on inst-xxxxx-comp device  2 [0x51] NVIDIA A100-SXM4-40GB
-#  Rank  3 Group  0 Pid    420 on inst-xxxxx-comp device  3 [0x54] NVIDIA A100-SXM4-40GB
-#  Rank  4 Group  0 Pid    421 on inst-xxxxx-comp device  4 [0x8d] NVIDIA A100-SXM4-40GB
-#  Rank  5 Group  0 Pid    422 on inst-xxxxx-comp device  5 [0x92] NVIDIA A100-SXM4-40GB
-#  Rank  6 Group  0 Pid    425 on inst-xxxxx-comp device  6 [0xd6] NVIDIA A100-SXM4-40GB
-#  Rank  7 Group  0 Pid    429 on inst-xxxxx-comp device  7 [0xda] NVIDIA A100-SXM4-40GB
-#  Rank  8 Group  0 Pid    371 on inst-yyyyy-comp device  0 [0x0f] NVIDIA A100-SXM4-40GB
-#  Rank  9 Group  0 Pid    372 on inst-yyyyy-comp device  1 [0x15] NVIDIA A100-SXM4-40GB
-#  Rank 10 Group  0 Pid    373 on inst-yyyyy-comp device  2 [0x51] NVIDIA A100-SXM4-40GB
-#  Rank 11 Group  0 Pid    374 on inst-yyyyy-comp device  3 [0x54] NVIDIA A100-SXM4-40GB
-#  Rank 12 Group  0 Pid    375 on inst-yyyyy-comp device  4 [0x8d] NVIDIA A100-SXM4-40GB
-#  Rank 13 Group  0 Pid    376 on inst-yyyyy-comp device  5 [0x92] NVIDIA A100-SXM4-40GB
-#  Rank 14 Group  0 Pid    377 on inst-yyyyy-comp device  6 [0xd6] NVIDIA A100-SXM4-40GB
-#  Rank 15 Group  0 Pid    380 on inst-yyyyy-comp device  7 [0xda] NVIDIA A100-SXM4-40GB
+#  Rank  0 Group  0 Pid    417 on inst-xxxxx-gpu4-ol89 device  0 [0x0f] NVIDIA A100-SXM4-40GB
+#  Rank  1 Group  0 Pid    418 on inst-xxxxx-gpu4-ol89 device  1 [0x15] NVIDIA A100-SXM4-40GB
+#  Rank  2 Group  0 Pid    419 on inst-xxxxx-gpu4-ol89 device  2 [0x51] NVIDIA A100-SXM4-40GB
+#  Rank  3 Group  0 Pid    420 on inst-xxxxx-gpu4-ol89 device  3 [0x54] NVIDIA A100-SXM4-40GB
+#  Rank  4 Group  0 Pid    421 on inst-xxxxx-gpu4-ol89 device  4 [0x8d] NVIDIA A100-SXM4-40GB
+#  Rank  5 Group  0 Pid    422 on inst-xxxxx-gpu4-ol89 device  5 [0x92] NVIDIA A100-SXM4-40GB
+#  Rank  6 Group  0 Pid    425 on inst-xxxxx-gpu4-ol89 device  6 [0xd6] NVIDIA A100-SXM4-40GB
+#  Rank  7 Group  0 Pid    429 on inst-xxxxx-gpu4-ol89 device  7 [0xda] NVIDIA A100-SXM4-40GB
+#  Rank  8 Group  0 Pid    371 on inst-yyyyy-gpu4-ol89 device  0 [0x0f] NVIDIA A100-SXM4-40GB
+#  Rank  9 Group  0 Pid    372 on inst-yyyyy-gpu4-ol89 device  1 [0x15] NVIDIA A100-SXM4-40GB
+#  Rank 10 Group  0 Pid    373 on inst-yyyyy-gpu4-ol89 device  2 [0x51] NVIDIA A100-SXM4-40GB
+#  Rank 11 Group  0 Pid    374 on inst-yyyyy-gpu4-ol89 device  3 [0x54] NVIDIA A100-SXM4-40GB
+#  Rank 12 Group  0 Pid    375 on inst-yyyyy-gpu4-ol89 device  4 [0x8d] NVIDIA A100-SXM4-40GB
+#  Rank 13 Group  0 Pid    376 on inst-yyyyy-gpu4-ol89 device  5 [0x92] NVIDIA A100-SXM4-40GB
+#  Rank 14 Group  0 Pid    377 on inst-yyyyy-gpu4-ol89 device  6 [0xd6] NVIDIA A100-SXM4-40GB
+#  Rank 15 Group  0 Pid    380 on inst-yyyyy-gpu4-ol89 device  7 [0xda] NVIDIA A100-SXM4-40GB
 #
 #                                                              out-of-place                       in-place          
 #       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong