Skip to content

Commit

Permalink
チュートリアル:OCI HPCテクニカルTips集、OCI HPCパフォーマンス関連情報
Browse files Browse the repository at this point in the history
カテゴリ:OCI HPCポータル
更新内容:"OpenFOAMインストール・利用方法"の共有ストレージ・ローカルディスク間データ同期をコンカレントに変更、"Slurmによるリソース管理・ジョブ管理システム運用Tips"にメンテナンスを考慮した計算/GPUノードのステータス変更方法を追加、"ベアメタルインスタンスのNVMe SSDローカルディスク領域ファイルシステム作成方法"にBM.GPU.H100.8を追加、これらに伴う修正及び誤記訂正・軽微な修正
  • Loading branch information
fwiw6430 committed Jul 31, 2024
1 parent cde794a commit 093bee4
Show file tree
Hide file tree
Showing 7 changed files with 539 additions and 370 deletions.
4 changes: 2 additions & 2 deletions _pages/hpc.md
Original file line number Diff line number Diff line change
Expand Up @@ -308,7 +308,7 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル

- **[ベアメタルインスタンスのNVMe SSDローカルディスク領域ファイルシステム作成方法](/ocitutorials/hpc/tech-knowhow/nvme-filesystem/)**

高速スクラッチ領域として利用することを想定したNVMe SSDローカルディスクを内蔵するHPCクラスタ向けベアメタルシェイプ **[BM.Optimized3.36](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-hpc-optimized)** やGPUクラスタ向けベアメタルシェイプ **[BM.GPU4.8/BM.GPU.GM4.8](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-gpu)** は、NVMe SSDローカルディスクをOSのファイルシステムとして利用するための設定をユーザ自身が行う必要があります。
高速スクラッチ領域として利用することを想定したNVMe SSDローカルディスクを内蔵するHPCクラスタ向けベアメタルシェイプ **[BM.Optimized3.36](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-hpc-optimized)** やGPUクラスタ向けベアメタルシェイプ **[BM.GPU4.8/BM.GPU.A100-v2.8/BM.GPU.H100.8](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-gpu)** は、NVMe SSDローカルディスクをOSのファイルシステムとして利用するための設定をユーザ自身が行う必要があります。
本テクニカルTipsは、このファイルシステム作成方法を解説します。

- **[コストパフォーマンスの良いファイル共有ストレージ構築方法](/ocitutorials/hpc/tech-knowhow/howto-configure-sharedstorage/)**
Expand Down Expand Up @@ -406,7 +406,7 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル

- **[Slurmによるリソース管理・ジョブ管理システム運用Tips](/ocitutorials/hpc/tech-knowhow/slurm-tips/)**

オープンソースの **[Slurm](https://slurm.schedmd.com/)** は、HPC/GPUクラスのリソース管理・ジョブ管理をコストパフォーマンス良く運用するためのジョブスケジューラとして、現在有力な選択肢です。
オープンソースの **[Slurm](https://slurm.schedmd.com/)** は、HPC/GPUクラスタのリソース管理・ジョブ管理をコストパフォーマンス良く運用するためのジョブスケジューラとして、現在有力な選択肢です。
本テクニカルTipsは、OCI上に構築するHPC/GPUクラスタのリソース管理・ジョブ管理を **Slurm** で効果的に運用するための様々なテクニカルTipsをご紹介します。

## 3-6. その他
Expand Down
50 changes: 25 additions & 25 deletions tutorials/_hpc/benchmark/run-nccltests-h100.md
Original file line number Diff line number Diff line change
@@ -1,7 +1,7 @@
---
title: "NCCL Tests実行方法(BM.GPU.H100.8版"
title: "NCCL Tests実行方法(BM.GPU.H100.8編"
excerpt: "本ドキュメントは、AIや機械学習のワークロード実行に最適な、高帯域・低遅延RDMA対応RoCEv2採用のクラスタ・ネットワークでGPUワークロード向けベアメタルインスタンス(BM.GPU.H100.8)をノード間接続するGPUクラスタで、GPU間通信の集合通信ライブラリNCCLの標準ベンチマークであるNCCL Testsを実行する方法を解説します。"
order: "2140"
order: "2141"
layout: single
header:
overlay_filter: rgba(34, 66, 55, 0.7)
Expand All @@ -17,9 +17,9 @@ header:

以上より、本ドキュメントで解説する **NCCL Tests** の実行は、以下の手順を経て行います。

- コンテナ環境構築
- **NCCL Tests** ビルド
- **NCCL Tests** 実行
1. コンテナ環境構築
2. **NCCL Tests** ビルド
3. **NCCL Tests** 実行

本ドキュメントでは、以下の環境で **NCCL Tests****All-Reduce** 通信性能をコンテナ環境から計測し、16 GiBのメッセージサイズで **465 GB/s** の帯域(busbw)性能が出ています。

Expand Down Expand Up @@ -52,10 +52,10 @@ header:

以上より、本章で実施するコンテナ環境構築は、以下の手順を経て行います。

- コンテナ間SSH接続環境構築
- MPI実行を妨げる設定の修正
- コンテナ起動
- sshdインストール・起動
1. コンテナ間SSH接続環境構築
2. MPI実行を妨げる設定の修正
3. コンテナ起動
4. sshdインストール・起動

## 1-1. コンテナ間SSH接続環境構築

Expand Down Expand Up @@ -143,22 +143,22 @@ $ mpirun --allow-run-as-root -n 16 -H inst-xxxxx-h100-ol89:8,inst-yyyyy-h100-ol8
# nThread 1 nGpus 1 minBytes 1073741824 maxBytes 17179869184 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
# Rank 0 Group 0 Pid 1274 on instance-20240722-0952 device 0 [0x0f] NVIDIA H100 80GB HBM3
# Rank 1 Group 0 Pid 1275 on instance-20240722-0952 device 1 [0x2d] NVIDIA H100 80GB HBM3
# Rank 2 Group 0 Pid 1276 on instance-20240722-0952 device 2 [0x44] NVIDIA H100 80GB HBM3
# Rank 3 Group 0 Pid 1277 on instance-20240722-0952 device 3 [0x5b] NVIDIA H100 80GB HBM3
# Rank 4 Group 0 Pid 1278 on instance-20240722-0952 device 4 [0x89] NVIDIA H100 80GB HBM3
# Rank 5 Group 0 Pid 1279 on instance-20240722-0952 device 5 [0xa8] NVIDIA H100 80GB HBM3
# Rank 6 Group 0 Pid 1280 on instance-20240722-0952 device 6 [0xc0] NVIDIA H100 80GB HBM3
# Rank 7 Group 0 Pid 1281 on instance-20240722-0952 device 7 [0xd8] NVIDIA H100 80GB HBM3
# Rank 8 Group 0 Pid 2315 on instance-20240722-0955 device 0 [0x0f] NVIDIA H100 80GB HBM3
# Rank 9 Group 0 Pid 2316 on instance-20240722-0955 device 1 [0x2d] NVIDIA H100 80GB HBM3
# Rank 10 Group 0 Pid 2317 on instance-20240722-0955 device 2 [0x44] NVIDIA H100 80GB HBM3
# Rank 11 Group 0 Pid 2318 on instance-20240722-0955 device 3 [0x5b] NVIDIA H100 80GB HBM3
# Rank 12 Group 0 Pid 2319 on instance-20240722-0955 device 4 [0x89] NVIDIA H100 80GB HBM3
# Rank 13 Group 0 Pid 2320 on instance-20240722-0955 device 5 [0xa8] NVIDIA H100 80GB HBM3
# Rank 14 Group 0 Pid 2321 on instance-20240722-0955 device 6 [0xc0] NVIDIA H100 80GB HBM3
# Rank 15 Group 0 Pid 2322 on instance-20240722-0955 device 7 [0xd8] NVIDIA H100 80GB HBM3
# Rank 0 Group 0 Pid 1274 on inst-xxxxx-h100-ol89 device 0 [0x0f] NVIDIA H100 80GB HBM3
# Rank 1 Group 0 Pid 1275 on inst-xxxxx-h100-ol89 device 1 [0x2d] NVIDIA H100 80GB HBM3
# Rank 2 Group 0 Pid 1276 on inst-xxxxx-h100-ol89 device 2 [0x44] NVIDIA H100 80GB HBM3
# Rank 3 Group 0 Pid 1277 on inst-xxxxx-h100-ol89 device 3 [0x5b] NVIDIA H100 80GB HBM3
# Rank 4 Group 0 Pid 1278 on inst-xxxxx-h100-ol89 device 4 [0x89] NVIDIA H100 80GB HBM3
# Rank 5 Group 0 Pid 1279 on inst-xxxxx-h100-ol89 device 5 [0xa8] NVIDIA H100 80GB HBM3
# Rank 6 Group 0 Pid 1280 on inst-xxxxx-h100-ol89 device 6 [0xc0] NVIDIA H100 80GB HBM3
# Rank 7 Group 0 Pid 1281 on inst-xxxxx-h100-ol89 device 7 [0xd8] NVIDIA H100 80GB HBM3
# Rank 8 Group 0 Pid 2315 on inst-yyyyy-h100-ol89 device 0 [0x0f] NVIDIA H100 80GB HBM3
# Rank 9 Group 0 Pid 2316 on inst-yyyyy-h100-ol89 device 1 [0x2d] NVIDIA H100 80GB HBM3
# Rank 10 Group 0 Pid 2317 on inst-yyyyy-h100-ol89 device 2 [0x44] NVIDIA H100 80GB HBM3
# Rank 11 Group 0 Pid 2318 on inst-yyyyy-h100-ol89 device 3 [0x5b] NVIDIA H100 80GB HBM3
# Rank 12 Group 0 Pid 2319 on inst-yyyyy-h100-ol89 device 4 [0x89] NVIDIA H100 80GB HBM3
# Rank 13 Group 0 Pid 2320 on inst-yyyyy-h100-ol89 device 5 [0xa8] NVIDIA H100 80GB HBM3
# Rank 14 Group 0 Pid 2321 on inst-yyyyy-h100-ol89 device 6 [0xc0] NVIDIA H100 80GB HBM3
# Rank 15 Group 0 Pid 2322 on inst-yyyyy-h100-ol89 device 7 [0xd8] NVIDIA H100 80GB HBM3
#
# out-of-place in-place
# size count type redop root time algbw busbw #wrong time algbw busbw #wrong
Expand Down
48 changes: 24 additions & 24 deletions tutorials/_hpc/benchmark/run-nccltests.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,5 @@
---
title: "NCCL Tests実行方法(BM.GPU4.8/BM.GPU.A100-v2.8版"
title: "NCCL Tests実行方法(BM.GPU4.8/BM.GPU.A100-v2.8編"
excerpt: "本ドキュメントは、AIや機械学習のワークロード実行に最適な、高帯域・低遅延RDMA対応RoCEv2採用のクラスタ・ネットワークでGPUワークロード向けベアメタルインスタンス(BM.GPU4.8/BM.GPU.A100-v2.8)をノード間接続するGPUクラスタで、GPU間通信の集合通信ライブラリNCCLの標準ベンチマークであるNCCL Testsを実行する方法を解説します。"
order: "2140"
layout: single
Expand All @@ -17,9 +17,9 @@ header:

以上より、本ドキュメントで解説する **NCCL Tests** の実行は、以下の手順を経て行います。

- コンテナ環境構築
- **NCCL Tests** ビルド
- **NCCL Tests** 実行
1. コンテナ環境構築
2. **NCCL Tests** ビルド
3. **NCCL Tests** 実行

本ドキュメントでは、以下の環境で **NCCL Tests****All-Reduce** 通信性能をコンテナ環境から計測し、10 GiBのメッセージサイズで **219 GB/s** の帯域(busbw)性能が出ています。

Expand Down Expand Up @@ -52,10 +52,10 @@ header:

以上より、本章で実施するコンテナ環境構築は、以下の手順を経て行います。

- コンテナ間SSH接続環境構築
- MPI実行を妨げる設定の修正
- コンテナ起動
- sshdインストール・起動
1. コンテナ間SSH接続環境構築
2. MPI実行を妨げる設定の修正
3. コンテナ起動
sshdインストール・起動

## 1-1. コンテナ間SSH接続環境構築

Expand Down Expand Up @@ -143,22 +143,22 @@ $ mpirun --allow-run-as-root -np 2 -H inst-xxxxx-gpu4-ol89:1,inst-yyyyy-gpu4-ol8
# nThread 1 nGpus 1 minBytes 10737418240 maxBytes 10737418240 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
# Rank 0 Group 0 Pid 417 on inst-xxxxx-comp device 0 [0x0f] NVIDIA A100-SXM4-40GB
# Rank 1 Group 0 Pid 418 on inst-xxxxx-comp device 1 [0x15] NVIDIA A100-SXM4-40GB
# Rank 2 Group 0 Pid 419 on inst-xxxxx-comp device 2 [0x51] NVIDIA A100-SXM4-40GB
# Rank 3 Group 0 Pid 420 on inst-xxxxx-comp device 3 [0x54] NVIDIA A100-SXM4-40GB
# Rank 4 Group 0 Pid 421 on inst-xxxxx-comp device 4 [0x8d] NVIDIA A100-SXM4-40GB
# Rank 5 Group 0 Pid 422 on inst-xxxxx-comp device 5 [0x92] NVIDIA A100-SXM4-40GB
# Rank 6 Group 0 Pid 425 on inst-xxxxx-comp device 6 [0xd6] NVIDIA A100-SXM4-40GB
# Rank 7 Group 0 Pid 429 on inst-xxxxx-comp device 7 [0xda] NVIDIA A100-SXM4-40GB
# Rank 8 Group 0 Pid 371 on inst-yyyyy-comp device 0 [0x0f] NVIDIA A100-SXM4-40GB
# Rank 9 Group 0 Pid 372 on inst-yyyyy-comp device 1 [0x15] NVIDIA A100-SXM4-40GB
# Rank 10 Group 0 Pid 373 on inst-yyyyy-comp device 2 [0x51] NVIDIA A100-SXM4-40GB
# Rank 11 Group 0 Pid 374 on inst-yyyyy-comp device 3 [0x54] NVIDIA A100-SXM4-40GB
# Rank 12 Group 0 Pid 375 on inst-yyyyy-comp device 4 [0x8d] NVIDIA A100-SXM4-40GB
# Rank 13 Group 0 Pid 376 on inst-yyyyy-comp device 5 [0x92] NVIDIA A100-SXM4-40GB
# Rank 14 Group 0 Pid 377 on inst-yyyyy-comp device 6 [0xd6] NVIDIA A100-SXM4-40GB
# Rank 15 Group 0 Pid 380 on inst-yyyyy-comp device 7 [0xda] NVIDIA A100-SXM4-40GB
# Rank 0 Group 0 Pid 417 on inst-xxxxx-gpu4-ol89 device 0 [0x0f] NVIDIA A100-SXM4-40GB
# Rank 1 Group 0 Pid 418 on inst-xxxxx-gpu4-ol89 device 1 [0x15] NVIDIA A100-SXM4-40GB
# Rank 2 Group 0 Pid 419 on inst-xxxxx-gpu4-ol89 device 2 [0x51] NVIDIA A100-SXM4-40GB
# Rank 3 Group 0 Pid 420 on inst-xxxxx-gpu4-ol89 device 3 [0x54] NVIDIA A100-SXM4-40GB
# Rank 4 Group 0 Pid 421 on inst-xxxxx-gpu4-ol89 device 4 [0x8d] NVIDIA A100-SXM4-40GB
# Rank 5 Group 0 Pid 422 on inst-xxxxx-gpu4-ol89 device 5 [0x92] NVIDIA A100-SXM4-40GB
# Rank 6 Group 0 Pid 425 on inst-xxxxx-gpu4-ol89 device 6 [0xd6] NVIDIA A100-SXM4-40GB
# Rank 7 Group 0 Pid 429 on inst-xxxxx-gpu4-ol89 device 7 [0xda] NVIDIA A100-SXM4-40GB
# Rank 8 Group 0 Pid 371 on inst-yyyyy-gpu4-ol89 device 0 [0x0f] NVIDIA A100-SXM4-40GB
# Rank 9 Group 0 Pid 372 on inst-yyyyy-gpu4-ol89 device 1 [0x15] NVIDIA A100-SXM4-40GB
# Rank 10 Group 0 Pid 373 on inst-yyyyy-gpu4-ol89 device 2 [0x51] NVIDIA A100-SXM4-40GB
# Rank 11 Group 0 Pid 374 on inst-yyyyy-gpu4-ol89 device 3 [0x54] NVIDIA A100-SXM4-40GB
# Rank 12 Group 0 Pid 375 on inst-yyyyy-gpu4-ol89 device 4 [0x8d] NVIDIA A100-SXM4-40GB
# Rank 13 Group 0 Pid 376 on inst-yyyyy-gpu4-ol89 device 5 [0x92] NVIDIA A100-SXM4-40GB
# Rank 14 Group 0 Pid 377 on inst-yyyyy-gpu4-ol89 device 6 [0xd6] NVIDIA A100-SXM4-40GB
# Rank 15 Group 0 Pid 380 on inst-yyyyy-gpu4-ol89 device 7 [0xda] NVIDIA A100-SXM4-40GB
#
# out-of-place in-place
# size count type redop root time algbw busbw #wrong time algbw busbw #wrong
Expand Down
Loading

0 comments on commit 093bee4

Please sign in to comment.