Skip to content

Commit

Permalink
チュートリアル:OCI HPCチュートリアル集、OCI HPCテクニカルTips集
Browse files Browse the repository at this point in the history
カテゴリ:OCI HPCポータル
更新内容:"短期保存データ用高速ファイル共有ストレージを構築する"新規追加、"ファイル・ストレージでファイル共有ストレージを構築する"新規追加、"HPC/GPUクラスタ向けファイル共有ストレージの最適な構築手法"にDenceIO NFSサーバ追加、これらに伴う修正及び誤記訂正・軽微な修正
  • Loading branch information
fwiw6430 committed Sep 10, 2024
1 parent 7e84f88 commit 9049da7
Show file tree
Hide file tree
Showing 15 changed files with 581 additions and 93 deletions.
25 changes: 16 additions & 9 deletions _pages/hpc.md
Original file line number Diff line number Diff line change
Expand Up @@ -142,9 +142,16 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル

## 1-3. ファイル共有ストレージ

本章は、HPCクラスタやGPUクラスタから利用するファイル共有ストレージを構築するチュートリアルを集めています
本章は、HPC/GPUクラスタから利用するファイル共有ストレージを構築するチュートリアルを集めています。自身の要件に合わせてチュートリアルを選んだら、そのチュートリアル名をクリックします

現時点は、 **[マーケットプレース](#5-5-マーケットプレイス)** から無料で利用可能な **[スタック](#5-3-スタック)** を利用して **ブロック・ボリューム** とベアメタルインスタンスからNFSでファイル共有ストレージを自動構築するチュートリアル **[ブロック・ボリュームでNFSサーバを構築する](/ocitutorials/hpc/spinup-nfs-server/)** を利用することが可能です。
| チュートリアル名 | 保存対象データ | **IOR** ターゲット性能 | サービス可用性 | データ可用性 |構築の<br>難易度 | 最大容量|ストレージ<br>に使用する<br>OCIサービス | ヘッドノード<br>に使用する<br>OCIサービス | ファイル共有<br>プロトコル |
| :-------------------------------------------------------------------------: | :-----: | :------------------------------: | :--------------: | :---------------------: | :-------------------: |:-------------------: |:------------------: | :---------: |:---------: |
| **[ファイル・ストレージ<br>でファイル共有ストレージ<br>を構築する](/ocitutorials/hpc/spinup-nfs-server-fss/)** | 長期保存データ | 1 GiB/s(Read)<br>0.8 GiB/s(Write)<br>(※7) | HA構成<br>のヘッドノード | **ファイル・システム** 内<br>データ複製 ||8EB | **ファイル・システム** | **マウント・ターゲット** | NFS v3 |
| **[ブロック・ボリューム<br>でNFSサーバを構築する](/ocitutorials/hpc/spinup-nfs-server/)** | 中期保存データ | 5 GiB/s(Read)<br>4 GiB/s(Write) | ヘッドノード障害<br>でサービス停止 | **ブロック・ボリューム** 内<br>データ複製 ||1PB| **ブロック・ボリューム** | **BM.Optimized3.36** | NFS v3/v4 |
| **[短期保存データ用<br>高速ファイル共有ストレージ<br>を構築する](/ocitutorials/hpc/spinup-nfs-server-nvme/)** | 短期保存データ | 10 GiB/s(Read)<br>8 GiB/s(Write) | ヘッドノード障害<br>でサービス停止 |ヘッドノードの<br>NVMe SSD<br>ローカルディスク<br>のRAID10 ||38TB| ヘッドノードの<br>NVMe SSD<br>ローカルディスク |**BM.DenseIO.E5.128** | NFS v3/v4 |

※7)以下で公開されているIOサイズ1 MiBでのスループットを記載しており、 **IOR** で計測した性能ではありません。
**[https://docs.oracle.com/en-us/iaas/Content/Resources/Assets/whitepapers/file-storage-performance-guide.pdf](https://docs.oracle.com/en-us/iaas/Content/Resources/Assets/whitepapers/file-storage-performance-guide.pdf)**

## 1-4. チュートリアルを組み合わせた実践的HPCシステム構築

Expand All @@ -157,13 +164,13 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル

下表は、各チュートリアルで構築するシステム仕様を示します。

| No. | 構築手法 | クラスタ管理機能 | スタティック/オンデマンド | コンテナランタイム(※8|
| No. | 構築手法 | クラスタ管理機能 | スタティック/オンデマンド | コンテナランタイム(※9|
| :-: | :--: | :------: | :--------------------: | :-----------: |
| 1 | 手動 | 無し(※7| スタティック | **Docker CE** |
| 1 | 手動 | 無し(※8| スタティック | **Docker CE** |
| 2 | 自動 | 有り | スタティック<br>or<br>オンデマンド | **Enroot** |

7)ファイル共有ストレージは、 **ブロック・ボリューム** NFSサーバが提供します。
8)GPUクラスタが対象です。
8)ファイル共有ストレージは、 **ブロック・ボリューム** NFSサーバが提供します。
9)GPUクラスタが対象です。

***
# 2. OCI HPCパフォーマンス関連情報
Expand Down Expand Up @@ -316,10 +323,10 @@ HPC/機械学習ワークロードを実行する際に有益なテクニカル
高速スクラッチ領域として利用することを想定したNVMe SSDローカルディスクを内蔵するHPCクラスタ向けベアメタルシェイプ **[BM.Optimized3.36](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-hpc-optimized)** やGPUクラスタ向けベアメタルシェイプ **[BM.GPU4.8/BM.GPU.A100-v2.8/BM.GPU.H100.8](https://docs.oracle.com/ja-jp/iaas/Content/Compute/References/computeshapes.htm#bm-gpu)** は、NVMe SSDローカルディスクをOSのファイルシステムとして利用するための設定をユーザ自身が行う必要があります。
本テクニカルTipsは、このファイルシステム作成方法を解説します。

- **[コストパフォーマンスの良いファイル共有ストレージ構築方法](/ocitutorials/hpc/tech-knowhow/howto-configure-sharedstorage/)**
- **[HPC/GPUクラスタ向けファイル共有ストレージの最適な構築手法](/ocitutorials/hpc/tech-knowhow/howto-configure-sharedstorage/)**

HPC/GPUクラスタを運用する際必須となるファイル共有ストレージは、NFSでこれを構築することが一般的ですが、この際の選択肢として、NFSのマネージドサービスである **ファイル・ストレージ** を使用する方法と、 **ブロック・ボリューム** とベアメタルインスタンスを組み合わせたNFSサーバを構築する方法があります
本テクニカルTipsは、コストパフォーマンス等を考慮してどちらの方法を選択すればよいか、 **ブロック・ボリューム** とベアメタルインスタンスを組み合わせたNFSサーバを構築する場合どのように **ブロック・ボリューム** とベアメタルインスタンスを構成すればよいか、解説します
HPC/GPUクラスタを運用する際必須となるファイル共有ストレージは、NFSでこれを構築することが一般的ですが、この際の選択肢は、NFSのマネージドサービスである **ファイル・ストレージ** を使用する方法と、高帯域のネットワークポートを持つベア・メタル・インスタンスとストレージサービスを組合せてNFSサーバを自身で構築する方法があります
本テクニカルTipsは、コストパフォーマンス、可用性、構築・運用のしやすさ等を考慮し、最適なファイル共有ストレージ構築手法を解説します

- **[ブロック・ボリュームを使用するNFSサーバのインスタンス障害からの復旧方法](/ocitutorials/hpc/tech-knowhow/bv-sharedstorage-recovery/)**

Expand Down
Loading

0 comments on commit 9049da7

Please sign in to comment.