OAM/SXMって、そもそもナニ?

はじめに

「GPU」と聞いて、多くの人が思い浮かべるのは、パソコンのケースに差し込むグラフィックカード(ビデオカード)ではないでしょうか。たしかに、ゲーミングPCやクリエイター向けPCに使われるGPUは、あの細長いカードの形をしています。

でも、AIの学習や大規模な科学計算に使われるデータセンター向けのGPUは、もはや「カード」とは呼べないほど巨大で、特殊な形をしています。そこで登場するのが、OAMSXM というキーワードです。

フォームファクタとは?

「フォームファクタ(Form Factor)」とは、ざっくり言うと「機器の形・大きさ・取り付け方の規格」のことです。たとえば、皆さんのスマホのSIMカードにも「nanoSIM」「microSIM」といった規格(フォームファクタ)がありますよね。あれと同じで、「このサイズ・この形で作れば、どのメーカーの製品とも組み合わせられる」という約束事です。

GPUの世界でも、単純に「大きいGPUチップを基板に載せる」だけでなく、

  • どうやってサーバーに取り付けるか
  • どうやって電力を供給するか
  • どうやって冷やすか
  • どうやって他のGPUとつなぐか

…これらをまとめて標準化したものが、フォームファクタという訳です。

OAMとは?

OAMOCP Accelerator Module) は、OCP(Open Compute Project) という業界団体が定めたオープンな標準規格です。OCP(Open Compute Project) とは? Metaが中心となって設立した、データセンターのハードウェアをオープンソース的に標準化しようというプロジェクト。Google、Microsoft、Intelなど業界の大手が参加しています。

OAMの特徴

  • 形と大きさ
    OAMモジュールのサイズは約74mm × 228mm。 手のひらよりちょっと大きいくらいのサイズ感です。
    このモジュールをサーバーのマザーボード(ベースボード)にある「OAMスロット」に差し込んで使います。
  • 電力の供給方法
    1枚のOAMモジュールに対して、最大で700W〜1000W以上の電力を供給できる設計になっています。家庭用の電子レンジが約1000Wですから、1枚のカードにそれだけの電力が集中しているイメージです。
  • 冷却方式
    OAMは液冷(水冷) を前提とした設計になっています。これほどの発熱を空気だけで冷やすのはほぼ不可能なため、モジュール自体に冷却水を流す構造が組み込まれています。
  • 複数GPU間の接続
    1枚のOAMボードに複数枚のOAMモジュールを搭載でき、モジュール同士を高速な専用バス(UBBなど)でつなぐことができます。

採用例

  • AMD Instinct MI300シリーズ(AIアクセラレータ)
  • Intel Gaudi シリーズ(AI向けアクセラレータ)

SXMとは?

SXM(Server PCI Express Module) は、NVIDIAが自社のデータセンター向けGPUのために開発した、独自のフォームファクタです。「PCIe」という名前が含まれていますが、実際にはNVIDIA独自の仕様が色濃く、一般的なPCIeスロットとは別物だと思って差し支えありません。

SXMの特徴

  • 形と大きさ
    SXMモジュールもカード状の形をしており、専用の「SXMボード(HGXボードなど)」に取り付けます。NVIDIAはGPUの世代ごとにSXM2、SXM4、SXM5、SXM6…と規格を進化させてきました。
  • 電力の供給方法
    最新世代では700W〜1000W超にも達し、OAMと同様に非常に大きな電力を扱えます。
  • 冷却方式
    SXMも液冷を前提とした設計が主流です。
  • NVLinkによる超高速GPU間接続
    SXMの最大の特徴・強みは、NVLinkという独自の高速インターコネクト(接続技術)との組み合わせです。
    複数のGPU同士をNVLinkで直結することで、GPUがまるで「1つの巨大なGPU」のように協調して動作できます。これにより、AI学習などで膨大なデータを高速にやり取りできます。

合わせて読みたい

採用例

  • NVIDIA A100(SXM4)
  • NVIDIA H100(SXM5)
  • NVIDIA H200(SXM5)
  • NVIDIA B200(SXM6)

OAMとSXMの違い

項目OAMSXM
策定主体OCP(業界団体・オープン)NVIDIA(独自規格)
オープン性高い(複数メーカーが参加)NVIDIAのみ
主な採用GPUAMD、Intel Gaudi などNVIDIA A100/H100/B200 など
冷却方式主に液冷主に液冷
GPU間接続メーカー独自(Infinity Fabric等)NVLink(NVIDIA独自・非常に高速)
サーバー設計の自由度高い△ NVIDIA製品に依存
市場シェア(現状)△ 成長中 圧倒的シェア

なぜわざわざこんな特殊な形にするの?

ここで一度立ち止まって、「なぜ普通のグラフィックカードの形ではダメなのか」を考えてみましょう。

理由①:とにかく電力が段違い

ゲーミング向けGPUのハイエンド品でも消費電力は400W〜600W程度。 しかしAI向けのGPUは700W〜1000W以上

通常のPCIeスロットは電力供給能力に限界があり、そのままでは対応できません。

理由②:発熱が激しすぎる

1000Wの熱を空気だけで逃がそうとすると、巨大なファンが必要になり、騒音・スペース・電力消費の問題が出ます。液冷に最適化した形状にすることで、コンパクトかつ効率的に冷やせます。

理由③:たくさんのGPUを密集させたい

AIの学習には、1枚ではなく8枚・16枚・数百枚のGPUを同時に動かすことも珍しくありません。モジュール形式にすることで、限られたスペースに効率よく大量のGPUを詰め込めます。

理由④:GPU同士の通信が超重要

多数のGPUを使うとき、GPUどうしがどれだけ速くデータをやり取りできるかが性能の鍵になります。OAMやSXMは、このGPU間通信のための配線・コネクタも規格に含まれています。

まとめ

OAMとSXMは、どちらも「巨大で高性能なGPUを、データセンターの中で使いやすくするための形の規格」です。

  • OAMは業界全体でオープンに作った規格で、複数メーカーが参入できる自由度の高さが魅力。
  • SXMはNVIDIAが作った独自規格で、NVLinkという高速接続技術との組み合わせが強力な武器。

現状では、NVIDIAのGPUが圧倒的なシェアを持っているため、SXMを見かける機会が多いですが、AIチップの多様化が進む中で、OAMを採用した製品も増えてきています。

「GPUの性能」だけでなく、「どんな形で、どうやってサーバーに組み込むか」という視点も、AI・データセンターの世界を理解する上で重要なポイントになってきています。