RTX 3000シリーズはSamsung 8 nmで生産か―最上位のみTSMC【噂】

年内の発表が噂されている次期GeForce GPUについて、YouTubeチャンネルMoore’s Law Is Deadがリーカーから得た情報についての動画を投稿していたので、個人的見解も交えつつ紹介。

RTX 3000シリーズに関するリーク情報
パフォーマンス関連のリーク

RTX 3000シリーズに関するリーク情報

まずはAmpereについてのリーク情報から。

5月初旬でのAmpereのリーク情報(via Moore’s Law Is Dead)

AmpereはTuringの改良版ではなく完全な新規アーキテクチャ
単純にTuringからRT（レイトレーシング）コアを増やしたダイのシュリンク版ではない
- HPCおよびゲーミング用に設計
- “Pascalの改良+機能追加版”だったTuringとは違う、汎用設計のアーキテクチャ
Ampere世代GeForceカードの多くはSamsung 8 nmプロセスで製造されるが、一部のハイエンドカードは異なる（つまりTSMCノード）
DLSS 3.0は2.0からさらに進化
- セールスポイントに使えるレベルへ
- TAA対応ゲームならどれでも動作するように
HBCC (High-Bandwidth Cache Controller)の対抗機能として「NVCache」を実装
- ロード時間短縮とVRAMのためにDRAMとSSDを活用する
ベータ版のRTX Voiceがアップグレードされる見込み

Ampereは“改良版Turing”ではない

AmpereはTuringの改良版ではなく完全な新規アーキテクチャ
単純にTuringからRTコアを増やしたダイのシュリンク版ではない
- HPCおよびゲーミング用に設計
- “Pascalの改良+機能追加版”だったTuringとは違う、汎用設計のアーキテクチャ

「Ampereが新規開発のアーキテクチャであり、Turingの改良版とは異なる」こと、「Volta/Turing世代と異なり、HPCとゲーミングで共通アーキテクチャになる」という件は、NVIDIAのJen-hsun Huang CEOが言及しているので事実。

普及ラインはSamsung製造、トップエンドだけがTSMCに

最上位SKUだけがTSMCで生産される？(via Moore’s Law Is Dead)

Ampere世代GeForceカードの多くはSamsung 8 nmプロセスで製造されるが、一部のハイエンドカードは異なる（つまりTSMCノード）

SKUの大半がSamsung製造になるということですが、これが一番なるほど～と思ったリーク内容。基本的にはDigiTimesが報じた内容と同じようです。

以前からRTX 3000シリーズはSamsungが生産するのではないかという話は出ていたものの、5月14日発表のAmpereアーキテクチャのHPC向け怪物チップ「A100」がTSMC N7での製造だったため、結局RTX 3000もTSMCの生産になるのではと考えられていましたが、一部のみTSMCになるとは……

プロセスノードに関する余談

高性能GPUを製造委託できるファウンドリはTSMCとSamsungの実質2社しかないが、TSMCは割と段階的にプロセスルールの微細化を進めており、Samsungは技術的に開発リスクが高めなプランで微細化を進めているというのがここ数年の開発競争のステータス。

TSMCはまず従来技術のDUV（KrF / ArF液浸）リソグラフィを使った7 nmプロセス(N7)を開発し、そちらを改良した「N7P」の量産を開始。現在は（一部の工程に）EUVリソグラフィ（極紫外線露光）を組み込んだ「N7+」の立ち上げ段階にある。

TSMCの製造ラインは大手ファブレス企業の熾烈な争奪戦の対象となっていて、ある種の“ブランド”化しつつあり、かつ生産コストが上がったことで今までよりも委託コストも上昇している。

ここで言う大手ファブレス企業というのはAppleやQualcomm、AMDなど。当然NVIDIAも世界中に製品を出荷しており発注数も大規模なので、ファウンドリにとっては逃したくない大口顧客にあたる。

一方のSamsungは、独自の8 nm (8LPP/8LPU)や、7 nm EUV (7LPP)をTSMCよりも安価な製造コストで顧客に提示している。ただし、8LPP/8LPUや7LPPは、同等プロセスのTSMCよりも歩留まり（設計通り完全動作するチップが得られるかどうか）が悪いという噂で、その辺りが価格とのトレードオフになっているとか。

ともかく、Samsung Foundryは先端プロセスの製造ラインに空きがあるので、TSMCよりも安価に委託製造を請け負っている。

AMDにTSMCを抑えられた結果、Samsungでの生産に

DigiTimesによれば、NVIDIAは元々TSMCとSamsungの両方に製造を委託する戦略を取っており、最終的にSamsungではなくTSMCをメインに委託する判断を下したとのこと。

しかし、NVIDIAはTSMCとの価格交渉の材料にすることも目論んで両社に発注見積もりを仕掛けていたものの、蓋を開けてみるとAMDがN7+（もしくはN7P？）の製造ラインの大半を抑えており、価格の引き下げを狙うどころか一部のSKU生産分しか確保できなかった、らしい。

AMDはGPUのみならずCPUもTSMCに委託しているほか、年末に向けてXbox Series XやPlayStation 5のSoCまで委託しているため、TSMCにとってTier 1の超大口顧客であり、AMDが生産ラインを確保していたという話は納得できる。

そもそもNVIDIAがTSMCとSamsung両社に声を掛けていたのは、「生産を1社に依存する体制を良しとせず、リスクを分散したい」と同時に、「より安価なSamsungで量産体制が整えられればベースコストを圧縮できる」という意図があったためと思われる。

結果的に、何故NVIDIAがSamsungからTSMCへスイッチしたのかについては、TechFactory掲載の大原雄介氏のコラムが的を射ていそうな内容だった。

Ampere採用GPU「A100」発表、Titan Aが発売される可能性も　NVIDIA GPUロードマップ (1/3)

AIプロセッサーの昨今はちょっとだけお休みいただいて、5月14日に行なわれたGTC 2020の基調講演の内容を解説したい。言うまでもなくAmpereである。

簡潔に言うとSamsungではA100が生産できなかったという話で、Samsungの7LPPはダイサイズ100 mm²程度のスマホ向けSoCの生産では問題ないものの、800 mm²もあるバカデカいチップを作るには歩留まりが足りなかったらしい。

A100はダイサイズ826 mm²という“7 nm世代で世界最大サイズ”を謳う化物チップで、こんな巨大なチップを委託してくるのもNVIDIAしかいないので、Samsungとしては無茶を言うなという話かもしれないが……

ともかく、Ampere世代のGeForceではトップエンドカード（RTX 3080 TiやTITAN Ampere？）用のフルスペック「GA102」だけがTSMC 7 nmで、不良コアのカットオフ前提のGA102（RTX 3080あたり向け）や「GA104（RTX 3070あたり？）」などはSamsung 8 nmで製造されるとのこと。

TSMCの製造ラインにNVIDIAとAMD両方の要求を満たせるだけのキャパがあるとは思えないので、内容の信憑性はそれなりに高いかと。

DLSSは3.0でついに実用に足るものに

DLSS 3.0は2.0からさらに進化
- セールスポイントに使えるレベルへ
- TAA対応ゲームならどれでも動作するように

“AIアップスケーリング”であるDLSSについては、大きく実用性が高まることに。

DLSS 1.0は「事前にNVIDIAにゲーム内テクスチャを提出してAIに学習させないと実装できない」という極めて限定されたタイトルのための機能だったが、2.0で汎用性のある学習モデルによるアップスケーリングへと変更されたことで実装が少し楽になり、対応タイトルも多少増えた。

3.0では、近年のゲームタイトルであれば殆どが対応しているTAA (Temporal Anti-Aliasing)に対応していればDLSSが使えるとのことで、対応タイトルが一気に増えそう。

事実であれば中々の朗報ですが、DLSS自体はNVIDIAもプッシュしているため、これもあり得る話かな。

HBCC対抗機能が実装予定？

HBCC (High-Bandwidth Cache Controller)の対抗機能として「NVCache」を実装
- ロード時間短縮とVRAMのためにDRAMとSSDを活用する

HBCCはAMDがRadeon Vega世代で搭載した機能で、PC側のDRAMに仮想のVRAM領域を確保して、カード上のHBM2をそのキャッシュメモリとして使うというもの。

HBCCは結局活用されることなくNavi世代で消された機能のようですが、NVIDIAは同種の機能をAmpereで実装するらしい。

背景として、Xbox Series XやPlayStation 5がハードウェアレベルでVRAMを高効率で使う仕組みを備えているため、それに対抗するものとして開発している可能性が考えられる。

ベータ版のRTX Voiceがアップグレードされる見込み

これは具体的なアップグレード内容が不明。現状でもフィルタ強度の設定とかできるので機能的には十分足りてそうなので、考えられるのは処理負荷の軽減あたりかな？

パフォーマンス関連のリーク

以下はパフォーマンスに関連したリーク情報。

IPCはTuringから10～20%向上
- L2キャッシュは2倍に拡張
- コアクロックも1,900 MHz以上へ引き上げ
SMあたりのTensorコア数は2倍に
RT性能はTuringの同クラスカード比で4倍に向上
- RTX 3060で最低でもRTX 2080 Ti相当のRT性能になる
- Ampere版TitanはRTを有効にした状態で8K解像度でのゲームプレイを実現
殆どのタイトルでRTXの有効化によるパフォーマンス低下が小さくなる
- ただし、「TuringのRT性能はKepler世代のDirectX 12のようなもの」なので、Turing世代でAmpereのRTX有効時のようなパフォーマンスを期待すべきではない。
優れたメモリ圧縮と、Tensorコアを活用したVRAMの可逆圧縮 (Tensor Memory Compression)が実装
- 現行世代からVRAMの大幅な増量はない
- しかしRTX 3080で10GB、RTX 3080 Tiで12GBのVRAMが搭載されている
- メモリ圧縮実装の目的はメモリ帯域幅の微増を十分な強化にするためのもの
電力効率はTuringから改善（省電力化）

IPCはTuringから1割以上の改善

IPCはTuringから10～20%向上
- L2キャッシュは2倍に拡張
- コアクロックも1,900 MHz以上へ引き上げ

クロックあたりの処理性能(IPC)は、Turingから10～20%向上。L2キャッシュの容量も2倍に増え、クロックそのものも1,900 MHz以上に引き上げられるため、全体の処理性能は相当に上昇する見込み。

IPCの向上幅は大きいものの、Samsung 8 nmでもTuringの12 nmから2世代分は微細化が進むので、このくらいは達成できそう。

レイトレーシング性能は4倍に

SMあたりのTensorコア数は2倍に

演算コアの集合体であるStreaming Multiprocessor (SM)あたりのTensorコアの数は、Turingから2倍に増強。TensorコアはAI絡みの処理を実行しているので、DLSSと前述のRTX Voiceの同時実行などが可能になるかも？

これは今やゲームよりAIで稼いでいるといっても過言ではないNVIDIAなら、ゲーム分野でもAIを使わせるべくTensorコアを倍に増やすくらいはやっても不思議ではない。

RT性能はTuringの同クラスカード比で4倍に向上
- RTX 3060で最低でもRTX 2080 Ti相当のRT性能になる

RT性能はTuring比で4倍に向上し、RTX 3060でRTX 2080 Tiに匹敵するRT処理が可能になるとのこと。

4倍は流石に盛ってんじゃないと思わないこともないですが、TuringのRTコアが業界含めて初の実装だったことを考えれば、改良の余地はいくらでもあるとも言えるので、全くの絵空事ではないかと。

Ampere版TitanはRTを有効にした状態で8K解像度でのゲームプレイを実現

Ampere版のTitanカードはRT有効のまま8Kでゲームできるよ～については、24 fpsでも一応遊べはするという意味ならともかく、流石に眉唾。後述のRT処理そのものの最適化も合わせて考えればなんとか動くくらいの性能になるよ、という話かな……

“RTX On=超重い”問題が改善

殆どのタイトルでRTXの有効化によるパフォーマンス低下が小さくなる
- ただし、「TuringのRT性能はKepler世代のDirectX 12のようなもの」なので、Turing世代でAmpereのRTX有効時のようなパフォーマンスを期待すべきではない。

これはAmpereカードの性能の話ではなく、RT処理そのものの最適化が進むという話。

今のRTX対応ゲームでは、RTXは重すぎてパフォーマンスが超絶低下しますが、Ampere世代ではRT処理の最適化が進み、今のような大きなパフォーマンスインパクトは無くなるらしい。

そうなるとAmpereじゃなくてもRTXが軽くなるのではという話になるが、「RTX 2000世代(Turing)とAmpereではそもそものRT性能が違うので、それは期待するな」とのこと。Turingオーナーには厳しい話。

メモリ圧縮周りを強化

優れたメモリ圧縮と、Tensorコアを活用したVRAMの可逆圧縮 (Tensor Memory Compression)が実装
- 現行世代からVRAMの大幅な増量はない
- しかしRTX 3080で10GB、RTX 3080 Tiで12GBのVRAMが搭載されている
- メモリ圧縮実装の目的はメモリ帯域幅の微増を十分な強化にするためのもの

メモリ転送データの圧縮はNVIDIAが以前の世代から率先して行なっていたので、改善が進むのは当然の流れ。Tensorメモリ圧縮も面白い機能。

圧縮機能を強化することでVRAM容量を増やさずに済むとなれば、製品の価格も抑えられる（ハズなので）ユーザー的には良い方策。とは言え、RTX 3080が2080から2GB、RTX 3080 Tiが2080 Tiから1GB増えるなど、ハイエンドカードではVRAM増えている。

リークにもあるように、本質的な目的としてはTuring世代のGDDR6から大きな高速化は難しい思われるGDDR6X（または高クロックGDDR6）のために、実行帯域幅を引き上げるために開発していると考えるのが自然か。

電力効率はTuringから改善される（省電力化）

プロセスの微細化もあるのでワットパフォーマンスの改善は見込める。TDPは発熱の面でも電気代の面でも小さければ小さいほど良いので良い話。

NVIDIA GEFORCE RTX 2080 Ti Founders Edition

NVIDIA

NVIDIA GeForce RTX 2080 Tiグラフィックス処理ユニット(GPU)搭載、1635MHzのブーストクロック速度、最大デジタル解像度: 7680x4320、Turing GPUアーキテクチャとRTXプラットフォームから電源供給。これにより前世代のグラフィックカードのパフォーマンスを最大6倍にし、ゲームにリアルタイムのレイトレースとAIの力をもたらします。