先日公開されたRTX30シリーズのホワイトペーパーから、スペックシート部分を抜き出してRTX 20シリーズ/GTX 10シリーズと比較した仕様表を作ってみた。
すべてFounders Editionでの数値なので、クロックやFLOPS絡みは実際の製品によって変動アリ。NVIDIAの製品情報ページに記載がないデータも多いのでまとまってるとちょっと便利?
ホワイトペーパーの内容については別記事参照。
GeForce RTX 3090 スペックシート
モデル | RTX 3090 FE | Titan RTX | RTX 2080 Ti FE | GTX 1080 Ti FE |
---|---|---|---|---|
GPUコードネーム | GA102 | TU102 | TU102 | GP102 |
製造プロセス | Samsung 8N | TSMC 12FFN | TSMC 12FFN | 16 nm |
トランジスタ数 | 283億 | 186億 | 186億 | 120億 |
ダイサイズ | 628.4 mm2 | 754 mm2 | 754 mm2 | 471 mm2 |
ブーストクロック | 1,695 MHz | 1,770 MHz | 1,635 MHz | 1,582 MHz |
VRAM | 24,576 MB GDDR6X | 24,576 MB GDDR6 | 11,264 MB GDDR6 | 11,264 MB GDDR5X |
メモリインターフェイス | 384-bit | 384-bit | 352-bit | 352-bit |
メモリデータレート | 19.5 Gbps | 14 Gbps | 14 Gbps | 11 Gbps |
メモリ帯域幅 | 936 GB/s | 672 GB/s | 616 GB/s | 484 GB/s |
消費電力(TGP / TDP) | 350 W | 280 W | 260 W | 250 W |
GPC | 7 | 6 | 6 | 6 |
TPC | 41 | 36 | 34 | 28 |
SM | 82 | 72 | 68 | 28 |
CUDAコア数 | 10,496 | 4,608 | 4,352 | 3,584 |
Tensorコア数 | 328 | 576 | 544 | n/a |
RTコア数 | 82 | 72 | 68 | n/a |
ROPs | 112 | 96 | 88 | 88 |
ピクセルフィルレート | 193 GPixel/s | 169.9 GPixel/s | 136 GPixel/s(?) | 139.2 GPixel/s(?) |
テクスチャユニット数 | 328 | 288 | 272 | 224 |
テクセルフィルレート | 566 GTexel/s | 509.8 GTexel/s | 444.7 GTexel/s | 354.4 GTexel/s(?) |
L1キャッシュ / 共有メモリ | 10,496 KB | 6,912 KB | ? | ? |
L2キャッシュ | 6,144 KB | 6,144 KB | 5,632 KB | 2,816 KB |
レジスタファイルサイズ | 20,922 KB | 18,432 KB | 17,408 KB | 7,168 KB |
FP64 FLOPS | 556 GFLOPS | 509.8 GFLOP | 420.2 GFLOPS | 354.4 GFLOPS |
FP32 FLOPS | 35.6 TFLOPS | 16.3 TFLOPS | 14.2 TFLOPS | 11.3 TFLOPS |
FP16 FLOPS | 35.6 TFLOPS | 32.6 TFLOPS | 28.5 TFLOPS | 177.2 GFLOPS(?) |
BF16 FLOPS | 35.6 TFLOPS | n/a | n/a | n/a |
INT32 OPS | 17.8 TOPS | 16.3 FPS | 14.2 TOPS | n/a |
FP16 Tensor FLOPS | 142 TFLOPS (Dense) / 284 TFLOPS (Sparse) | 130.5 TFLOPS | 113.8 TFLOPS | n/a |
BF16 Tensor FLOPS | 71 / 142 TFLOPS | n/a | n/a | n/a |
TF32 Tensor FLOPS | 35.6 / 71 TFLOPS | n/a | n/a | n/a |
INT8 Tensor OPS | 284 / 568 TOPS | 261 TOPS | 227.7 TOPS | n/a |
INT4 Tensor OPS | 568 / 1,136 TOPS | 522 TOPS | 455.4 TOPS | n/a |
GeForce RTX 3080 スペックシート
モデル | RTX 3080 10GB FE | RTX 2080 Super FE | RTX 2080 FE | GTX 1080 FE |
---|---|---|---|---|
GPUコードネーム | GA102 | TU104 | TU104 | GP104 |
製造プロセス | Samsung 8N | TSMC 12FFN | TSMC 12FFN | 16 nm |
トランジスタ数 | 283億 | 136億 | 136億 | 72億 |
ダイサイズ | 628.4 mm2 | 545 mm2 | 545 mm2 | 314 mm2 |
ブーストクロック | 1,710 MHz | 1,815 MHz | 1,800 MHz | 1,733 MHz |
VRAM | 10,240 MB GDDR6X | 8,192 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR5X |
メモリインターフェイス | 320-bit | 256-bit | 256-bit | 256-bit |
メモリデータレート | 19 Gbps | 15.5 Gbps | 14 Gbps | 10 Gbps |
メモリ帯域幅 | 760 GB/s | 496 GB/s | 448 GB/s | 320 GB/s |
消費電力(TGP / TDP) | 320 W | 250 W | 225 W | 180 W |
GPC | 6 | 6 | 6 | 4 |
TPC | 34 | 24 | 23 | 20 |
SM | 68 | 48 | 46 | 20 |
CUDAコア数 | 8,704 | 3,072 | 2,944 | 2,560 |
Tensorコア数 | 272 | 384 | 368 | n/a |
RTコア数 | 68 | 48 | 46 | n/a |
ROPs | 96 | 64 | 64 | 64 |
ピクセルフィルレート | 164.2 GPixel/s | 116.2 GPixel/s | 115.2 GPixel/s | ? |
テクスチャユニット数 | 272 | 192 | 184 | 160 |
テクセルフィルレート | 465 GTexel/s | 348.5 GTexel/s | 331.2 GTexel/s | 277.3 GTexel/s |
L1キャッシュ / 共有メモリ | 8,704 KB | 4,608 KB | 4,416 KB | ? |
L2キャッシュ | 5,120 KB | 4,096 KB | 4,096 KB | 2,048 KB |
レジスタファイルサイズ | 17,408 KB | 12,288 KB | 11,776 KB | 5,120 KB |
FP32 FLOPS | 29.8 TFLOPS | 11.2 TFLOPS | 10.6 TFLOPS | 8.9 TFLOPS |
FP16 FLOPS | 29.8 TFLOPS | 22.3 TFLOPS | 21.2 TFLOPS | n/a |
BF16 FLOPS | 29.8 TFLOPS | n/a | n/a | n/a |
INT32 OPS | 14.9 TOPS | 11.2 TOPS | 10.6 TOPS | n/a |
FP16 Tensor FLOPS | 119 TFLOPS (Dense) / 238 TFLOPS (Sparse) | 89.2 TFLOPS | 84.8 TFLOPS | n/a |
BF16 Tensor FLOPS | 59.5 / 119 TFLOPS | n/a | n/a | n/a |
TF32 Tensor FLOPS | 29.8 / 59.5 TFLOPS | n/a | n/a | n/a |
INT8 Tensor OPS | 238 / 476 TOPS | 178.4 TOPS | 169.6 TOPS | n/a |
INT4 Tensor OPS | 476 / 952 TOPS | 356.8 TOPS | 339.1 TOPS | n/a |
GeForce RTX 3070 スペックシート
モデル | RTX 3070 FE | RTX 2070 Super FE | RTX 2070 FE | GTX 1070 FE |
---|---|---|---|---|
GPUコードネーム | GA104 | TU104 | TU106 | GP104 |
製造プロセス | Samsung 8N | TSMC 12FFN | TSMC 12FFN | 16 nm |
トランジスタ数 | 174億 | 136億 | 108億 | 72億 |
ダイサイズ | 392.5 mm2 | 545 mm2 | 445 mm2 | 314 mm2 |
ブーストクロック | 1,725 MHz | 1,770 MHz | 1,710 MHz | 1,683 MHz |
VRAM | 8,192 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR6 |
メモリインターフェイス | 256-bit | 256-bit | 256-bit | 256-bit |
メモリデータレート | 14 Gbps | 14 Gbps | 14 Gbps | 8 Gbps |
メモリ帯域幅 | 448 GB/s | 448 GB/s | 448 GB/s | 256 GB/s |
消費電力(TGP) | 220 W | 215 W | 185 W | 150 W |
GPC | 6 | 5 / 6 | 3 | 3 |
TPC | 23 | 20 | 18 | 15 |
SM | 46 | 40 | 36 | 36 |
CUDAコア数 | 5,888 | 2,560 | 2,304 | 1,920 |
Tensorコア数 | 184 | 320 | 288 | n/a |
RTコア数 | 46 | 40 | 36 | n/a |
ROPs | 96 | 64 | 64 | 64 |
ピクセルフィルレート | 165.6 GPixel/s | 113.3 GPixel/s | ? | ? |
テクスチャユニット数 | 184 | 160 | 144 | 120 |
テクセルフィルレート | 317.4 GTexel/s | 283.2 GTexel/s | 246.2 GTexel/s | 202 GTexel/s |
L1キャッシュ / 共有メモリ | 5,888 KB | 3,840 KB | ? | ? |
L2キャッシュ | 4,096 KB | 4,096 KB | 4,096 KB | 2,048 KB |
レジスタファイルサイズ | 11,776 KB | 10,240 KB | 9,216 KB | 3,840 KB |
FP32 FLOPS | 20.3 TFLOPS | 9.1 TFLOPS | 7.9 TFLOPS | 6.5 TFLOPS |
FP16 FLOPS | 20.3 TFLOPS | 18.1 TFLOPS | 15.8 TFLOP | n/a |
BF16 FLOPS | 20.3 TFLOPS | n/a | n/a | n/a |
INT32 OPS | 10.2 TOPS | 9.1 TOPS | 7.9 TOPS | n/a |
FP16 Tensor FLOPS | 81.3 TFLOPS (Dense) / 162.6 TFLOPS (Sparse) | 72.5 TFLOPS | 63 TFLOPS | n/a |
BF16 Tensor FLOPS | 40.6 / 81.3 TFLOPS | n/a | n/a | n/a |
TF32 Tensor FLOPS | 40.6 / 81.3 TFLOPS | n/a | n/a | n/a |
INT8 Tensor OPS | 162.6 / 325.2 TOPS | 145 TOPS | 126 TOPS | n/a |
INT4 Tensor OPS | 325.2 / 650.4 TOPS | 290 TOPS | 252.1 TOPS | n/a |
GeForce RTX 3060 Ti / 3060 スペックシート
モデル | RTX 3060 Ti FE | RTX 3060 FE | RTX 2060 Super FE | RTX 2060 FE | GTX 1060 6GB FE |
---|---|---|---|---|---|
GPUコードネーム | GA104 | GA106 | TU106 | TU106 | GP106 |
製造プロセス | Samsung 8N | Samsung 8N | TSMC 12FFN | TSMC 12FFN | 16 nm |
トランジスタ数 | 174億 | 132.5億 | 108億 | 108億 | 44億 |
ダイサイズ | 392.5 mm2 | 300 mm2 | 445 mm2 | 445 mm2 | 200 mm2 |
ブーストクロック | 1,665 MHz | 1,777 MHz | 1,650 MHz | 1,680 MHz | 1,709 MHz |
VRAM | 8,192 MB GDDR6 | 12,288 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR6 |
メモリインターフェイス | 256-bit | 192-bit | 256-bit | 256-bit | 192-bit |
メモリデータレート | 14 Gbps | 15 Gbps | 14 Gbps | 15 Gbps | 8 Gbps |
メモリ帯域幅 | 448 GB/s | 360 GB/s | 448 GB/s | 336 GB/s | 192.2 GB/s |
消費電力(TGP) | 200 W | 170 W | 175 W | 160 W | 120 W |
GPC | 5(?) | 4(?) | 3 | 3 | 3 |
TPC | 20(?) | 17 | 15 | 15 | |
SM | 38 | 28 | 34 | 30 | 10 |
CUDAコア数 | 4,864 | 3,584 | 2,176 | 1,920 | 1,920 |
Tensorコア数 | 152 | 112 | 272 | 240 | n/a |
RTコア数 | 38 | 28 | 34 | 30 | n/a |
ROPs | 80 | 64 | 64 | 48 | 48 |
ピクセルフィルレート | 133.2 GPixel/s | 113.7 GPixel/s | 113.3 GPixel/s | 80.64 GPixel/s | 82.03 GPixel/s |
テクスチャユニット数 | 152 | 112 | 136 | 120 | 80 |
テクセルフィルレート | 253.1 GTexel/s | 199 GTexel/s | 224.4 GTexel/s | 201.6 GTexel/s | 136.7 GTexel/s |
L1キャッシュ / 共有メモリ | 4,864 KB | 3,584 KB | 3,840 KB | 1,920 KB | 480 KB |
L2キャッシュ | 4,096 KB | 3,072 KB | 4,096 KB | 3,072 KB | 1,536 KB |
レジスタファイルサイズ | ? | ? | 10,240 KB | 9,216 KB | ? |
FP32 FLOPS | 16.2 TFLOPS | 12.74 TFLOPS | 7.181 TFLOPS | 6.451 TFLOPS | 4.375 TFLOPS |
FP16 FLOPS | 16.2 TFLOPS | 12.74 TFLOPS | 14.36 TFLOPS | 12.9 TFLOP | 68.36 GFLOPS |
BF16 FLOPS | 16.2 TFLOPS | 12.74 TFLOPS | n/a | n/a | n/a |
INT32 OPS | n/a | ||||
FP16 Tensor FLOPS | n/a | ||||
BF16 Tensor FLOPS | n/a | n/a | n/a | ||
TF32 Tensor FLOPS | n/a | n/a | n/a | ||
INT8 Tensor OPS | n/a | ||||
INT4 Tensor OPS | n/a |
コメント