先日公開されたRTX30シリーズのホワイトペーパーから、スペックシート部分を抜き出してRTX 20シリーズ/GTX 10シリーズと比較した仕様表を作ってみた。
すべてFounders Editionでの数値なので、クロックやFLOPS絡みは実際の製品によって変動アリ。NVIDIAの製品情報ページに記載がないデータも多いのでまとまってるとちょっと便利?
ホワイトペーパーの内容については別記事参照。
GeForce RTX 3090 スペックシート

| モデル | RTX 3090 FE | Titan RTX | RTX 2080 Ti FE | GTX 1080 Ti FE |
|---|---|---|---|---|
| GPUコードネーム | GA102 | TU102 | TU102 | GP102 |
| 製造プロセス | Samsung 8N | TSMC 12FFN | TSMC 12FFN | 16 nm |
| トランジスタ数 | 283億 | 186億 | 186億 | 120億 |
| ダイサイズ | 628.4 mm2 | 754 mm2 | 754 mm2 | 471 mm2 |
| ブーストクロック | 1,695 MHz | 1,770 MHz | 1,635 MHz | 1,582 MHz |
| VRAM | 24,576 MB GDDR6X | 24,576 MB GDDR6 | 11,264 MB GDDR6 | 11,264 MB GDDR5X |
| メモリインターフェイス | 384-bit | 384-bit | 352-bit | 352-bit |
| メモリデータレート | 19.5 Gbps | 14 Gbps | 14 Gbps | 11 Gbps |
| メモリ帯域幅 | 936 GB/s | 672 GB/s | 616 GB/s | 484 GB/s |
| 消費電力(TGP / TDP) | 350 W | 280 W | 260 W | 250 W |
| GPC | 7 | 6 | 6 | 6 |
| TPC | 41 | 36 | 34 | 28 |
| SM | 82 | 72 | 68 | 28 |
| CUDAコア数 | 10,496 | 4,608 | 4,352 | 3,584 |
| Tensorコア数 | 328 | 576 | 544 | n/a |
| RTコア数 | 82 | 72 | 68 | n/a |
| ROPs | 112 | 96 | 88 | 88 |
| ピクセルフィルレート | 193 GPixel/s | 169.9 GPixel/s | 136 GPixel/s(?) | 139.2 GPixel/s(?) |
| テクスチャユニット数 | 328 | 288 | 272 | 224 |
| テクセルフィルレート | 566 GTexel/s | 509.8 GTexel/s | 444.7 GTexel/s | 354.4 GTexel/s(?) |
| L1キャッシュ / 共有メモリ | 10,496 KB | 6,912 KB | ? | ? |
| L2キャッシュ | 6,144 KB | 6,144 KB | 5,632 KB | 2,816 KB |
| レジスタファイルサイズ | 20,922 KB | 18,432 KB | 17,408 KB | 7,168 KB |
| FP64 FLOPS | 556 GFLOPS | 509.8 GFLOP | 420.2 GFLOPS | 354.4 GFLOPS |
| FP32 FLOPS | 35.6 TFLOPS | 16.3 TFLOPS | 14.2 TFLOPS | 11.3 TFLOPS |
| FP16 FLOPS | 35.6 TFLOPS | 32.6 TFLOPS | 28.5 TFLOPS | 177.2 GFLOPS(?) |
| BF16 FLOPS | 35.6 TFLOPS | n/a | n/a | n/a |
| INT32 OPS | 17.8 TOPS | 16.3 FPS | 14.2 TOPS | n/a |
| FP16 Tensor FLOPS | 142 TFLOPS (Dense) / 284 TFLOPS (Sparse) | 130.5 TFLOPS | 113.8 TFLOPS | n/a |
| BF16 Tensor FLOPS | 71 / 142 TFLOPS | n/a | n/a | n/a |
| TF32 Tensor FLOPS | 35.6 / 71 TFLOPS | n/a | n/a | n/a |
| INT8 Tensor OPS | 284 / 568 TOPS | 261 TOPS | 227.7 TOPS | n/a |
| INT4 Tensor OPS | 568 / 1,136 TOPS | 522 TOPS | 455.4 TOPS | n/a |
GeForce RTX 3080 スペックシート

| モデル | RTX 3080 10GB FE | RTX 2080 Super FE | RTX 2080 FE | GTX 1080 FE |
|---|---|---|---|---|
| GPUコードネーム | GA102 | TU104 | TU104 | GP104 |
| 製造プロセス | Samsung 8N | TSMC 12FFN | TSMC 12FFN | 16 nm |
| トランジスタ数 | 283億 | 136億 | 136億 | 72億 |
| ダイサイズ | 628.4 mm2 | 545 mm2 | 545 mm2 | 314 mm2 |
| ブーストクロック | 1,710 MHz | 1,815 MHz | 1,800 MHz | 1,733 MHz |
| VRAM | 10,240 MB GDDR6X | 8,192 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR5X |
| メモリインターフェイス | 320-bit | 256-bit | 256-bit | 256-bit |
| メモリデータレート | 19 Gbps | 15.5 Gbps | 14 Gbps | 10 Gbps |
| メモリ帯域幅 | 760 GB/s | 496 GB/s | 448 GB/s | 320 GB/s |
| 消費電力(TGP / TDP) | 320 W | 250 W | 225 W | 180 W |
| GPC | 6 | 6 | 6 | 4 |
| TPC | 34 | 24 | 23 | 20 |
| SM | 68 | 48 | 46 | 20 |
| CUDAコア数 | 8,704 | 3,072 | 2,944 | 2,560 |
| Tensorコア数 | 272 | 384 | 368 | n/a |
| RTコア数 | 68 | 48 | 46 | n/a |
| ROPs | 96 | 64 | 64 | 64 |
| ピクセルフィルレート | 164.2 GPixel/s | 116.2 GPixel/s | 115.2 GPixel/s | ? |
| テクスチャユニット数 | 272 | 192 | 184 | 160 |
| テクセルフィルレート | 465 GTexel/s | 348.5 GTexel/s | 331.2 GTexel/s | 277.3 GTexel/s |
| L1キャッシュ / 共有メモリ | 8,704 KB | 4,608 KB | 4,416 KB | ? |
| L2キャッシュ | 5,120 KB | 4,096 KB | 4,096 KB | 2,048 KB |
| レジスタファイルサイズ | 17,408 KB | 12,288 KB | 11,776 KB | 5,120 KB |
| FP32 FLOPS | 29.8 TFLOPS | 11.2 TFLOPS | 10.6 TFLOPS | 8.9 TFLOPS |
| FP16 FLOPS | 29.8 TFLOPS | 22.3 TFLOPS | 21.2 TFLOPS | n/a |
| BF16 FLOPS | 29.8 TFLOPS | n/a | n/a | n/a |
| INT32 OPS | 14.9 TOPS | 11.2 TOPS | 10.6 TOPS | n/a |
| FP16 Tensor FLOPS | 119 TFLOPS (Dense) / 238 TFLOPS (Sparse) | 89.2 TFLOPS | 84.8 TFLOPS | n/a |
| BF16 Tensor FLOPS | 59.5 / 119 TFLOPS | n/a | n/a | n/a |
| TF32 Tensor FLOPS | 29.8 / 59.5 TFLOPS | n/a | n/a | n/a |
| INT8 Tensor OPS | 238 / 476 TOPS | 178.4 TOPS | 169.6 TOPS | n/a |
| INT4 Tensor OPS | 476 / 952 TOPS | 356.8 TOPS | 339.1 TOPS | n/a |
GeForce RTX 3070 スペックシート

| モデル | RTX 3070 FE | RTX 2070 Super FE | RTX 2070 FE | GTX 1070 FE |
|---|---|---|---|---|
| GPUコードネーム | GA104 | TU104 | TU106 | GP104 |
| 製造プロセス | Samsung 8N | TSMC 12FFN | TSMC 12FFN | 16 nm |
| トランジスタ数 | 174億 | 136億 | 108億 | 72億 |
| ダイサイズ | 392.5 mm2 | 545 mm2 | 445 mm2 | 314 mm2 |
| ブーストクロック | 1,725 MHz | 1,770 MHz | 1,710 MHz | 1,683 MHz |
| VRAM | 8,192 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR6 |
| メモリインターフェイス | 256-bit | 256-bit | 256-bit | 256-bit |
| メモリデータレート | 14 Gbps | 14 Gbps | 14 Gbps | 8 Gbps |
| メモリ帯域幅 | 448 GB/s | 448 GB/s | 448 GB/s | 256 GB/s |
| 消費電力(TGP) | 220 W | 215 W | 185 W | 150 W |
| GPC | 6 | 5 / 6 | 3 | 3 |
| TPC | 23 | 20 | 18 | 15 |
| SM | 46 | 40 | 36 | 36 |
| CUDAコア数 | 5,888 | 2,560 | 2,304 | 1,920 |
| Tensorコア数 | 184 | 320 | 288 | n/a |
| RTコア数 | 46 | 40 | 36 | n/a |
| ROPs | 96 | 64 | 64 | 64 |
| ピクセルフィルレート | 165.6 GPixel/s | 113.3 GPixel/s | ? | ? |
| テクスチャユニット数 | 184 | 160 | 144 | 120 |
| テクセルフィルレート | 317.4 GTexel/s | 283.2 GTexel/s | 246.2 GTexel/s | 202 GTexel/s |
| L1キャッシュ / 共有メモリ | 5,888 KB | 3,840 KB | ? | ? |
| L2キャッシュ | 4,096 KB | 4,096 KB | 4,096 KB | 2,048 KB |
| レジスタファイルサイズ | 11,776 KB | 10,240 KB | 9,216 KB | 3,840 KB |
| FP32 FLOPS | 20.3 TFLOPS | 9.1 TFLOPS | 7.9 TFLOPS | 6.5 TFLOPS |
| FP16 FLOPS | 20.3 TFLOPS | 18.1 TFLOPS | 15.8 TFLOP | n/a |
| BF16 FLOPS | 20.3 TFLOPS | n/a | n/a | n/a |
| INT32 OPS | 10.2 TOPS | 9.1 TOPS | 7.9 TOPS | n/a |
| FP16 Tensor FLOPS | 81.3 TFLOPS (Dense) / 162.6 TFLOPS (Sparse) | 72.5 TFLOPS | 63 TFLOPS | n/a |
| BF16 Tensor FLOPS | 40.6 / 81.3 TFLOPS | n/a | n/a | n/a |
| TF32 Tensor FLOPS | 40.6 / 81.3 TFLOPS | n/a | n/a | n/a |
| INT8 Tensor OPS | 162.6 / 325.2 TOPS | 145 TOPS | 126 TOPS | n/a |
| INT4 Tensor OPS | 325.2 / 650.4 TOPS | 290 TOPS | 252.1 TOPS | n/a |
GeForce RTX 3060 Ti / 3060 スペックシート
| モデル | RTX 3060 Ti FE | RTX 3060 FE | RTX 2060 Super FE | RTX 2060 FE | GTX 1060 6GB FE |
|---|---|---|---|---|---|
| GPUコードネーム | GA104 | GA106 | TU106 | TU106 | GP106 |
| 製造プロセス | Samsung 8N | Samsung 8N | TSMC 12FFN | TSMC 12FFN | 16 nm |
| トランジスタ数 | 174億 | 132.5億 | 108億 | 108億 | 44億 |
| ダイサイズ | 392.5 mm2 | 300 mm2 | 445 mm2 | 445 mm2 | 200 mm2 |
| ブーストクロック | 1,665 MHz | 1,777 MHz | 1,650 MHz | 1,680 MHz | 1,709 MHz |
| VRAM | 8,192 MB GDDR6 | 12,288 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR6 | 8,192 MB GDDR6 |
| メモリインターフェイス | 256-bit | 192-bit | 256-bit | 256-bit | 192-bit |
| メモリデータレート | 14 Gbps | 15 Gbps | 14 Gbps | 15 Gbps | 8 Gbps |
| メモリ帯域幅 | 448 GB/s | 360 GB/s | 448 GB/s | 336 GB/s | 192.2 GB/s |
| 消費電力(TGP) | 200 W | 170 W | 175 W | 160 W | 120 W |
| GPC | 5(?) | 4(?) | 3 | 3 | 3 |
| TPC | 20(?) | 17 | 15 | 15 | |
| SM | 38 | 28 | 34 | 30 | 10 |
| CUDAコア数 | 4,864 | 3,584 | 2,176 | 1,920 | 1,920 |
| Tensorコア数 | 152 | 112 | 272 | 240 | n/a |
| RTコア数 | 38 | 28 | 34 | 30 | n/a |
| ROPs | 80 | 64 | 64 | 48 | 48 |
| ピクセルフィルレート | 133.2 GPixel/s | 113.7 GPixel/s | 113.3 GPixel/s | 80.64 GPixel/s | 82.03 GPixel/s |
| テクスチャユニット数 | 152 | 112 | 136 | 120 | 80 |
| テクセルフィルレート | 253.1 GTexel/s | 199 GTexel/s | 224.4 GTexel/s | 201.6 GTexel/s | 136.7 GTexel/s |
| L1キャッシュ / 共有メモリ | 4,864 KB | 3,584 KB | 3,840 KB | 1,920 KB | 480 KB |
| L2キャッシュ | 4,096 KB | 3,072 KB | 4,096 KB | 3,072 KB | 1,536 KB |
| レジスタファイルサイズ | ? | ? | 10,240 KB | 9,216 KB | ? |
| FP32 FLOPS | 16.2 TFLOPS | 12.74 TFLOPS | 7.181 TFLOPS | 6.451 TFLOPS | 4.375 TFLOPS |
| FP16 FLOPS | 16.2 TFLOPS | 12.74 TFLOPS | 14.36 TFLOPS | 12.9 TFLOP | 68.36 GFLOPS |
| BF16 FLOPS | 16.2 TFLOPS | 12.74 TFLOPS | n/a | n/a | n/a |
| INT32 OPS | n/a | ||||
| FP16 Tensor FLOPS | n/a | ||||
| BF16 Tensor FLOPS | n/a | n/a | n/a | ||
| TF32 Tensor FLOPS | n/a | n/a | n/a | ||
| INT8 Tensor OPS | n/a | ||||
| INT4 Tensor OPS | n/a |







コメント