規避出口禁令的 D 計劃
去年 10 月,美國商務部更新 ECCN 3A090 高科技出口管制要求,將會進一步收緊對中國禁運要求,新規定下連遊戲市場的 GeForce RTX 4090 也不能銷往中國,包括香港及澳門亦受到影響,由於中國市場相當龐大,NVIDIA 當然不願意失去這塊肥肉,因此 NVIDIA 決定針對中國市場再變陣, 推出中國獨家 GeForce RTX 4090 D 型號,D 字是 Dragon 的意思,因為今年是龍年嘛,將 GPU 運算性能降低以符合法口法規。
據了解,GeForce RTX 4090 運算性能為 TPP = 2642.56*、PD = 4.34*,根據 ECCN 3A090b 次要高性能晶片規定,則要求晶片如介乎 TPP 2400 至 4800 之間同時 PD 介乎 1.6 至 5.92 之間,除非取得美國商務部許可,否則不准出口中國,因此 GeForce RTX 4090 D 的性能規格必需下降約 10% 才能滿足要求。
*TPP =FP32 TFLOPS x 32 (Bit)
*PD = TPP / Die Size
NVIDIA AD102-250 繪圖核心
GeForce RTX 4090 D 與 RTX 4090 一樣,採用 NVIDIA AD102 繪圖核心、型號為 AD102-250,為了滿足 ECCN 3A090b 次要高性能晶片規定,GeForce RTX 4090 D 運算單元作出了進一步屏蔽,刪減至 57 個 TPC 紋理處理群集及 114 個 SM 串流多處理器,具備 14,592 個 CUDA Cores、114 個 RT Cores 及 456 個 Tensor Cores。
▲ NVIDIA AD102-250 繪圖核心
核心時脈方面,GeForce RTX 4090 D 預設時脈為 2,280MHz Base Clock、2,520MHz Boost Clock,為了令 RTX 4090 D 完全不會超出美國商務部的禁運要求,NVIDIA 限制了 RTX 4090 D 超頻功能,以確保任何情況下都不會超標。
經過刪減後,GeForce RTX 4090 D 的 FP32 TFLOPS 運算能力被降至 73.54,按照 TPP = FP32 TFLOPS x 32 (Bit) 計算公式,GeForce RTX 4090 D 的 TPP 為 2,353.28,完全符合 ECCN 3A090b 次要高性能晶片不超過 TPP 2,400 的規定。
記憶體子系統方面,GeForce RTX 4090 D 與 RTX 4090 完全一樣,具備 24GB GDDR6X 記憶體容量,21Gbps GDDR6X 速度、384-bit 記憶體介面,總頻寬同樣為 1.008GB/s,L2 Cache 容量保持在 72MB 水平。
NVIDIA GeForce RTX 40 Family Full Specifications
Graphics Card | GeForce
RTX 4090 D | GeForce
RTX 4090 |
GPU Codename | AD102-250 | AD102-300 |
GPU Architecture | NVIDIA
Ada Lovelace | NVIDIA
Ada Lovelace |
TPCs | 57 | 64 |
SMs | 114 | 128 |
CUDA Cores / SM | 128 | 128 |
CUDA Cores / GPU | 14592 | 16384 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 456 (4th Gen) | 512 (4th Gen) |
RT Cores | 114 (3rd Gen) | 128 (3rd Gen) |
GPU Boost Clock (MHz) | 2520 | 2520 |
Pixel Fill Rate | 443.5 | 443.5 |
Texture Fill Rate | 1,149 | 1,290 |
[tr][/tr]
Peak FP16 TFLOPS (non-Tensor) | 73.54 | 82.6 |
Peak FP32 TFLOPS (non-Tensor) | 73.54 | 82.6 |
Peak FP64 TFLOPS (non-Tensor) | 1,149 | 1,290 |
Frame Buffer Memory Size and Type | 24GB GDDR6X | 24GB GDDR6X |
Memory Interface | 384-bit | 384-bit |
Memory Clock (Data Rate) | 21 Gbps | 21 Gbps |
Memory Bandwidth | 1,008 GB/sec | 1,008 GB/sec |
ROPs | 176 | 176 |
Texture Units | 456 | 512 |
L2 Cache | 72 MB | 72 MB |
Video Engines | 2x NVENC (Gen 8)
1x NVDEC (Gen 5) | 2x NVENC (Gen 8)
1X NVDEC (Gen 5) |
TGP Power | 425W | 450W |
Transistor Count | 76.3 Billion | 76.3 Billion |
Die Size | 608.5 mm² | 608.5 mm² |
Manufacturing Process | TSMC 4N | TSMC 4N |
PCIe Interface | Gen4 | Gen4 |
Inno3D GeForce RTX 4090 D X3 顯示卡
由於 GeForce RTX 4090 D 並沒有 Founder Edition,所以我們找來 Inno3D GeForce RTX 4090 D X3 顯示卡進行測試,整卡設計與 RTX 4090 X3 版本完全相同,3 Slot 散熱器設計,採用 3 Slot 散熱器設計在眾多 AIC 卡之中已經是最薄身了,但它的散熱表現卻非常理想,具備巨型 Vapor Chamber 大型均熱板配搭 9 支純銅導熱管,升級 3 顆 10cm 軸向式 Scythe 順逆向鐮刀扇葉風扇,要應負 425W TDP 絕對不成問題。
Inno3D GeForce RTX 4090 D X3 顯示卡尺寸為 336mm x 145mm x 60mm、重量約 1765g、三槽設計,黑、鈦金色外殼配色,上半加入斜向拉絲紋表面處理,整體的外觀設計具有時尚科技感,並充滿硬朗的質感。
Inno3D RTX 4090 D X3 系列有個特別設計,顯示卡在 Bracket 位置預載了金屬負重支架,能夠加強 PCB 剛性並增強承托力,從而避免 PCB 彎曲損壞,整張卡運作時只有頂端 INNO3D 字樣會透出白色燈光,相當簡約。
▲ 3 Slot 設計
Inno3D GeForce RTX 4090 D X3 OC 顯示卡採用 3 Slot 設計,在眾多 RTX 4090 D 之中算薄了,不過它的卡高也有14.5cm,由於要預留空間給 12VHPWR 接口,最好機箱 CPU 散熱器支援 16.5cm 或以上,就能減低轉接口嚴重屈曲的風險。
顯示卡背面設有金屬背板,能夠加強 PCB 剛性並增強承托力,從而避免 PCB 彎曲損壞,金屬背板加入了導熱散熱貼,可為顯示卡背面 PCB 的被動元件作少許被動散熱,特別加入 Hot Air Extraction 散熱設計,背面開口將熱力直接穿越至機箱上方,可讓機箱內部溫度變得較平均。
NVIDIA PG139 公板設計
Inno3D GeForce RTX 4090 D X3 完全採用 NVIDIA PG139 公板設計,供電設計方面, 14 相為 GPU 供電、3 相為 GDDR6X 供電,全面採用 Alpha & OMEGA BLN0 (AOZ5311NQI) Synchronous Buck Regulator,在單一封裝內加入上下橋 MOSFET 及集成驅動器,單相能提供 50A 持續電流輸出,配搭全封閉合金功率電感及固態電容,充份滿足 AD102-250 顯示核心的供電需求。
NVIDIA AD102-250 繪圖核心
NVIDIA GeForce RTX 4090 D 採用了經刪減後的 AD102-250 繪圖核心,採用 TSMC 4N 制程、擁有 763 億個電晶體、Die Size 約為 608.5mm²,部份單元作出了屏蔽,刪減至 57 個 TPC 紋理處理群集及 114 個 SM 串流多處理器,具備 14,592 個 CUDA Cores、114 個 RT Cores 及 456 個 Tensor Cores。
時脈方面,Inno3D GeForce RTX 4090 D X3顯示卡預設核心時脈為 2,280MHz Base Clock、2,520MHz Boost Clock,不提供任何超頻選項,最高 Power Limit 預設為 425W,Power Limit 被鎖上無法再調高 Power Limit。
384-bit 24GB GDDR6X 記憶體容量
記憶體方面,NVIDIA GeForce RTX 4090 D 具備 24GB GDDR6X 記憶體容量及 384-bit 記憶體控制器,記憶體頻寬與 RTX 4090 一樣保持 1008GB/s (1TB/s),L2 Cache 則由 74MB 略減至 72MB 容量。
▲ Micron D8BZC 21Gbps GDDR6X 記憶體
採用了12 顆 Micron D8BZC GDDR6X 顆粒編號,為 MT61K512M32KPA-21:U 並支援 ECC 功能,每顆單顆容量為 16Gbit (2GB),總供 24GB 繪圖記憶體容量,採用單面 24GB GDDR6X 記憶體配置。和 RTX 4090 一樣支援 ECC 功能,用家可以在 NVIDIA Control Panel 程式中打開選項。
3 Slot 均熱板 + 9 Heatpipe 散熱器
Inno3D GeForce RTX 4090 D X3 顯示卡的散熱器,設計與 RTX 4090 版本完全相同,採用 3 Slot 均熱板 + 9 Heatpipe 散熱器,巨型 8500mm² Vapor Chamber 均熱板,以其封閉於板狀腔體中作動流體之蒸發凝結循環運作,擁有快速均熱、快速熱傳導及熱擴散的特性和功能,更能平衡及迅速把核心晶片的廢熱傳遞到整個散熱器上。
均熱板連接 9 支 6mm 純銅導熱管並貫穿到整個大面積散熱鰭片散熱器,整個 Heatpipe 長度達 2716 mm,整個鋁散熱鰭片面積高達 1,006,164 mm²,能完全滿足 425W TDP 的 RTX 4090 D 散熱需求。
採用 12VHPWR / 12V2x6 供電接口
使用了經過改進的 12VHPWR / 12V-2x6 連接器,相較舊有 12VHPWR 感應引腳僅向入偏移量 0.45mm,因此 RTX 40 新卡已使用具有向入偏移 1.7 mm 的感應引腳,更短的感應引腳可以檢測連接器是否完全插入。如果沒有完全插入這樣,GPU 就不會被限制最大功率負載,理論上講應該可解決過去發生連接器燒毀問題,然而效果仍有待觀察,隨產品就附連了一條 PCIe 8-Pin x 3 轉 12VHPWR / 12V2x6 轉接線 (450W)。
提供了 3 組 Display Port 1.4a + DSC 及 1 組 HDMI 2.1 影像輸出接口,兩種輸出介面皆可提供最高 4K@240Hz 或 8K@60Hz 12bit HDR 解析度輸出,支援 VESA DSC 1.2 無損壓縮顯示功能,單卡能提供最高 2 個 8K@60Hz HDR 顯示輸出,或是組合 2 組 DisplayPort 接口提供單一 8K@120Hz HDR 輸出。
效能測試︰
HKEPC 編輯部收到由 Inno3D GeForce RTX 4090 D X3 顯示卡樣本,同時亦找來同時亦找來 RTX 4070 Ti、RTX 4080 作對比測試,以了解這 NVIDIA GeForce RTX 4070 Ti SUPER 的效能水平。
▲ Furmark 2 測試最高溫度 63°C
散熱方面,顯示卡在約 22°C 的室溫環境下閒置約 30分鐘,GPU溫度維持在 39°C。接著採用 Furmark 進行 3D 負載測試,將 GPU 完全負載 30 分鐘後,溫度會提升至 63°C,GPU 時脈保持在 2,385MHz,TDP 450W / TGP 393W。
測試平台︰
Intel Core i9-12900K CPU
ASUS ROG Z790 Maximus APEX
ANACOMDA DDR5-6400 CL36-38-38-68 32GB x 2 @1.35V
Windows 11 Professional 23H2
NVIDIA GeForce Driver 551.23 WHQL
3DMark
FireStrikeFireStrikeExtremeFireStrikeUltraTime SpyTime SpyExtremeGeForceRTX 4080SUPERRadeon RX7900 XTRadeon RX7900 XTXGeForceRTX 4090DGeForceRTX 4090020,00040,00060,00080,000100,000GPUFireStrikeFireStrike ExtremeFireStrike UltraTime SpyTime Spy Extreme
GeForce RTX 4080 SUPER
68670
34756
17740
28897
14344
Radeon RX 7900 XT
68214
34843
17589
27888
13295
Radeon RX 7900 XTX
73609
39522
20142
29463
14592
GeForce RTX 4090 D
78218
43617
23275
35446
18491
GeForce RTX 4090
81214
47028
25294
37263
19679
GPUFireStrikeFireStrike ExtremeFireStrike UltraTime SpyTime Spy Extreme
GeForce RTX 4080 SUPER
68670
34756
17740
28897
14344
Radeon RX 7900 XT
68214
34843
17589
27888
13295
Radeon RX 7900 XTX
73609
39522
20142
29463
14592
GeForce RTX 4090 D
78218
43617
23275
35446
18491
GeForce RTX 4090
81214
47028
25294
37263
19679
3DMark Ray-Tracing 測試︰
3DMark Ray-Tracing
Port RoyalSpeedWayGeForceRTX 4080SUPERRadeon RX7900 XTRadeon RX7900 XTXGeForceRTX 4090DGeForceRTX 409005,00010,00015,00020,00025,00030,000GPUPort RoyalSpeed Way
GeForce RTX 4080 SUPER
18440
7479
Radeon RX 7900 XT
14499
5436
Radeon RX 7900 XTX
15951
6010
GeForce RTX 4090 D
24428
9793
GeForce RTX 4090
26227
10175
GPUPort RoyalSpeed Way
GeForce RTX 4080 SUPER
18440
7479
Radeon RX 7900 XT
14499
5436
Radeon RX 7900 XTX
15951
6010
GeForce RTX 4090 D
24428
9793
GeForce RTX 4090
26227
10175
3DMark DLSS 測試︰
3DMark DLSS Feature Test
DLSS OffDLSS2DLSS3GeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090050100150200250GPUDLSS OffDLSS2DLSS3
GeForce RTX 3090 Ti
32.88
81.16
GeForce RTX 4080
39.71
104.09
166.12
GeForce RTX 4080 SUPER
40.32
104.58
167.86
GeForce RTX 4090 D
55.02
132.87
204.67
GeForce RTX 4090
59.32
138.77
216.19
GPUDLSS OffDLSS2DLSS3
GeForce RTX 3090 Ti
32.88
81.16
GeForce RTX 4080
39.71
104.09
166.12
GeForce RTX 4080 SUPER
40.32
104.58
167.86
GeForce RTX 4090 D
55.02
132.87
204.67
GeForce RTX 4090
59.32
138.77
216.19
3DMark DirectX Raytracing feature test 測試
3DMark RT Feature Test
RTGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090020406080100120140GPURT
GeForce RTX 3090 Ti
61.69
GeForce RTX 4080
84.78
GeForce RTX 4080 SUPER
87.20
GeForce RTX 4090 D
122.42
GeForce RTX 4090
139.98
GPURT
GeForce RTX 3090 Ti
61.69
GeForce RTX 4080
84.78
GeForce RTX 4080 SUPER
87.20
GeForce RTX 4090 D
122.42
GeForce RTX 4090
139.98
遊戲效能測試:
以下的遊戲測試除另外指明外,全部皆以 3840 x 2160 解析度全屏幕執行,畫質皆設定為最高品質,若遊戲支援光線追蹤技術則同時將光追品質全開。而 DLSS 方面則統一使用 Performance 設定,當中 GeForce RTX 40 系列會啟用 DLSS 3 中新增的 Frame Generation 技術。
A Plague Tale:Requiem 瘟疫傳說:安魂曲 (RT + DLSS 3)
A Plague Tale:Requiem
4K DLSSOff4K DLSSOnGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090050100150200GPU4K DLSS Off4K DLSS On
GeForce RTX 3090 Ti
46
83
GeForce RTX 4080
60
142
GeForce RTX 4080 SUPER
61
145
GeForce RTX 4090 D
78
177
GeForce RTX 4090
81
183
GPU4K DLSS Off4K DLSS On
GeForce RTX 3090 Ti
46
83
GeForce RTX 4080
60
142
GeForce RTX 4080 SUPER
61
145
GeForce RTX 4090 D
78
177
GeForce RTX 4090
81
183
Control (RT + DLSS2)
Control
4K DLSSOff4K DLSSOnGeForceRTX 3090TiGeForceRTX 4070Ti SUPERGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090020406080100120GPU4K DLSS Off4K DLSS On
GeForce RTX 3090 Ti
41
65
GeForce RTX 4070 Ti SUPER
43
64
GeForce RTX 4080
55
81
GeForce RTX 4080 SUPER
56
83
GeForce RTX 4090
72
116
GPU4K DLSS Off4K DLSS On
GeForce RTX 3090 Ti
41
65
GeForce RTX 4070 Ti SUPER
43
64
GeForce RTX 4080
55
81
GeForce RTX 4080 SUPER
56
83
GeForce RTX 4090
72
116
CyberPunk 2077 RT Ultra (RT+ DLSS 3)
CyberPunk 2077 RT Ultra
4K DLSSOff4K DLSSonGeForceRTX 3090TiGeForceRTX 4070Ti SUPERGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 40900255075100125150GPU4K DLSS Off4K DLSS on
GeForce RTX 3090 Ti
28
66
GeForce RTX 4070 Ti SUPER
31
84
GeForce RTX 4080
42
114
GeForce RTX 4080 SUPER
44
118
GeForce RTX 4090
53
149
GPU4K DLSS Off4K DLSS on
GeForce RTX 3090 Ti
28
66
GeForce RTX 4070 Ti SUPER
31
84
GeForce RTX 4080
42
114
GeForce RTX 4080 SUPER
44
118
GeForce RTX 4090
53
149
F1 22 (RT + DLSS 3)
F1 22
4K DLSSoff4K DLSSonGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090050100150200250GPU4K DLSS off4K DLSS on
GeForce RTX 3090 Ti
61
132
GeForce RTX 4080
68
167
GeForce RTX 4080 SUPER
69
169
GeForce RTX 4090 D
92
225
GeForce RTX 4090
96
232
GPU4K DLSS off4K DLSS on
GeForce RTX 3090 Ti
61
132
GeForce RTX 4080
68
167
GeForce RTX 4080 SUPER
69
169
GeForce RTX 4090 D
92
225
GeForce RTX 4090
96
232
Forza Horizon 5 (DLSS 3)
Forza Horizon 5
4K DLSSoff4K DLSSonGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090050100150200GPU4K DLSS off4K DLSS on
GeForce RTX 3090 Ti
78
114
GeForce RTX 4080
96
147
GeForce RTX 4080 SUPER
98
149
GeForce RTX 4090 D
107
176
GeForce RTX 4090
119
189
GPU4K DLSS off4K DLSS on
GeForce RTX 3090 Ti
78
114
GeForce RTX 4080
96
147
GeForce RTX 4080 SUPER
98
149
GeForce RTX 4090 D
107
176
GeForce RTX 4090
119
189
Tom Clancy's Rainbow Six Siege 虹彩六號:圍攻行動
Rainbow Six Siege
1080p2K4KGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 40900100200300400500600700GPU1080p2K4K
GeForce RTX 3090 Ti
598
513
321
GeForce RTX 4080
610
586
395
GeForce RTX 4080 SUPER
611
591
401
GeForce RTX 4090 D
613
602
496
GeForce RTX 4090
613
603
517
GPU1080p2K4K
GeForce RTX 3090 Ti
598
513
321
GeForce RTX 4080
610
586
395
GeForce RTX 4080 SUPER
611
591
401
GeForce RTX 4090 D
613
602
496
GeForce RTX 4090
613
603
517
Microsoft Flight Simulator 微軟模擬飛行 (DLSS 3)
Microsoft Flight Simulator
4K DLSSOff4K DLSSonGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 40900255075100125150175GPU4K DLSS Off4K DLSS on
GeForce RTX 3090 Ti
55
81
GeForce RTX 4080
69
146
GeForce RTX 4080 SUPER
71
149
GeForce RTX 4090 D
84
163
GeForce RTX 4090
89
170
GPU4K DLSS Off4K DLSS on
GeForce RTX 3090 Ti
55
81
GeForce RTX 4080
69
146
GeForce RTX 4080 SUPER
71
149
GeForce RTX 4090 D
84
163
GeForce RTX 4090
89
170
Watch Dogs Legion (RT + DLSS)
Watch Dogs Legion
4K DLSSOff4K DLSSOnGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090020406080100GPU4K DLSS Off4K DLSS On
GeForce RTX 3090 Ti
39
55
GeForce RTX 4080
52
69
GeForce RTX 4080 SUPER
53
71
GeForce RTX 4090 D
68
90
GeForce RTX 4090
71
94
GPU4K DLSS Off4K DLSS On
GeForce RTX 3090 Ti
39
55
GeForce RTX 4080
52
69
GeForce RTX 4080 SUPER
53
71
GeForce RTX 4090 D
68
90
GeForce RTX 4090
71
94
UL Procyon AI 測試
▲ RTX 4090
▲ RTX 4090 D
在 UL Procyon AI Inference Benchmark (Windows) AI 推理基準測試中,使用常見的電腦視覺的神經網絡模型,透過 CPU 或 GPU 運行相同操作進行比較,以測量 AI 加速器的性能,並設有浮點數或整數的測試方式。
測試採用 14700K、RTX 4090 / RTX 4090 D 配置、float32 精度。在 Microsoft Windows ML 版本及 NVIDIA Tensor RT 版本中,RTX 4090 分別獲得 1353 和 1951 分數,而 RTX 4090 D 分別獲得 1325 和 1878 分數。AI 運算性能跑分方面,全新的 RTX 4090 D 相比 RTX 4090 大約相差 2% ~ 4%效能。
Stable Diffusion AI 生成應用測試
Stable Diffusion 是於 2022 年發佈的深度學習 text-to-image 模型工具,只需要輸入文字內容,配合含有大量素材的訓練模型,便可即時繪畫(AI 生成)圖像。透過不同的文字內容和特定主題的訓練模型,Stable Diffusion 主要用於生成真實人像、二次元人像、不同藝術風格等圖像類型,帶來千變萬化、創意無限的圖片內容,更是現時 2023 年熱門使用的 AI 創作工具。
Stable Diffusion 支援 WebUI 介面,可在瀏覽器中顯示圖形化界面,能讓一般電腦用家也能輕鬆使用及調整不同的選項,亦相容不同的系統平台及電腦硬件,加上不是太過複雜的安裝過程,深受不同程度的電腦用家歡迎。不過 Stable Diffusion 對於電腦硬件中的 GPU VRAM 容量有一定的需求,太低 VRAM 容量將會影響圖片生成時的速度或是生成變化,普偏建議使用 8GB VRAM 容量或以上的顯示卡。
筆者參考至
這個網站文章,採用
Stable Diffusion +
ControlNet 以生成麵包文字主題圖片,僅以簡單設定來執行標準 Stable Diffusion GPU Benchmark 跑分測試,可讓其他使用者也能模擬參考比較,並以首次生成之後的生成的完成時間為數據,而整個 AI 生成的峰值 VRAM 容量不超過 8GB。
在不超過 8GB VRAM 容量下,RTX 4090 24GB 完成時間為 7.7 秒,而 RTX 4090 D 24GB 為 8.0 秒,兩者相差 0.3 秒。RTX 4090 與少許規格下降的 RTX 4090 D 24GB 在低需求的 AI 圖像生成只有非常輕微的差異。
NVIDIA 於 2023 年 11 月推出全新 TensorRT Extension 工具,適用於 Stable Diffusion WebUI 安裝及使用的擴充插件。TensorRT Extension 可把一般的 Checkpoint 或 LoRA等模型,轉換到 TensorRT 格式的設定檔,並可自訂設定檔的數值設定,目前支援 Text-2-image、Image-2-image、Stable Diffusion 1.5 / 2.1 / XL、LoRA 等。NVIVIDA 表示運行 TensorRT Extension 時,將會使用 NVIDIA GPU 的 Tensor Core 計算,Stable Diffusion 的效能可提升 1 倍以上。
測試使用 Stable Diffusuion 模組的 SDXL Turbo 1.0,並使用 TensorRT Extension 工具,轉換合適的設定置。以 1024x1024 解析度、Step 20、Batch count 10、Batch size 1、CFG Scale 7、簡單的提示詞等設定運行,並分別開啟或關閉 xformers 指令、開啟或關閉 TensorRT 功能。
在運行 SDXL Turbo 模式時,預載時已超過 8GB VRAM 容量,以 1024x1024 解析度算圖時,更會超出 12GB 或以上 VRAM 容量。在 PyTorch、PyTorch + xformers、TensorRT 框架運算下,RTX 4090 24GB 完成時間為 51.7 秒、41.6 秒、33.4 秒,而 RTX 4080 16GB 完成時間分別為 52.3 秒、42.4 秒、34.7 秒,兩者時間相差 1% ~ 4%。相比 RTX 4090 24GB,少許規格下降的 RTX 4090 D 24GB 實際完時間只是慢一點點,效能下降並不太明顯。
在使用 Stable Diffusion 高需求模組並以高解析度運行時,所需的 VRAM 容量隨即增加,在使用 xfomers 指令後,雖然完成時間減少了,但 VRAM 容量佔用反而更多,失去了原來減少 VRAM 佔用的優點。在使用 TensorRT 框架後,相比純 PyTorch 運算,VRAM 容量佔用明顯降低,而且縮減了 30% ~ 40% 完成時間,對於 AI 生產圖片更有幫助。
Inno3D GeForce RTX 4090 D X3 顯示卡實測
售價︰HK$13,200
查詢︰ESONEX (2728-2109)
編輯評語︰
雖然運算單元數目減少了 10.94%,但測試結果性能下降約 5~7% 左右,NVIDIA 解釋是遊戲和程序不可能每一次都完全充份填滿,因此減少了的單元數目不會完全轉化成性能的損失,因此 GeForce RTX 4090 D 與 RTX 4090 的差距並沒有想像中大。
由於香港市場上的 RTX 4090 現貨越來越少,售價變得相當昂貴,相反 RTX 4090 D 沒什麼炒價,如果以性價比來說可能更高,由於美國 - 香港政策法已被取消,美國對中國的科技禁運將包括香港地區在內,現有 RTX 4090 D 作為代替品已經不錯了,下一代性能更強可能連 80 都買不到了,香港人就面對現實吧。