PSU-størrelse og dobbelt-PSU-konfigurationer til AI-servere med flere GPU'er
Strøm er den eneste ting, de fleste multi-GPU-builds fejler i første omgang. Det er også den fejltilstand, der er dyrest at reparere senere: for lille strømforsyningen, og systemet genstarter tilfældigt under belastning, for høj specifikationer, og du har spildt €400 på en enhed, der kører med 30% effektivitet. Spørgsmålet om dobbelt strømforsyning bliver værre, fordi det meste af det, der skrives online om "redundans", er forkert i forbindelse med en 4U-arbejdsstation eller et serverchassis med forbruger-GPU'er.
Denne artikel er matematikken, formfaktor-realiteten og den ærlige beskrivelse af en 4-GPU og 8-GPU build på den hardware, vi rent faktisk leverer: RTX 5090, 4090, RTX Pro 6000 Blackwell (Workstation og Max-Q), L40 og L4, på EPYC-værtplatforme.
Beregningen af den samlede effekt
Det tal, du er interesseret i, er vedvarende vægtræk under realistisk belastning, plus nok headroom til at transiente pigge ikke udløser strømforsyningens overstrømsbeskyttelse. Formlen er ligetil:
P_total = (GPU_TDP × N_gpu) + CPU_TDP + drives + fans + motherboard
P_psu = P_total / efficiency_at_load × 1.30 (30% headroom)
De 30% headroom er ikke vilkårlig. Det dækker tre ting på én gang: transiente GPU-stigninger, effektivitetsfaldet, når du presser strømforsyningen forbi ~70% af dens nominelle output, og det faktum, at GPU TDP er et marketingtal, som de reelle arbejdsbelastninger lejlighedsvis overstiger.
Reference-TDP'er, vi bruger til dimensionering:
| Component | Nominel TDP | Realistisk top |
|---|---|---|
| RTX 5090 (FE / partnerkort) | 575 W | 600–650 W transient |
| RTX 4090 | 450 W | 500–550 W transient |
| RTX Pro 6000 Blackwell-arbejdsstation | 600 W | 600 W (hård sokkel) |
| RTX Pro 6000 Blackwell Max-Q | 300 W | 300 W (hård sokkel) |
| L40 | 300 W | 300 W (hård sokkel) |
| L4 | 72 W | 72 W (hård sokkel) |
| EPYC 9354 / 9374F (værts-CPU) | 280-320 W | 350 W boost |
| EPYC 9554 / 9654 (høj kerne) | 360-400 W | ~ 400 W |
| NVMe SSD (pr. drev, vedvarende) | 8-12 W | 15 W burst |
| 120 mm industriel ventilator (pr. ventilator) | 5-10 W | 10 W |
| Bundkort + DIMM'er (8× DDR5) | 80-120 W | 150 W |
Mønsteret: Arbejdsstationskort (Pro 6000, L40, L4) holder deres nominelle TDP stift, fordi de har firmware-strømbegrænsninger designet til vedvarende datacenterbelastning. Forbrugerkort (5090, 4090) stiger kraftigt. En 5090 vil trække 600 W eller mere i ti millisekunder under en arbejdsbelastningsovergang. Gang det med fire kort, der trækker transienter ud af fase med hinanden, og din strømforsyning oplever korte stigninger langt over gennemsnittet i steady-state.
Derfor er "matematikken siger 1500 W, jeg køber en 1500 W strømforsyning" den mest almindelige måde, hvorpå en 4× 5090-build ender med at genstarte under stress.
Forbigående spidser — hvorfor loftshøjden er reel
Den transiente adfærd på Blackwell-klasse forbruger-GPU'er er veldokumenteret. En 5090, der kører i tomgang ved ~30 W, kan hoppe op til 600 W inden for et enkelt millisekund, når en CUDA-kerne starter mod en tom kø. Kortets egen VRM udjævner noget af det, men en ikke-triviel brøkdel når tilbage til strømforsyningens skinner. En 4090 gør det samme ved ~500 W peaks.
To konsekvenser:
- Strømforsyningens overstrømsbeskyttelse (OCP) er fejlpunktet, ikke den gennemsnitlige skinnekapacitet. En 1500 W strømforsyning med aggressiv OCP indstillet til ~130% af den nominelle spænding vil udløses, når fire 5090'ere tilfældigt stiger. Genstarten er lydløs - ingen hændelseslog, ingen advarsel, systemet starter bare op igen. Det tager dage at diagnosticere dette uden instrumentering.
- Strømforsyningens responstid er vigtigere end peak-rating. Server- og high-end ATX-strømforsyninger har hold-up-kapacitans, der kan absorbere transienter på under en millisekund uden at forstyrre strømskinnen. Billige eller ældre enheder kan ikke. Derfor er forskellen i enhedsprisen mellem en 2 kW industriel strømforsyning og en 2 kW forbruger-"gaming"-strømforsyning reel – det er ikke bare badge-teknik.
Den praktiske regel vi bruger: mål 70% af strømforsyningens nominelle ydelse som stationær belastning, lad 30% være tilbage til transienter og effektivitetskurve. En 4× 5090-model ved ~2.3 kW vedvarende strømforsyning kræver et 3 kW strømforsyningsbudget, hvilket i praksis betyder to 1500 W ATX-strømforsyninger fordelt på tværs af belastningen.
80+ vurderinger – hvad de egentlig betyder
De 80+ certificeringsniveauer beskriver effektivitet ved 20%, 50% og 100% belastning, enten ved 115 V eller 230 V input. De relevante tal for en multi-GPU AI-server (som lever nær 50% belastning det meste af tiden) på en europæisk 230 V forsyning:
| dyr | 20% belastning | 50% belastning | 100% belastning |
|---|---|---|---|
| 80+ Bronze | 81% | 85% | 81% |
| 80 + Guld | 88% | 92% | 88% |
| 80+ platin | 90% | 94% | 91% |
| 80+ Titanium | 94% | 96% | 94% |
Ved 50% belastning er deltaet mellem Gold og Titanium fire procentpoint. På et 2 kW-system, der kører 24/7, er fire point cirka 80 W kontinuerligt eller ~700 kWh om året. Med €0.20/kWh er det €140/år pr. strømforsyning. Titanium tjener sig selv hjem inden for to år på en server, der rent faktisk kører den duty cycle, den er bygget til; Gold er det rigtige svar, hvis systemet går i dvale halvdelen af tiden.
Vi hævder ikke at have 80+ Platinum eller Titanium på Kentinos produktsider, medmindre vi har certificeringen registreret. Langt de fleste 2 kW ATX-strømforsyninger, vi leverer, er guldklassificerede. Kunder, der specifikt har brug for Platinum eller Titanium til en 24/7-implementering, kan anmode om det som en byggemulighed - vi vil finde og give et tilbud.
ATX vs. server-grade hot-swap strømforsyninger
Spørgsmålet om formfaktor opdeles tydeligt:
ATX (enkelt strømforsyning, op til ~2 kW)
- Standard 4U-arbejdsstationschassis accepterer en eller to ATX-strømforsyninger.
- Maksimal praktisk effekt pr. ATX-enhed er ~2 kW (grænsen for et 240 V enfaset kredsløb ved 16 A er 3.6 kW i alt).
- Kablerne kan udskiftes af brugeren, er modulære, og stikkene er standard.
- Ingen hot-swap. Strømforsyningsfejl betyder nedlukning og genopbygning.
- Pris: €200-€500 for en seriøs 2 kW ATX-enhed (Corsair AX, Seasonic PRIME, EVGA SuperNOVA G+, Super Flower Leadex).
CRPS (almindelig redundant strømforsyning, serverformfaktor)
- Industristandard server strømforsyningsmodul, ~73.5 mm × 185 mm × 40 mm.
- Anvendes i Supermicro-, Tyan-, Gigabyte- og Bone64c-serverchassis.
- Ægte hot-swap ved parring med et redundant backplane (1+1 eller 2+2).
- Typiske værdier: 1200 W, 1600 W, 2000 W, 2400 W, 3000 W pr. modul.
- Pris: €350–€700 pr. modul plus bagpanelet.
Den ærlige indramning for Kentino-byggerier:
- 4-GPU K-AI-servere leveres i 4U-arbejdsstations-/serverchassis med to ATX-strømforsyninger — specifikt to 1500 W eller to 2000 W afhængigt af GPU-mixet.
- 8-GPU K-AI-servere leveres i serverchassis med dobbelte eller firedobbelte CRPS-moduler på 2000-2400 W hver. Det er i disse konfigurationer, at ægte 1+1-redundans bliver en meningsfuld mulighed, fordi chassis-bagpanelet understøtter det.
Ærligheden med dobbelt strømforsyning — delt levering, ikke N+1
Dette er den mest misrepræsenterede specifikation på markedet for multi-GPU-builds, og vi vil ikke gentage fejlen.
I et 4U-arbejdsstationskabinet med to ATX-strømforsyninger:
De to strømforsyninger er ikke redundante. De forsyner forskellige belastninger. En typisk ledningsføring er:
- Bundkort (24-bens ATX)
- CPU (EPS 8-bens)
- Drev + ventilatorer
- GPU 1 (12V-2x6)
- GPU 2 (12V-2x6)
- GPU 3 (12V-2x6)
- GPU 4 (12V-2x6)
- (nogle gange: drevbur)
PSU A fejler → systemdødt
Dobbelt ATX strømforsyning med delt levering. Ingen deling af skinner, ingen failover. To separate belastningsgrupper.
Der er ingen "automatisk failover" mellem to ATX-strømforsyninger i denne topologi. ATX-strømforsyninger deler ikke skinner. 12 V-udgangen på strømforsyning A er ikke elektrisk forbundet med 12 V-udgangen på strømforsyning B. Hvis du forbinder dem sammen, ville du skabe en strømsløjfe og beskadige en eller begge enheder.
Grunden til, at vi bruger dobbelt strømforsyning i 4-GPU og større builds, er delt strømforsyningEn enkelt 2 kW ATX-enhed ved 70% belastning er fin på papiret, men kabelbundtet alene - fire GPU PCIe-drev plus bundkort plus EPS - er fysisk besværligt at føre fra én strømforsyning. Opdeling i to 1500 W eller 2000 W enheder halverer kabelmassen pr. side, halverer den termiske belastning pr. enhed og giver dig et elegant 2-GPU-fallback, hvis en strømforsyning går ned midt i et job, i stedet for et hårdt systemdød.
CRPS i et serverchassis er anderledes. Et 2+2 CRPS-bagpanel med fire 2 kW-moduler og 1+1 redundante par er reelt hot-swappable, og ét modul kan fejle uden at tage systemet ned. Dette er 8-GPU-serverkonfigurationen, og vi er tydelige på produktsiden, når en build leveres med det bagpanel. Det er også den konfiguration, der retfærdiggør en påstand om "redundant strømforsyning". Vi fremsætter ikke den påstand på 4-GPU ATX-builds, fordi det ville være forkert.
Skinnebalance og strømgrænser pr. skinne
Moderne high-end ATX-strømforsyninger er som standard single-rail 12 V-designs, hvilket forenkler tingene – hele 12 V-udgangen er én stor pulje, og den eneste begrænsning er strømforsyningens samlede effekt. En 2000 W single-rail-enhed, der kører på 230 V, kan levere ~166 A på 12 V, hvilket er mere end nok til enhver enkelt GPU.
Nogle ældre eller industrielle strømforsyninger er multi-rail (12V1, 12V2, 12V3, 12V4), hver med en OCP-kapacitet på typisk 20-40 A pr. skinne. Dette har betydning i to tilfælde:
- Du tilslutter en 5090 med dens 12V-2x6 (12VHPWR efterfølger) stik til en enkelt 12 V skinne. En 5090 ved 600 W transient peak trækker 50 A på 12 V. En 40 A multi-rail OCP vil udløses.
- Du forbinder to GPU'er til den samme multi-rail portgruppe. Samme problem, fordoblet.
Det praktiske svar: Brug single-rail 12 V strømforsyninger til multi-GPU-modeller. Multi-rail er en levn fra den tid, hvor 12V OCP var en sikkerhedsfunktion på single-GPU-spilsystemer. Det er i praksis uhensigtsmæssigt i et 4× 5090-kabinet.
En konkret 4-GPU 5090-bygning
Tal fra en repræsentativ K-AI 96 Turin-version med 4× RTX 5090:
Component Sustained Peak
--------- --------- ----
4× RTX 5090 4 × 500 W = 2000 W 4 × 600 W = 2400 W (transient)
EPYC 9354 (32-core, 280 W) ~ 250 W 350 W
Motherboard + 8× 64 GB DDR5 ~ 100 W 150 W
2× NVMe SSD ~ 20 W 30 W
4× 120 mm industrial fans ~ 30 W 40 W
-------- --------
Total system ~ 2.4 kW ~ 3.0 kW transient
Strømforsyningsstørrelse: 3.0 kW transient / 0.92 (guld ved 50 % belastning) = 3.26 kW strømforsyningsbudget. Rund op til 2× 1500 W ATX eller 2× 2000 W ATX, enkeltskinne, Gold-or-bedre, opdelt som:
- Strømforsyning A (2000 W): bundkort, CPU, drev, blæsere, GPU 1, GPU 2
- Strømforsyning B (1500 W): GPU 3, GPU 4
2× 2000 W-varianten er den, vi tilbyder til kunder, der ønsker en landingsbane for at opgradere til RTX Pro 6000 Workstation-kort senere (600 W hver, hårdere kapacitet på transienter, men et vedvarende loft på 2.4 kW under alle omstændigheder).
En konkret 8-GPU 5090-bygning
Tal for en K-AI 256 Turin Dual med 8× RTX 5090:
Component Sustained Peak
--------- --------- ----
8× RTX 5090 8 × 500 W = 4000 W 8 × 600 W = 4800 W (transient)
2× EPYC 9554 (64-core, 360 W) ~ 650 W 800 W
Motherboard + 16× 64 GB DDR5 ~ 180 W 250 W
4× NVMe SSD ~ 40 W 60 W
8× industrial server fans ~ 80 W 120 W
-------- --------
Total system ~ 5.0 kW ~ 6.0 kW transient
Strømforsyningsstørrelse: 6.0 kW transient / 0.94 (Platinum CRPS @ 50% belastning) = 6.4 kW strømforsyningsbudget. Standardkonfigurationen er dobbelte 2000 W CRPS-moduler i det mindste, mere almindeligt 2+2 CRPS på 2000-2400 W hver med et redundant bagpanel.
Dette er den konfiguration, hvor et reelt 1+1 redundanskrav er berettiget. Capex-deltaet for en ikke-redundant server med dobbelt strømforsyning er ~€800-€1200 pr. build.
240 V-indgang er vigtig her. Et 8-GPU 5090-system på et 230 V enfaset 16 A-kredsløb er på 73 % af afbryderens kontinuerlige belastning, hvilket er den øvre grænse for, hvad de fleste jurisdiktioner tillader som kontinuerligt forbrug. Vi anbefaler et 32 A-kredsløb eller en trefaset rack-PDU med 230 V pr. ben til enhver 8-GPU-installation.
UPS størrelse
Hvis du installerer en 4-GPU eller 8-GPU AI-server på en UPS – hvilket du som minimum bør gøre for at opnå en problemfri nedlukning – er matematikken:
- 4-GPU-konstruktion: 2.4 kW vedvarende. En 3 kVA / 2.4 kW online UPS giver dig fuld dækning, men minimal driftstid (~5 minutter ved fuld belastning). Det er nok til en problemfri nedlukning.
- 8-GPU-konstruktion: 5 kW vedvarende. En 6 kVA online UPS er minimum. For en reel 10-minutters driftstid under belastning skal du bruge 10 kVA eller et parallelt par.
En UPS, der er for lille til den transiente spidsbelastning, vil gå i bypass eller lukke ned i det øjeblik, GPU'erne stiger. UPS-klassificeringen skal dække den transiente spidsbelastning, ikke det vedvarende gennemsnit. Online dobbeltkonvertering er den rette topologi til AI-beregning. Linjeinteraktive enheder har en overførselstid på 4-10 ms, der lejlighedsvis får inferensjob til at gå ned under overgangen. Ren sinusudgang, ikke modificeret sinus - moderne ATX- og CRPS-strømforsyninger tolererer ikke modificeret sinus godt ved høj belastning.
Oversigtstabel — PSU-anbefalinger pr. buildklasse
| Byg | Vedvarende | Forbigående | PSU-konfiguration | Krav om afskedigelse |
|---|---|---|---|---|
| 1× 4090 / 5090 arbejdsstation | ~ 700 W | 900 W | 1× 1200 W ATX Gold, enkeltskinne | Ingen |
| 2 × 4090 | ~1.2 kW | 1.5 kW | 1× 1600 W ATX Gold, enkeltskinne | Ingen |
| 4 × 4090 | ~2.0 kW | 2.6 kW | 2× 1500 W ATX Gold, delt levering | Ingen (opdelt) |
| 4 × 5090 | ~2.4 kW | 3.0 kW | 2× 1500–2000 W ATX Gold, delt levering | Ingen (opdelt) |
| 4× RTX Pro 6000 (Arbejdsstation) | ~2.6 kW | 2.8 kW | 2× 2000 W ATX Guld/Platin | Ingen (opdelt) |
| 8 × 5090 | ~5.0 kW | 6.0 kW | 2× 2000 W CRPS eller 2+2 CRPS @ 2000 W | 1+1 (kun CRPS) |
| 8× RTX Pro 6000 (Arbejdsstation) | ~5.5 kW | 5.7 kW | 2+2 CRPS @ 2400 W | 1+1 (kun CRPS) |
| 8× L40 / 8× L4 (inferens) | 2.6 / 0.7 kW | samme | 2× 1500 W ATX eller 1+1 CRPS @ 1600 W | Valgfri |
L40- og L4-tallene er grunden til, at disse kort forbliver interessante: en 8× L4-inferensserver kører på en enkelt 1200 W ATX-strømforsyning med plads tilovers og passer ind i ethvert kontorkredsløb. Ikke alle arbejdsbyrder kræver Blackwell.
Hvad skal jeg gøre næste
Hvis du skalerer en bygning, er følgende spørgsmål værd at besvare, før du specificerer strømforsyninger:
- Hvad er den præcise GPU-model, og hvor mange? Transient peak pr. kort × N, ikke nominel TDP × N.
- Er dette et 4U-arbejdsstationschassis eller et serverchassis med CRPS-bagplade? Dette afgør, om dobbelt strømforsyning er delt levering eller ægte 1+1 redundans.
- Hvad er dit kredsløb? 230 V 16 A er fint nok til 4-GPU. 8-GPU ønsker 32 A eller trefaset. Amerikanske husstande med 110/120 V kan ikke levere 8-GPU 5090 på et enkelt kredsløb, punktum.
- Hvad er arbejdscyklussen? Vedvarende inferens døgnet rundt retfærdiggør Platinum- eller Titanium-strømforsyninger. Periodisk træning eller udvikling kan køre på Gold og spare €400 pr. build.
- Har du rent faktisk brug for redundans, eller har du brug for en elegant 2-GPU fallback? Det er forskellige ting. Dual ATX giver dig den anden. Kun et CRPS-bagpanel giver dig den første.
Hvis du kan svare på disse fem, falder valget af strømforsyning ud af matematikken. Den næste artikel i W-serien (W05) dækker temperatur og luftstrøm — den anden halvdel af, hvorfor 4U-builds med dobbelt strømforsyning kræver omhyggelig kabelføring, og hvorfor "industriel ventilator" ikke er markedsføring.
Dette er en del af Kentino Wiki, en referenceserie om AI-beregning, robotteknologi og de systemer, der forbinder dem. Kommentarer og rettelser er velkomne på info@kentino.com.