PSU-størrelse og dobbelt-PSU-konfigurationer til AI-servere med flere GPU'er

Strøm er den eneste ting, de fleste multi-GPU-builds fejler i første omgang. Det er også den fejltilstand, der er dyrest at reparere senere: for lille strømforsyningen, og systemet genstarter tilfældigt under belastning, for høj specifikationer, og du har spildt €400 på en enhed, der kører med 30% effektivitet. Spørgsmålet om dobbelt strømforsyning bliver værre, fordi det meste af det, der skrives online om "redundans", er forkert i forbindelse med en 4U-arbejdsstation eller et serverchassis med forbruger-GPU'er.

Denne artikel er matematikken, formfaktor-realiteten og den ærlige beskrivelse af en 4-GPU og 8-GPU build på den hardware, vi rent faktisk leverer: RTX 5090, 4090, RTX Pro 6000 Blackwell (Workstation og Max-Q), L40 og L4, på EPYC-værtplatforme.

Beregningen af ​​den samlede effekt

Det tal, du er interesseret i, er vedvarende vægtræk under realistisk belastning, plus nok headroom til at transiente pigge ikke udløser strømforsyningens overstrømsbeskyttelse. Formlen er ligetil:

P_total  =  (GPU_TDP × N_gpu)  +  CPU_TDP  +  drives  +  fans  +  motherboard
P_psu    =  P_total / efficiency_at_load  ×  1.30  (30% headroom)

De 30% headroom er ikke vilkårlig. Det dækker tre ting på én gang: transiente GPU-stigninger, effektivitetsfaldet, når du presser strømforsyningen forbi ~70% af dens nominelle output, og det faktum, at GPU TDP er et marketingtal, som de reelle arbejdsbelastninger lejlighedsvis overstiger.

Reference-TDP'er, vi bruger til dimensionering:

Component Nominel TDP Realistisk top
RTX 5090 (FE / partnerkort) 575 W 600–650 W transient
RTX 4090 450 W 500–550 W transient
RTX Pro 6000 Blackwell-arbejdsstation 600 W 600 W (hård sokkel)
RTX Pro 6000 Blackwell Max-Q 300 W 300 W (hård sokkel)
L40 300 W 300 W (hård sokkel)
L4 72 W 72 W (hård sokkel)
EPYC 9354 / 9374F (værts-CPU) 280-320 W 350 W boost
EPYC 9554 / 9654 (høj kerne) 360-400 W ~ 400 W
NVMe SSD (pr. drev, vedvarende) 8-12 W 15 W burst
120 mm industriel ventilator (pr. ventilator) 5-10 W 10 W
Bundkort + DIMM'er (8× DDR5) 80-120 W 150 W

Mønsteret: Arbejdsstationskort (Pro 6000, L40, L4) holder deres nominelle TDP stift, fordi de har firmware-strømbegrænsninger designet til vedvarende datacenterbelastning. Forbrugerkort (5090, 4090) stiger kraftigt. En 5090 vil trække 600 W eller mere i ti millisekunder under en arbejdsbelastningsovergang. Gang det med fire kort, der trækker transienter ud af fase med hinanden, og din strømforsyning oplever korte stigninger langt over gennemsnittet i steady-state.

Derfor er "matematikken siger 1500 W, jeg køber en 1500 W strømforsyning" den mest almindelige måde, hvorpå en 4× 5090-build ender med at genstarte under stress.

Forbigående spidser — hvorfor loftshøjden er reel

Den transiente adfærd på Blackwell-klasse forbruger-GPU'er er veldokumenteret. En 5090, der kører i tomgang ved ~30 W, kan hoppe op til 600 W inden for et enkelt millisekund, når en CUDA-kerne starter mod en tom kø. Kortets egen VRM udjævner noget af det, men en ikke-triviel brøkdel når tilbage til strømforsyningens skinner. En 4090 gør det samme ved ~500 W peaks.

To konsekvenser:

  1. Strømforsyningens overstrømsbeskyttelse (OCP) er fejlpunktet, ikke den gennemsnitlige skinnekapacitet. En 1500 W strømforsyning med aggressiv OCP indstillet til ~130% af den nominelle spænding vil udløses, når fire 5090'ere tilfældigt stiger. Genstarten er lydløs - ingen hændelseslog, ingen advarsel, systemet starter bare op igen. Det tager dage at diagnosticere dette uden instrumentering.
  2. Strømforsyningens responstid er vigtigere end peak-rating. Server- og high-end ATX-strømforsyninger har hold-up-kapacitans, der kan absorbere transienter på under en millisekund uden at forstyrre strømskinnen. Billige eller ældre enheder kan ikke. Derfor er forskellen i enhedsprisen mellem en 2 kW industriel strømforsyning og en 2 kW forbruger-"gaming"-strømforsyning reel – det er ikke bare badge-teknik.

Den praktiske regel vi bruger: mål 70% af strømforsyningens nominelle ydelse som stationær belastning, lad 30% være tilbage til transienter og effektivitetskurve. En 4× 5090-model ved ~2.3 kW vedvarende strømforsyning kræver et 3 kW strømforsyningsbudget, hvilket i praksis betyder to 1500 W ATX-strømforsyninger fordelt på tværs af belastningen.

80+ vurderinger – hvad de egentlig betyder

De 80+ certificeringsniveauer beskriver effektivitet ved 20%, 50% og 100% belastning, enten ved 115 V eller 230 V input. De relevante tal for en multi-GPU AI-server (som lever nær 50% belastning det meste af tiden) på en europæisk 230 V forsyning:

dyr 20% belastning 50% belastning 100% belastning
80+ Bronze 81% 85% 81%
80 + Guld 88% 92% 88%
80+ platin 90% 94% 91%
80+ Titanium 94% 96% 94%

Ved 50% belastning er deltaet mellem Gold og Titanium fire procentpoint. På et 2 kW-system, der kører 24/7, er fire point cirka 80 W kontinuerligt eller ~700 kWh om året. Med €0.20/kWh er det €140/år pr. strømforsyning. Titanium tjener sig selv hjem inden for to år på en server, der rent faktisk kører den duty cycle, den er bygget til; Gold er det rigtige svar, hvis systemet går i dvale halvdelen af ​​tiden.

Vi hævder ikke at have 80+ Platinum eller Titanium på Kentinos produktsider, medmindre vi har certificeringen registreret. Langt de fleste 2 kW ATX-strømforsyninger, vi leverer, er guldklassificerede. Kunder, der specifikt har brug for Platinum eller Titanium til en 24/7-implementering, kan anmode om det som en byggemulighed - vi vil finde og give et tilbud.

ATX vs. server-grade hot-swap strømforsyninger

Spørgsmålet om formfaktor opdeles tydeligt:

ATX (enkelt strømforsyning, op til ~2 kW)

  • Standard 4U-arbejdsstationschassis accepterer en eller to ATX-strømforsyninger.
  • Maksimal praktisk effekt pr. ATX-enhed er ~2 kW (grænsen for et 240 V enfaset kredsløb ved 16 A er 3.6 kW i alt).
  • Kablerne kan udskiftes af brugeren, er modulære, og stikkene er standard.
  • Ingen hot-swap. Strømforsyningsfejl betyder nedlukning og genopbygning.
  • Pris: €200-€500 for en seriøs 2 kW ATX-enhed (Corsair AX, Seasonic PRIME, EVGA SuperNOVA G+, Super Flower Leadex).

CRPS (almindelig redundant strømforsyning, serverformfaktor)

  • Industristandard server strømforsyningsmodul, ~73.5 mm × 185 mm × 40 mm.
  • Anvendes i Supermicro-, Tyan-, Gigabyte- og Bone64c-serverchassis.
  • Ægte hot-swap ved parring med et redundant backplane (1+1 eller 2+2).
  • Typiske værdier: 1200 W, 1600 W, 2000 W, 2400 W, 3000 W pr. modul.
  • Pris: €350–€700 pr. modul plus bagpanelet.

Den ærlige indramning for Kentino-byggerier:

  • 4-GPU K-AI-servere leveres i 4U-arbejdsstations-/serverchassis med to ATX-strømforsyninger — specifikt to 1500 W eller to 2000 W afhængigt af GPU-mixet.
  • 8-GPU K-AI-servere leveres i serverchassis med dobbelte eller firedobbelte CRPS-moduler på 2000-2400 W hver. Det er i disse konfigurationer, at ægte 1+1-redundans bliver en meningsfuld mulighed, fordi chassis-bagpanelet understøtter det.

Ærligheden med dobbelt strømforsyning — delt levering, ikke N+1

Dette er den mest misrepræsenterede specifikation på markedet for multi-GPU-builds, og vi vil ikke gentage fejlen.

I et 4U-arbejdsstationskabinet med to ATX-strømforsyninger:

De to strømforsyninger er ikke redundante. De forsyner forskellige belastninger. En typisk ledningsføring er:

Strømforsyning A
  • Bundkort (24-bens ATX)
  • CPU (EPS 8-bens)
  • Drev + ventilatorer
  • GPU 1 (12V-2x6)
  • GPU 2 (12V-2x6)
delt
Strømforsyning B
  • GPU 3 (12V-2x6)
  • GPU 4 (12V-2x6)
  • (nogle gange: drevbur)
PSU B fejler → GPU 3 & 4 offline
PSU A fejler → systemdødt

Dobbelt ATX strømforsyning med delt levering. Ingen deling af skinner, ingen failover. To separate belastningsgrupper.

Der er ingen "automatisk failover" mellem to ATX-strømforsyninger i denne topologi. ATX-strømforsyninger deler ikke skinner. 12 V-udgangen på strømforsyning A er ikke elektrisk forbundet med 12 V-udgangen på strømforsyning B. Hvis du forbinder dem sammen, ville du skabe en strømsløjfe og beskadige en eller begge enheder.

Grunden til, at vi bruger dobbelt strømforsyning i 4-GPU og større builds, er delt strømforsyningEn enkelt 2 kW ATX-enhed ved 70% belastning er fin på papiret, men kabelbundtet alene - fire GPU PCIe-drev plus bundkort plus EPS - er fysisk besværligt at føre fra én strømforsyning. Opdeling i to 1500 W eller 2000 W enheder halverer kabelmassen pr. side, halverer den termiske belastning pr. enhed og giver dig et elegant 2-GPU-fallback, hvis en strømforsyning går ned midt i et job, i stedet for et hårdt systemdød.

CRPS i et serverchassis er anderledes. Et 2+2 CRPS-bagpanel med fire 2 kW-moduler og 1+1 redundante par er reelt hot-swappable, og ét modul kan fejle uden at tage systemet ned. Dette er 8-GPU-serverkonfigurationen, og vi er tydelige på produktsiden, når en build leveres med det bagpanel. Det er også den konfiguration, der retfærdiggør en påstand om "redundant strømforsyning". Vi fremsætter ikke den påstand på 4-GPU ATX-builds, fordi det ville være forkert.

Skinnebalance og strømgrænser pr. skinne

Moderne high-end ATX-strømforsyninger er som standard single-rail 12 V-designs, hvilket forenkler tingene – hele 12 V-udgangen er én stor pulje, og den eneste begrænsning er strømforsyningens samlede effekt. En 2000 W single-rail-enhed, der kører på 230 V, kan levere ~166 A på 12 V, hvilket er mere end nok til enhver enkelt GPU.

Nogle ældre eller industrielle strømforsyninger er multi-rail (12V1, 12V2, 12V3, 12V4), hver med en OCP-kapacitet på typisk 20-40 A pr. skinne. Dette har betydning i to tilfælde:

  1. Du tilslutter en 5090 med dens 12V-2x6 (12VHPWR efterfølger) stik til en enkelt 12 V skinne. En 5090 ved 600 W transient peak trækker 50 A på 12 V. En 40 A multi-rail OCP vil udløses.
  2. Du forbinder to GPU'er til den samme multi-rail portgruppe. Samme problem, fordoblet.

Det praktiske svar: Brug single-rail 12 V strømforsyninger til multi-GPU-modeller. Multi-rail er en levn fra den tid, hvor 12V OCP var en sikkerhedsfunktion på single-GPU-spilsystemer. Det er i praksis uhensigtsmæssigt i et 4× 5090-kabinet.

En konkret 4-GPU 5090-bygning

Tal fra en repræsentativ K-AI 96 Turin-version med 4× RTX 5090:

Component                       Sustained        Peak
---------                       ---------        ----
4× RTX 5090                     4 × 500 W = 2000 W   4 × 600 W = 2400 W (transient)
EPYC 9354 (32-core, 280 W)      ~ 250 W              350 W
Motherboard + 8× 64 GB DDR5     ~ 100 W              150 W
2× NVMe SSD                     ~ 20 W               30 W
4× 120 mm industrial fans       ~ 30 W               40 W
                                --------             --------
Total system                    ~ 2.4 kW             ~ 3.0 kW transient

Strømforsyningsstørrelse: 3.0 kW transient / 0.92 (guld ved 50 % belastning) = 3.26 kW strømforsyningsbudget. Rund op til 2× 1500 W ATX eller 2× 2000 W ATX, enkeltskinne, Gold-or-bedre, opdelt som:

  • Strømforsyning A (2000 W): bundkort, CPU, drev, blæsere, GPU 1, GPU 2
  • Strømforsyning B (1500 W): GPU 3, GPU 4

2× 2000 W-varianten er den, vi tilbyder til kunder, der ønsker en landingsbane for at opgradere til RTX Pro 6000 Workstation-kort senere (600 W hver, hårdere kapacitet på transienter, men et vedvarende loft på 2.4 kW under alle omstændigheder).

En konkret 8-GPU 5090-bygning

Tal for en K-AI 256 Turin Dual med 8× RTX 5090:

Component                       Sustained        Peak
---------                       ---------        ----
8× RTX 5090                     8 × 500 W = 4000 W   8 × 600 W = 4800 W (transient)
2× EPYC 9554 (64-core, 360 W)   ~ 650 W              800 W
Motherboard + 16× 64 GB DDR5    ~ 180 W              250 W
4× NVMe SSD                     ~ 40 W               60 W
8× industrial server fans       ~ 80 W               120 W
                                --------             --------
Total system                    ~ 5.0 kW             ~ 6.0 kW transient

Strømforsyningsstørrelse: 6.0 kW transient / 0.94 (Platinum CRPS @ 50% belastning) = 6.4 kW strømforsyningsbudget. Standardkonfigurationen er dobbelte 2000 W CRPS-moduler i det mindste, mere almindeligt 2+2 CRPS på 2000-2400 W hver med et redundant bagpanel.

Dette er den konfiguration, hvor et reelt 1+1 redundanskrav er berettiget. Capex-deltaet for en ikke-redundant server med dobbelt strømforsyning er ~€800-€1200 pr. build.

240 V-indgang er vigtig her. Et 8-GPU 5090-system på et 230 V enfaset 16 A-kredsløb er på 73 % af afbryderens kontinuerlige belastning, hvilket er den øvre grænse for, hvad de fleste jurisdiktioner tillader som kontinuerligt forbrug. Vi anbefaler et 32 ​​A-kredsløb eller en trefaset rack-PDU med 230 V pr. ben til enhver 8-GPU-installation.

UPS størrelse

Hvis du installerer en 4-GPU eller 8-GPU AI-server på en UPS – hvilket du som minimum bør gøre for at opnå en problemfri nedlukning – er matematikken:

  • 4-GPU-konstruktion: 2.4 kW vedvarende. En 3 kVA / 2.4 kW online UPS giver dig fuld dækning, men minimal driftstid (~5 minutter ved fuld belastning). Det er nok til en problemfri nedlukning.
  • 8-GPU-konstruktion: 5 kW vedvarende. En 6 kVA online UPS er minimum. For en reel 10-minutters driftstid under belastning skal du bruge 10 kVA eller et parallelt par.

En UPS, der er for lille til den transiente spidsbelastning, vil gå i bypass eller lukke ned i det øjeblik, GPU'erne stiger. UPS-klassificeringen skal dække den transiente spidsbelastning, ikke det vedvarende gennemsnit. Online dobbeltkonvertering er den rette topologi til AI-beregning. Linjeinteraktive enheder har en overførselstid på 4-10 ms, der lejlighedsvis får inferensjob til at gå ned under overgangen. Ren sinusudgang, ikke modificeret sinus - moderne ATX- og CRPS-strømforsyninger tolererer ikke modificeret sinus godt ved høj belastning.

Oversigtstabel — PSU-anbefalinger pr. buildklasse

Byg Vedvarende Forbigående PSU-konfiguration Krav om afskedigelse
1× 4090 / 5090 arbejdsstation ~ 700 W 900 W 1× 1200 W ATX Gold, enkeltskinne Ingen
2 × 4090 ~1.2 kW 1.5 kW 1× 1600 W ATX Gold, enkeltskinne Ingen
4 × 4090 ~2.0 kW 2.6 kW 2× 1500 W ATX Gold, delt levering Ingen (opdelt)
4 × 5090 ~2.4 kW 3.0 kW 2× 1500–2000 W ATX Gold, delt levering Ingen (opdelt)
4× RTX Pro 6000 (Arbejdsstation) ~2.6 kW 2.8 kW 2× 2000 W ATX Guld/Platin Ingen (opdelt)
8 × 5090 ~5.0 kW 6.0 kW 2× 2000 W CRPS eller 2+2 CRPS @ 2000 W 1+1 (kun CRPS)
8× RTX Pro 6000 (Arbejdsstation) ~5.5 kW 5.7 kW 2+2 CRPS @ 2400 W 1+1 (kun CRPS)
8× L40 / 8× L4 (inferens) 2.6 / 0.7 kW samme 2× 1500 W ATX eller 1+1 CRPS @ 1600 W Valgfri

L40- og L4-tallene er grunden til, at disse kort forbliver interessante: en 8× L4-inferensserver kører på en enkelt 1200 W ATX-strømforsyning med plads tilovers og passer ind i ethvert kontorkredsløb. Ikke alle arbejdsbyrder kræver Blackwell.

Hvad skal jeg gøre næste

Hvis du skalerer en bygning, er følgende spørgsmål værd at besvare, før du specificerer strømforsyninger:

  1. Hvad er den præcise GPU-model, og hvor mange? Transient peak pr. kort × N, ikke nominel TDP × N.
  2. Er dette et 4U-arbejdsstationschassis eller et serverchassis med CRPS-bagplade? Dette afgør, om dobbelt strømforsyning er delt levering eller ægte 1+1 redundans.
  3. Hvad er dit kredsløb? 230 V 16 A er fint nok til 4-GPU. 8-GPU ønsker 32 A eller trefaset. Amerikanske husstande med 110/120 V kan ikke levere 8-GPU 5090 på et enkelt kredsløb, punktum.
  4. Hvad er arbejdscyklussen? Vedvarende inferens døgnet rundt retfærdiggør Platinum- eller Titanium-strømforsyninger. Periodisk træning eller udvikling kan køre på Gold og spare €400 pr. build.
  5. Har du rent faktisk brug for redundans, eller har du brug for en elegant 2-GPU fallback? Det er forskellige ting. Dual ATX giver dig den anden. Kun et CRPS-bagpanel giver dig den første.

Hvis du kan svare på disse fem, falder valget af strømforsyning ud af matematikken. Den næste artikel i W-serien (W05) dækker temperatur og luftstrøm — den anden halvdel af, hvorfor 4U-builds med dobbelt strømforsyning kræver omhyggelig kabelføring, og hvorfor "industriel ventilator" ikke er markedsføring.


Dette er en del af Kentino Wiki, en referenceserie om AI-beregning, robotteknologi og de systemer, der forbinder dem. Kommentarer og rettelser er velkomne på info@kentino.com.