Termiske egenskaber og luftstrøm i AI-server-builds med flere GPU'er
En multi-GPU AI-server er termisk set en industriel varmelegeme, der lejlighedsvis laver matematik. Et 4× RTX 5090-kabinet afgiver kontinuerligt 2.4 kW varme under vedvarende belastning; et 8× 5090 afgiver 5 kW. Intet af det går nogen steder af sig selv - det lander på GPU-skiven, VRM'erne, hukommelsespakkerne og derfra ud i den luft, kabinettet kan presse ud på bagsiden. Hvis luftstrømmen ikke matcher wattstyrken, drosler siliciummet, og droslen på en inferensserver fordobler token-latensen og halverer lydløst gennemløbshastigheden. De fleste "GPU-serveren blev langsommere"-historier er termiske, ikke software. Dette er luftstrømssiden af konstruktionen, parret med W04 på magten.
Varme er bare kraft, omformuleret
Hver watt der indføres i en GPU udledes som varme — kortet udfører intet mekanisk arbejde, så der er ingen effektivitetsfaktor. De TDP'er, vi dimensionerer i forhold til:
| GPU | Vedvarende TDP | Hård hætte | Hotspot-loft | Gasspjældsmål |
|---|---|---|---|---|
| RTX 5090 (FE / partnerkort) | 575 W | ~ 600 W | ~95 °C (silicium) | 90 °C kant |
| RTX 4090 | 450 W | ~ 500 W | ~ 95 ° C | 83 °C kant |
| RTX Pro 6000 Blackwell-arbejdsstation | 600 W | 600 W | ~ 90 ° C | 88 °C kant |
| RTX Pro 6000 Blackwell Max-Q | 300 W | 300 W | ~ 85 ° C | 85 °C kant |
| L40 | 300 W | 300 W | ~ 87 ° C | 87 °C kant |
| L4 | 72 W | 72 W | ~ 87 ° C | 87 °C kant |
| Intel Arc Pro B70 32 GB | 200 W | 225 W | ~ 90 ° C | 90 °C kant |
To bemærkninger, der er vigtige for beslutninger om byggeri. NVIDIA hævede 5090's edge throttle-tærskel til ~90 °C (op fra 83 °C på 4090) — chippen holder fulde clock-tider længere ved den samme luftstrøm, men siliciummet bliver varmere, hvilket er vigtigt for 24/7 implementeringer. Arbejdsstations- og datacenterkort (Pro 6000, L40, L4) holder deres nominelle TDP stift — de boostes ikke over grænsen. Forbrugerkort stiger. Arbejdsstationsserien er lettere at køle forudsigeligt ned; forbrugerserien er lettere at overtegne ved et uheld.
Gasspjældstærskler og hvad de koster
Gashåndtaget er en gradient, ikke en kontakt. På Blackwell-klasse silicium:
| Kanttemperatur | Adfærd |
|---|---|
| 60-75 ° C | Fuld boost, ingen gashåndtag |
| 75-85 ° C | Mild clock-variation, næsten fuldt boost |
| 85-90 ° C | Boost-loftet reduceres, 5-10% tabt |
| 90-95 ° C | Hård gas, 15-25% clock-tab |
| > 95 ° C | Aggressiv gasspjæld, hukommelsesgasspjæld, eventuel nødstop |
En 5090-inferensarbejdsbelastning ved 590 W falder til ~510 W, når kantsensoren krydser 90 °C - 15 % tabte tokens pr. sekund på en vLLM 70B-arbejdsbelastning, hvilket er forskellen mellem at ramme en SLO og ej. Et nyligt tændt kort rammer sit første gasspjæld 60-120 sekunder efter vedvarende belastning; benchmarks kortere end 5 minutter overdriver den vedvarende gennemløbshastighed med 10-20 %, hvilket er en af de mest almindelige måder, hvorpå offentliggjorte tal afviger fra produktionsvirkeligheden.
Front-to-back rack-luftstrøm – den eneste fornuftige arkitektur til 24/7
GPU-kølertopologier er opdelt i åbne/aksiale tower-kort (forbrugerspilkort, udstødning i kabinettets indre), blæser/radial (referencekort, udstødning fra I/O-bøjlen) og passive datacenterkort (L4, L40 — ingen blæser, kabinetblæsere skubber luft gennem finstacken). For en 4-GPU eller 8-GPU build, der kører 24/7, Kun blæser- og passive topologier fungerer i et tæt chassisI et 4U-system med kort stablet lodret, udleder et åbent design varmen i kortets indtag ovenover; det øverste kort sidder i 50-60 °C luft og drosler ned inden for få minutter.
Kentino 4U- og 8U-kabinetter bruger industriel front-til-bag-luftstrøm med 120 mm blæsere, der presser højt statisk tryk hen over GPU'erne. Kortene er blæserlignende, passive eller aktivt omdirigeret via kabinettets kanalføring. Selve kabinettet er køleren.
Luftstrøm i racket forfra og bagfra: indtag i kold gang → GPU'er i luftstrømssøjlen → udtag i varm gang. Dette er det, der holder 5090'ere under 85 °C ved 22 °C indtag.
Statisk tryk vs. luftstrøm CFM
Blæserdatablade viser luftstrøm (CFM) og statisk tryk (mm H2O). For et åbent kabinet dominerer CFM; for et 4U med tætte køleplader, risers, kabelbundter og passive GPU-finnstacks i stien, statisk tryk dominererEn typisk 120 mm forbrugerkabinetblæser yder 70 CFM ved 1.2 mm H2O; en 120 mm industriel serverblæser (Delta, Sanyo Denki, Nidec, San Ace) yder 110 CFM ved 8-12 mm H2O. CFM-gabet er 60%; det statiske trykgab er 7-10×. I et kabinet med tæt ribbeafstand leverer kabinetblæseren måske 20 CFM faktisk gennemstrømning; den industrielle blæser leverer 80-90. Derfor er K-AI-kabinettet støjende (55-62 dBA ved rackfronten) og står i et rack eller skab, ikke på et skrivebord.
Regler: ~40-50 CFM gennemstrømning gennem kabinettet pr. kW GPU-varme; statisk indsugningstryk ≥ 5 mm H2O; CPU-køler skal være af tower-type med front-til-bag-funktion, ikke top-flow.
Tryk, filtre og kabelhåndtering
Chassistrykket er antallet af CFM i indsugnings-CFM vs. udstødnings-CFM. Positivt (mere indsugnings-CFM) lækker luft ud gennem alle mellemrum og fanger støv ved det forreste filter; negativt (mere indsugnings-CFM) trækker ufiltreret luft gennem alle sømmer. Kentino 4U er mildt positivt designet - tre indsugnings-CFM, en bagudstødnings-CFM plus strømforsynings-CFM. Filtre er vigtige: Et 50% tilstoppet indsugningsfilter reducerer kabinettets luftgennemstrømning med 30-40%. Inspicer hver 90. dag på et kontor, hver 30. dag i et laboratorium. De fleste rapporter om, at serveren blev varmere efter seks måneder, vedrører filterproblemer, ikke siliciumnedbrydning.
Kabler i luftsøjlen foran og bagpå er det mest undervurderede termiske problem i computere med flere GPU'er. Et 24-bens ATX-bundt, der er hængt på tværs af indsugningssiden af GPU 4, reducerer kortets effektive luftgennemstrømning med 25-40% og tilføjer 5-8 °C i forhold til sine søskende. Før strøm og EPS bag bundkortbakken, aldrig på tværs af luftsøjlen; intet kabel foran GPU'ens midtpunkt. W04 dækker hvorfor dual-PSU split delivery gør dette fysisk nemmere på en 4-GPU build - halvdelen af kabelmassen pr. side. Valget med dual-PSU er lige så meget termisk, som det er elektrisk.
U-afstand mellem reoler og varm udstødning
En 4U på 2.4 kW opnår en udstødningstemperatur på 35-45 °C ved 100+ CFM; en 8U på 5 kW opnår en udstødningstemperatur på 40-50 °C ved 200+ CFM. Blindpaneler i ubrugte U-pladser er obligatoriske i ethvert lukket rack - uden dem løber den varme udstødningskanal tilbage til indtaget i den kolde gang. Lukkede skabe, der er skubbet op mod en væg, er det værst tænkelige tilfælde: øvre enheder er 8-12 °C varmere end nedre. Én tom U over og under hver multi-GPU-server i ikke-indkapslede racks giver 5-8 °C frihøjde ved indtaget. Indkapsling af den varme gang er meningsfuld i fire-rack-skala, hvilket er overkill for et enkelt rack.
Reelle målinger — 4-GPU og 8-GPU under vedvarende belastning
Interne Kentino-testkørsler, vLLM 70B Q4-inferens, 30-min steady-state, 22 °C ± 1 °C i stuetemperatur.
| Byg | Intake | GPU-kant | CPU-fordelen | Udstødning | Gashåndtag |
|---|---|---|---|---|---|
| 4× RTX 5090 (4U, EPYC 9354) | 23 ° C | 76-84 ° C | 68 ° C | 41 ° C | Ingen |
| 8× RTX 5090 (8U, 2× EPYC 9554) | 24 ° C | 78-86 ° C | 70-72 ° C | 46 ° C | Edge |
| 4× Pro 6000-arbejdsstation (4U) | 23 ° C | 71-77 ° C | 67 ° C | 43 ° C | Ingen |
4× 5090 er designets mål — 8 °C fordelt over hele banken, boost holdt inden for 30 MHz af nominel. 8× 5090 ligger tættere på grænsen; GPU 8 ved 86 °C er på kanten af, hvor boost-grænsen starter. I rum varmere end 24 °C begynder en 8× 5090 build at miste boost på de bageste kort. — 8-GPU-konfigurationen er den, hvor installationsrummets omgivelsestemperatur bliver en førsteklasses byggeparameter. 4× Pro 6000 Workstation kører køligere ved samme vægtræk, fordi den hårde 600 W-kappe og dobbeltgennemstrømningskøleren giver en mere forudsigelig kurve end 5090'erens forbrugerdesign med transiente spikes.
Hotspots ud over GPU-kortet
Antallet nvidia-smi rapporterer er kantsensoren — GDDR-hukommelseskanten eller siliciumkanten, afhængigt af kortet. Det er ikke den varmeste ting i kabinettet. Tre andre placeringer er vigtige:
VRM'er kører typisk 10-20 °C varmere end kortet under vedvarende belastning, med et loft på omkring 110 °C. På en 5090 ved 575 W viser kortets telemetri VRM-temperaturer i området 85-95 °C. Kort med svag VRM-køleregulering på VRM-temperatur før silicium — usynlig for nvidia-smi --query-gpu=temperature.gpu, kun synlig som uforklarligt tab af clock-hastighed. Hvis et kort kører køligt på GPU-sensoren, men mister boost, mistænkes VRM.
GDDR7 hukommelse på 5090 kører den varm. Vedvarende inferens med stor aktiveringstrafik presser hukommelsesforbindelsestemperaturerne op til 95-100 °C. Kortet drosler først hukommelsens ur (3-5 % båndbreddetab) og derefter GPU'ens ur. For hukommelsesbundne arbejdsbelastninger er hukommelsestemperaturen flaskehalsen, ikke kernetemperaturen.
NVMe SSD'er er den stille dræber. Et PCIe 5.0-drev, der udfører vedvarende læsninger (indlæsning af 70B-vægte, streaming af datasæt), når 70-80 °C på få sekunder uden aktiv køling. Over ~75 °C drosler controlleren, og læsebåndbredden halveres. En modelindlæsning, der "burde tage 8 sekunder", tager 16, og ingen ved hvorfor. Alle K-AI-modeller leveres med NVMe med køleplader i kabinettets luftstrømningsvej.
For at overvåge alt, hvad der betyder noget i produktionen:
nvidia-smi --query-gpu=index,temperature.gpu,temperature.memory,clocks.gr,clocks.mem,power.draw \
--format=csv -l 5
Til NVMe, nvme smart-log /dev/nvme0 rapporterer temperaturer på controller og komposit; alarm ved 70 °C komposit. VRM-temperaturen eksponeres på Pro 6000-kort via DCGM (dcgm-exporter for Prometheus); på forbrugerkort er det specifikt for kortproducenten og vises ofte kun i Windows-værktøjer — en af flere grunde til, at vi foretrækker arbejdsstationskort i langvarig produktion.
Omgivende rumtemperatur og ASHRAE-konvolutten
ASHRAE TC9.9 definerer de termiske konvolutter, som datacenterdesign følger. Klasse A1 (tier-1 colocation) anbefaler 18-27 °C indløb; Klasse A2 (generel virksomhed) udvides til 10-35 °C. K-AI-serien er designet til A2, men konvolutten uden gasregulering for et 4× eller 8× 5090-chassis sidder inden for A1: 22 °C indløb er designpunktet, 26 °C det praktiske loft, før boost-tabet begynder. Luftfugtigheden er også vigtig: ASHRAE anbefaler 20-80 % ikke-kondenserende. Sigt efter 40-60 % RF året rundt.
| Byg | Anbefalet omgivelsestemperatur | Loft (uden gashåndtag) | Hårdt loft (enhver gashåndtag) |
|---|---|---|---|
| 4 × 4090 | 18-24 ° C | 26 ° C | 30 ° C |
| 4 × 5090 | 18-22 ° C | 24 ° C | 28 ° C |
| 4× Pro 6000 | 18-25 ° C | 27 ° C | 32 ° C |
| 8 × 5090 | 18-22 ° C | 23 ° C | 26 ° C |
| 8× Pro 6000 | 18-24 ° C | 25 ° C | 29 ° C |
| 8× L40 | 18-26 ° C | 28 ° C | 32 ° C |
| 8× L4 | 18-28 ° C | 30 ° C | 35 ° C |
L40- og L4-numrene er grunden til, at disse kort forbliver interessante til kontorinstallationer: de tåler normal kontor-HVAC. En 8-GPU 5090-build kræver et serverrum eller -skab med dedikeret køling, punktum.
HVAC-dimensionering i ét afsnit
Kølebelastningen for rummet er lig med vedvarende vægforbrug: 1 kW = 3,412 BTU/time. En 2.4 kW 4-GPU server er ~8,200 BTU/time; en 4.5 kW 8-GPU server er ~15,400 BTU/time. Størrelse AC ved 1.3 gange den stabile belastning — samme headroom-regel som strømforsyninger. En 12,000 BTU split på en 2.4 kW server kører med 100 % duty cycle og slukker kompressoren på 18-30 måneder; en 24,000 BTU-enhed på samme belastning kører med 50 % duty cycle og holder i 8-10 år. Præcisionskøling (CRAC) bliver relevant over 10 kW; under dette gør en korrekt dimensioneret split jobbet.
Formfaktor: 4U rack, 8U rack, tower
K-AI-serien bruger tre: 4U-rack til 4-GPU-builds (3× 120 mm indtag, 1× bagpå, dobbelt ATX, 19-tommer rack) 8U-rack til 8-GPU-builds (industrielle serverblæsere, CRPS-strøm, bundkort med to CPU'er, omtrent dobbelt 4U-varmetæthed), og tårnarbejdsstation Til udviklingsbokse med 1 og 2 GPU'er (PWM-blæsere, kontorvenlige). Vi sender ikke tower-modeller over 2 GPU'er — et lodret chassis med 4 GPU'er når en 90 °C-kant på det øverste kort inden for 20 minutter med vedvarende belastning. Den samme hardware i et 4U-rack forbliver under 85 °C på ubestemt tid.
Væskekøling – hvornår og hvorfor
Luft håndterer ~600 W pr. GPU i en veldesignet 4U; over det er væske løsningen. AIO pr. kort sænker GPU-fordelen med 15-25 °C, men tilføjer en størrelsesorden af kompleksitet, med pumpefejl og lydløs kølevæskefordampning som de nye fejltilstande. Direkte-til-chip med en varmeveksler bag på racket, der er tilsluttet til at facilitere kølevand, er det rigtige svar ved 16+ GPU'er pr. klynge. Nedsænkning i dielektrisk væske er effektivt, dyrt og ændrer servicevenlighedsmodellen fuldstændigt.
For den nuværende Kentino-serie — luftkølede kabinetter op til 600 W pr. kort — luft er det rigtige svarEn 4× 5090-version kører ved en kant på 78-84 °C uden gas, 24/7, i en kold gang på 22 °C. Væske ville bringe det op på 55-65 °C og øge boost-takten med et par procent; capex- og kompleksitetsdeltaet retfærdiggør det ikke i denne skala.
Hvad skal man gøre nu – tjekliste til termisk overvågning
Hvis du dimensionerer den termiske side af et bygge- eller installationsrum:
- Koldgangsmiljø i installationsrummet? Mål under realistisk belastning, ikke på en søndag med airconditionen kørende på højtryk. Sammenlign med omgivelsestemperaturtabellen ovenfor.
- Rumkøling dimensioneret til 1.3× servervægtræk? En AC, der er dimensioneret til præcis at matche belastningen, kører med 100 % duty cycle og svigter inden for to år.
- Hvor går den varme udstødning hen? Åbent reol med en varm gang er fint; et lukket skab uden indkapsling eller et skab med serveringsfadet pegende mod en væg er ikke.
- Driftscyklus? En udviklerboks med 30% belastning har andre kølebehov end en 24/7 inferensserver.
- Filter og vækstplan? Et tilstoppet filter halverer luftstrømmen stille og roligt; en ekstra serveringsbeholder fordobler varmebelastningen. Planlæg begge dele.
-
Kører telemetri?
nvidia-smipollet ved 5 s for GPU-kant / hukommelse / clocks / strøm,nvme smart-logFor drev, DCGM til VRM hvor tilgængelig, rumtemperatur + luftfugtighed i overvågningsstakken med alarmer ved 27 °C og udenfor 40-60 % RF.
Chassis-niveau design — front-til-bag-luftstrøm, industrielle 120 mm blæsere, blæser eller passive GPU'er, disciplineret kabelføring — er som standard inkluderet i alle K-AI-builds. Rummet og racket er kundens side af linjen, og det er der, de fleste feltproblemer opstår.
W06 (næste i W-serien) dækker lagringsniveauer — NVMe-, SAS- og bulk pool-layouts, der parres med disse computerchassis.
Dette er en del af Kentino Wiki, en referenceserie om AI-beregning, robotteknologi og de systemer, der forbinder dem. Kommentarer og rettelser er velkomne på info@kentino.com.