GPU-risers i AI-serverbuilds: Hvornår du har brug for dem, og hvad der går i stykker

En GPU-riser er det kabel, printkort eller den samling, der flytter et PCIe-slot fra bundkortets placering til GPU'ens placering. I en stationær computer med ét kort tænker man ikke på risers. I et 4U-rack med fire RTX 5090 eller en dual-socket EPYC med otte kort tænker man ikke på andet. Riser'en er der, hvor signalintegriteten stille og roligt dør, hvor linket stille og roligt omdannes til Gen3, og hvor en build, der benchmarker fint på bænken, begynder at tabe en GPU om dagen i produktion.

Dette er den praktiske reference: hvad risers er, hvornår du har brug for dem, de fire kategorier, hvorfor Gen5 ændrer alt, hvordan man diagnosticerer, og hvad man skal specificere.

Hvorfor der overhovedet findes risers

Et bundkort placerer PCIe x16-slots ~20 mm fra hinanden. En dual-slot GPU er 40-70 mm tyk. Regnestykket fungerer ikke. Når du vil have mere end to kort i et kabinet, eller 3-slot-kort, eller luftstrømmen skal være placeret i et rack fra front til bag, skal GPU'erne fysisk flyttes.

Tre praktiske grunde til, at et byggeri har brug for forhøjninger:

Chassispasform. Et 4U rack-chassis lægger GPU'er fladt, parallelt med bundkortet, langs luftstrømningsbanen. Bundkortets PCIe-slots er vinkelret på dette. Hver GPU i et fladmonteret rack-chassis er på en riser, punktum.

Termisk isolering. Selv når slots fysisk passer ind, betyder det, at GPU'er pakkes ryg mod ryg, at hvert kort inhalerer det næste korts udstødning. En kort riser adskiller dem med 40-80 mm og giver hvert kort sit eget indtagsplan. På 350 W-kort er det forskellen mellem 72 °C og 86 °C under vedvarende belastning.

Multi-GPU-afstand. En 8-GPU-model i et 4U/5U-kabinet kan slet ikke bruge bundkortslots. Bundkortet har fire eller fem x16-slots; kabinettet skal have otte i træk langs luftstrømningsbanen. Riser-systemet er hele den mekaniske grænseflade mellem de to.

De fire kategorier, du rent faktisk ser

Stivt printkort (1U/2U)
10–60 mm. Gen4/Gen5 OK. Billig, fabriksmonteret, ingen overraskelser. Hvis dit chassis har en, så brug den.
Bånd / Flex
150-300 mm. Gen3 fin, Gen4 for det meste OK kort. Gen5 marginal selv ved 100 mm. Almindeligt gør-det-selv-smertepunkt.
Aktiv / Retimer
Op til 600 mm. Gen4/Gen5 med inline retimer. €150–€300 pr. GPU. Standard til lange Gen5-kørsler.
MCIO / SlimSAS
300-500 mm ved Gen5 x16. Designet til 32 GT/s. Gen5 native. Det eneste rigtige svar til 8-GPU Gen5.

Riser-kategorier sorteret efter kabellængde og Gen5-egnethed. MCIO er den eneste, der er klassificeret til 8-GPU Gen5 produktionsbuilds.

1. Stive printkortrisere (1U / 2U adaptere)

Fladt printkort, der sættes i bundkortsstikket og præsenterer PCIe-stikkene i en ret vinkel eller flyttet 30-60 mm. Standard i kompakte 1U/2U-servere. Kort, passiv, fabrikskonstrueret, chassisspecifik. Hvis dit chassis leveres med et, så brug det.

2. Bånd- og fleksible forhøjere

Den klassiske gør-det-selv-del. Fladt, fleksibelt kabel, 150-300 mm langt, PCIe-slot i den ene ende, PCIe-kantstik i den anden. Under €100. Overalt i kryptomining-builds, stadig almindeligt i budgetvenlige AI-builds.

Ribbon risers fungerer uden problemer på Gen3. På Gen4 fungerer de det meste af tiden, hvis de er korte (under 200 mm), og EMI-miljøet er rent. På Gen5 er de en møntflip, selv ved 100 mm — kabelkonstruktionen blev aldrig designet til 32 GT/s.

Vi har set Gen4-båndrisere træne fint ved x16 på bænken og derefter falde til Gen3 under belastning, når chassiset varmes op. Vi har set den samme riser virke på EPYC Genoa og ikke træne over Gen3 på EPYC Turin, fordi Turins Gen5 PHY har strammere timingmarginer.

Dom: Fin til Gen3. Acceptabel til korte Gen4-serier, hvis leverandøren specificerer det. Ikke acceptabel til Gen5-produktion.

3. Aktive / retimer-baserede risers

En retimer er en chip, der er monteret på riseren, og som gendanner uret og regenererer et rent signal. Signalintegritetsmæssigt halverer den effektivt kabellængden – 400-600 mm med en mid-path retimer, hvor en passiv riser dør ved 200 mm.

Tilføjer €150-€300 pr. GPU og latenstid på et enkeltcifret nanosekunder (irrelevant for beregning). Standardsvaret for "langt kabel, Gen4/Gen5 skal virke" — de fleste fabriksindstillede Gen5-sæt bruger dem.

4. MCIO- og SlimSAS-kabelforbindelser

MCIO (Mini Cool Edge IO) har vundet Gen5-kampen om serverkabler. SlimSAS (SFF-8654) er den ældre fætter, almindelig i Gen4. Begge erstatter PCIe-kantstikket med et kabelstik i begge ender — bundkortet blotlægger MCIO-portene, riser-PCB blotlægger MCIO-portene, og kablet mellem dem.

MCIO-kablet er et differentialparkabel designet til 32 GT/s. 300-500 mm ved Gen5 x16 er rutine. Impedansstyret, korrekt afskærmning, stikkene låser positivt. PCIe-kantstikket - en 25 år gammel standard - er det svage punkt i enhver ribbon riser; MCIO fjerner det.

Bundkort — 4× MCIO x16-porte
4× MCIO-kabler (300–400 mm)
MCIO-kabler
PCIe-switch/bifurcation-kort
8× MCIO-kabler (200–300 mm)
MCIO-kabler
GPU-riserkort × 8 → 8× GPU'er fladmonterede
Hver riser repræsenterer PCIe-kantstikket på GPU'en

Typisk 8-GPU Gen5 MCIO-kabelkæde: bundkort → switch-/bifurkationskort → GPU-riserkort → GPU'er.

Konklusion: MCIO ved Gen5, punktum. Hvis en leverandør sælger Gen5 8-GPU uden MCIO, så giv afkald på det.

Signalintegritet, Gen4 vs. Gen5

Parameter Gen3 (8 GT/s) Gen4 (16 GT/s) Gen5 (32 GT/s)
Bitperiode ~125 ps ~62 ps ~31 ps
Maks. praktisk passivt kabel ~ 400 mm ~ 200 mm ~ 100 mm
Maks. med gentimer ~600+ mm ~ 500 mm ~ 400 mm
Kantforbindelsestolerance tilgivende stram nådesløs
Øjenmargin ved 250 mm passiv helt åben indsnævring lukket

På Gen3 kan man gøre næsten alt med et fladkabel. På Gen5 kan man ikke, og fejltilstandene er ikke altid højlydte.

Mest almindelige mønster: Linket trænes ved det laveste af, hvad slot og enhed rapporterer efter LTSSM-forhandling (Link Training and Status State Machine). Hvis signalkvaliteten er marginal, vil den genoptræne – stille og roligt, normalt under GPU'ens første store arbejdsbyrde – og stabilisere sig ved Gen4 eller Gen3. Systemet fortsætter med at køre. PCIe-båndbredden halveres. Benchmarks ser forkerte ud, og ingen ved hvorfor.

Almindelige fejltilstande

I nogenlunde rækkefølge efter hvor ofte de rammer et 4-GPU eller 8-GPU rack-build:

Nedtræning til Gen3 under belastning. Kortet starter ved Gen4 x16; kabinettet varmes op, kontaktmodstanden i stikket stiger, øjemarginen lukker, linket omskoles og stabiliseres ved Gen3. Båndbreddetest viser ~12 GB/s, hvor 24 GB/s forventes. Årsag: marginal passiv riser, normalt et langt bånd.

Periodisk afbrydelse. GPU'en forsvinder fra nvidia-smi Midt i et job, normalt med AER-meddelelser. Stikket sidder fast under termisk cykling, nogle gange et strømproblem, nogle gange en marginal åbning i loddeforbindelsen under varme.

Bredden falder fra x16 til x8 eller x4. En eller to baner er for støjende at køre i, forbindelse dukker op på overlevende. Synlig i lspci.

Fejl i toget under opstart. Kortet vises simpelthen ikke. Kabelfejl eller en dead riser.

Rettelige AER-fejl, der oversvømmer dmesg. Fejlretning af hardware undervejs; ét skridt fra nedlukning. Advarselsskud — reparer det, før det bliver værre.

Strømrelateret fejl. Nogle risers sender 75 W fra sloten gennem kablet. Tynde ledere betyder, at en GPU under vedvarende belastning kortvarigt får strømafbrydelser, spændingsdyk og linkfald. Sjældent på fabriksrisers, almindeligt på billige fladkabler.

Sådan diagnosticeres

Tre standard Linux-værktøjer: nvidia-smi, lspci, dmesg.

Faktisk linkbredde og -hastighed:

$ nvidia-smi --query-gpu=index,pcie.link.gen.current,pcie.link.width.current --format=csv
0, 4, 16
1, 4, 16
2, 3, 16     ← train-down
3, 4, 16

GPU 2 er på Gen3, ikke Gen4 — dens riser skal undersøges.

Fra PCIe-siden:

$ sudo lspci -vvv -s <bus:dev.fn> | grep -E "LnkCap|LnkSta"
    LnkCap: Speed 32GT/s, Width x16
    LnkSta: Speed 16GT/s (downgraded), Width x16

(downgraded) kører tell —-linket nedenfor.

Kernel ring for AER-fejl:

$ sudo dmesg -T | grep -iE "aer|pcie"
pcieport 0000:60:01.0: AER: Corrected error received: 0000:61:00.0

Rettede fejl er ikke fatale endnu, men indikerer en marginal sammenhæng. Kør vedvarende belastning og hold øje med hastigheden; hvis den stiger, svigter stigrøret.

For at isolere kort vs. riser, skal du udskifte den mistænkte GPU til en kendt fungerende slot. Symptomet flytter sig med kortet → kort. Forbliver ved slot → riser.

Konkrete eksempler fra virkelige byggeri

4-GPU: 4× RTX 5090, EPYC Genoa, 4U-kabinet

Bundkortet har 4× Gen5 x16 GPU'er fladt monteret i en holder 220 mm fra slotten. Fabrikssæt fra leverandør: MCIO Gen5-kabler til små riser-printkort, der repræsenterer PCIe-kantstikket på GPU'en.

Resultat: 4× Gen5 x16, nul AER over en 72-timers Qwen2.5-VL 72B-kørsel. PCIe-båndbredde pr. GPU 47-49 GB/s (teoretisk Gen5 x16 ≈ 63 GB/s; i virkeligheden ≈ 50 GB/s efter protokoloverhead). Rent, fordi vi brugte leverandørkittet som specificeret.

8-GPU: 8× RTX Pro 6000 Blackwell, EPYC Turin Dual, 4U-kabinet

To CPU'er, hver med 4× Gen5 x16 root-komplekser, der er ført gennem MCIO til et mid-chassis printkort. Lige bifurkation — hver GPU får x16 fra CPU'en. MCIO-kabel pr. GPU ≈ 280 mm.

Dette er på grænsen til ren MCIO ved Gen5. To af de otte kabler i leverandørkittet har in-line retimere; de ​​andre seks er passive. De to længst væk fra CPU'erne har brug for marginen, de seks tættere på har ikke. Leverandøren karakteriserede dette på en termisk belastet rig før afsendelse.

Resultat: 8× Gen5 x16 stabil. Vægeffekt 4.1 kW under vedvarende belastning. Ingen genoptræning over 48 timer.

Samme konstruktion, gør-det-selv-riser

Samme chassis og GPU'er, men tredjeparts "Gen5-klassificerede" båndrisere fra en generisk leverandør:

  • To ud af otte GPU'er trænede på Gen4 x16 i stedet for Gen5.
  • En GPU faldt periodisk fra hinanden under vedvarende belastning.
  • ~15% forringelse af gennemløbshastighed i forhold til fabriksbygget kit.

Omkostningsbesparelse: ~€600. Fejlfindingsomkostninger: tre teknikerdage. Gennemløbsstraf: permanent. Gør ikke dette.

Overvejelsen om strømforsyning med dobbelt strømforsyning

Et rack med 4 GPU'er bruger 1.8-2.4 kW under belastning; et rack med 8 GPU'er bruger 3.5-4.5 kW. De fleste rackchassis på dette niveau leveres med 2× 2 kW ATX-strømforsyninger.

Dobbelt strømforsyning i et K-AI-kabinet er delt levering, ikke N+1 redundans. Hver strømforsyningsenhed forsyner en defineret del af systemet – typisk forsyner strømforsyningsenhed 1 fire GPU'er og bundkortet, mens strømforsyningsenhed 2 forsyner de andre fire GPU'er (eller fire GPU'er plus drevkabinettet). Hvis én strømforsyning svigter, mister du den del, den forsynede. Intet derimellem. Ingen rail-sharing, ingen failover.

Dette er vigtigt for risers: 75 W på slot-siden kommer nogle risers fra den strømforsyning, der forsyner den pågældende gruppe. At blande risers på tværs af strømforsyningsgrupper på en måde, som leverandøren ikke havde til hensigt, introducerer problemer med jordsløjfe og støj på PCIe-linket. Endnu en grund til at bruge fabrikssættet. Se W04 for det fulde billede af strømforsyningsstørrelsen.

Hvorfor fabrikstestede riser-sæt slår gør-det-selv

En chassisleverandør, der leverer et 4-GPU eller 8-GPU AI-rack, har brændt snesevis til hundredvis af disse builds ind. Riser-kittet er blevet termisk cyklet, link-testet ved worst-case omgivelsestemperatur, valideret mod den specifikke bundkorts PHY og normalt revideret én gang, når den første batch rammer et hjørnekabinet. Et gør-det-selv-bånd fra en generisk leverandør er blevet testet af en person med et oscilloskop ved stuetemperatur på ét referencekort, hvis overhovedet.

Prisdelta: et par hundrede euro på tværs af builden. Pålidelighedsdelta: enorm. Hver K-AI-build bruger riser-kits efter leverandørspecifikation. Vi prøvede alternativet én gang på kundens anmodning, og det kostede alligevel fejlfindingsdage, som kunden betalte for. Garantien er også vigtig - en GPU, der fejler på en ikke-godkendt riser, er ikke altid en garantisag.

MCIO er vejen frem hos Gen5

Konklusionen er på én linje: På Gen5 er PCIe-kantstikket det svage led, og MCIO erstatter det. Alle Gen5 8-GPU-racks, der er værd at specificere i dag, bruger MCIO end-to-end. Gen4-builds kan stadig bruge SlimSAS eller korte MCIO; Gen3-båndkabler er kun fine til Gen3-hardware.

Når du evaluerer en leverandørs Gen5 8-GPU-build, skal du stille tre spørgsmål:

  1. Hvordan ser kablerne mellem bundkortets PCIe og GPU ud? (MCIO skal nævnes.)
  2. Er nogen kabler udstyret med retimer – hvilke og hvorfor? (En leverandør, der kender deres konstruktion, giver et specifikt svar.)
  3. Hvad er den målte linktilstand og AER-hastighed på et fuldt besat, termisk belastet chassis? (8× Gen5 x16, nul eller næsten nul AER over 24+ timer.)

Vage svar betyder, at sælgeren ikke har udført arbejdet.

Hvad skal jeg gøre næste

Hvis du specificerer eller køber en AI-server:

  1. Brug chassisleverandørens fabrikstestede riser-kit til alle 4-GPU- eller 8-GPU-rackkonstruktioner. Brug ikke generiske risers fra tredjeparter.
  2. Kræver MCIO-kabler til Gen5. SlimSAS eller PCIe-edge ribbon er kun acceptabelt på Gen4.
  3. Efter idriftsættelse skal du køre de tre ovenstående diagnostiske kommandoer i tomgang og igen efter 30 minutters vedvarende belastning. Bekræft, at alle GPU'er har den forventede generation og bredde uden AER-fejl. Gem outputtet som din baseline.
  4. Hvis der opstår fejl som følge af nedbremsning eller AER i løbet af de første 48 timer, skal det straks gøres gældende. En marginal riser bliver ikke bedre med alderen. Leverandører med lager vil bytte en mistænkelig riser inden for garantiperioden.
  5. For kabinetter med to strømforsyninger skal du forstå opdelingen. Kend hvilken GPU-gruppe der går i dvale, hvis en strømforsyning fejler. Planlæg for en problemfri nedbrydning — vLLM og de fleste distribuerede træningsframeworks kan gendanne fra et delvist GPU-tab, men kun hvis du har skrevet gendannelsesstien.

De opfølgende artikler dækker PCIe-topologi og bifurkation (W02), strømforsyningsstørrelse (W04), og termiske materialer (W05). Risers er en af ​​tre eller fire ting, der adskiller et benchmark-fint build fra et 24/7 produktionsbuild. Få det rigtigt, og glem det så.


Dette er en del af Kentino Wiki, en referenceserie om AI-beregning, robotteknologi og de systemer, der forbinder dem. Kommentarer og rettelser er velkomne på info@kentino.com.