NVLink og NVSwitch: Når det er vigtigt, og hvorfor det normalt ikke er det for Kentinos sortiment
Et tilbagevendende spørgsmål i indbakken: En kunde, der skal dimensionere en 4× eller 8× GPU-server, ser NVIDIAs DGX-markedsføring prale med NVLink-båndbredde i terabyte pr. sekund og spørger, om Kentino-buildet "har NVLink". Det ærlige svar er nej, ingen af vores builds har det - og for de arbejdsbyrder, kunden rent faktisk har, er det fint. Denne artikel uddyber hvorfor.
NVLink er virkelig imponerende i toppen af serien og fraværende alle andre steder. Markedsføringen trækker ikke en klar grænse, så købere betaler enten for meget for et fabric, de ikke har brug for, eller for lidt, da de tror, at PCIe er en trinvis nedgradering af funktioner på tværs af linjen. Ingen af delene er sandt. Grænsen er skarp og sidder et specifikt sted.
Hvad NVLink egentlig er
NVLink er en punkt-til-punkt GPU-til-GPU-forbindelse med høj båndbredde, der omgår værtens PCIe-rodkompleks. To GPU'er med en NVLink-forbindelse flytter tensorer direkte over linket uden at hoppe gennem CPU-hukommelse og uden at konkurrere med noget andet på PCIe-træet. Det er hele pointen.
Båndbreddefordelen i forhold til PCIe er betydelig. PCIe Gen5 x16 — det nuværende loft for et forbruger- eller arbejdsstationsslot — giver omkring 64 GB/s i hver retning, 128 GB/s samlet. NVLink 5 på B200 og GB200 giver 1.8 TB/s samlet pr. GPU, cirka 14× et PCIe Gen5 x16-slot.
Denne sammenligning er misvisende i det øjeblik, man skriver den ned, fordi GPU'er med NVLink 5 ikke er GPU'er med PCIe Gen5 x16 som deres primære forbindelse. NVLink findes på datacenter-SKU'er (A100, H100, H200, B200, GB200); PCIe er den eneste vej på forbruger- og arbejdsstations-SKU'er (4090, 5090, RTX Pro 6000 Blackwell, L40, L4). "NVLink versus PCIe" betyder i praksis "H100-linjen versus resten".
NVLink-generationer i et overblik
| Generation | GPU | Links pr. GPU | Aggregeret antal pr. GPU | År |
|---|---|---|---|---|
| NVLink 2 | V100 (Volta) | 6 | 300 GB / s | 2017 |
| NVLink 3 | A100 (Ampere) | 12 | 600 GB / s | 2020 |
| NVLink 4 | H100 / H200 (Tragt) | 18 | 900 GB / s | 2022 |
| NVLink 5 | B200 / GB200 (Blackwell DC) | 18 | 1.8 TB / s | 2024 |
Antallet af links voksede fra generation 2 til 4, og derefter fordobledes båndbredden pr. link fra generation 4 til 5 (50 GB/s til 100 GB/s). Derfor ligner NVLink 5 et afgørende skridt – det er det.
PCIe i en Kentino-build:
| Standard | Pr. retning x16 | Aggregat x16 |
|---|---|---|
| PCIe Gen4 x16 | 32 GB / s | 64 GB / s |
| PCIe Gen5 x16 | 64 GB / s | 128 GB / s |
I værste fald (Gen4) er PCIe ~1/14 af NVLink 4. I bedste fald (Gen5) er PCIe ~1/14 af NVLink 5. Forholdet er nogenlunde konstant i NVIDIAs design.
Den ærlige del: Kentinos udvalg har ikke NVLink
| GPU | Formfaktor | NVLink? |
|---|---|---|
| RTX 4090 | PCIe | Ingen |
| RTX 5090 | PCIe | Ingen |
| RTX Pro 6000 Blackwell (WS/Server/Max-Q) | PCIe | Ingen |
| L40 / L40S | PCIe | Ingen |
| L4 | PCIe | Ingen |
| Intel Arc Pro B70 | PCIe | n / a |
NVIDIA fjernede NVLink-fingeren fra forbruger-GeForce startende med Ada Lovelace. 3090 var det sidste forbrugerkort med en fungerende bridge; 4090 droppede den, og 5090 har ingen. Den angivne årsag var "brugere ønsker båndbredde inden for en enkelt GPU, ikke mellem to af dem" - hvilket bekvemt stemte overens med træningskunder, der betaler datacenterpriser for båndbredde mellem GPU'er.
Det interessante tilfælde er RTX Pro 6000 Blackwell — et 96 GB arbejdsstation-og-server-kort på samme Blackwell-silicium som B200, det oplagte valg af "seriøs GPU-hukommelse uden at skulle overgå til B200". Det har heller ingen NVLink. Hverken på arbejdsstationen, hverken på serveren eller på Max-Q. Ingen bridge-stik på printkortet. NVIDIAs datablade angiver, at NVLink ikke understøttes på tværs af alle tre SKU'er.
Dette er den bevidste segmenteringslinje. NVLink betyder at opgradere til H100, H200, B200 eller GB200 — SXM-formfaktor, HGX-bundkort, andet chassis, anden køling, allokering som Kentino ikke har. Hvis du virkelig har brug for NVLink, så tal med en HGX-systemleverandør.
Hvad du mister uden NVLink
Straffen viser sig i to specifikke arbejdsbelastningsmønstre:
- Tensorparallelisme på tværs af GPU'er. Når en model er for stor til én GPU, og du opdeler hvert lags vægtmatrix på tværs af kort, kræver hvert transformerlag en AllReduce på tværs af shards. AllReduce er båndbredde-tung og latenstidsfølsom. PCIe er flaskehalsen.
- Distribueret træning med finkornet gradientsynkronisering. DDP-, FSDP- og Megatron-lignende træning udfører gradient AllReduces for hvert trin. Jo mindre beregning pr. trin er, og jo større modellen er, desto mere dominerer forbindelsen væguret.
Alt andet – enkelt-GPU-inferens, pipeline-parallelisme, data-parallelisme, indlejringer, vision-inferens, ASR, TTS, generering af diffusionsbilleder, finjustering af en model, der passer til én GPU – kører fint på PCIe. NVLink er irrelevant.
Målt TP-skalering for en 70B-klasse LLM ved INT4/INT8, fra publicerede 3090/4090/L40S benchmarks:
| Konfiguration | TP-skalering | Noter |
|---|---|---|
| 2× GPU, NVLink (3090 + bro) | ~0.90-0.95 | Næsten lineær |
| 2× GPU, PCIe Gen4 | ~0.60-0.70 | Betydeligt tab |
| 2× GPU, PCIe Gen5 | ~0.65-0.75 | Bedre, stadig flaskehals |
| 4× GPU, PCIe Gen5 | ~0.50-0.65 | AllReduce omkostninger vokser |
| 8× GPU, PCIe Gen5 | ~0.40-0.55 | TP bliver smertefuldt |
Læses som intervaller, ikke løfter – nøjagtige tal afhænger af model, batchstørrelse, sekvenslængde, kvantisering, NUMA-topologi og slotplacering. Formen er reel: PCIe tensor parallel skalerer sublineært, og straffen vokser med GPU-antallet. Derfor anbefaler vLLM's egen dokumentation parallel pipeline frem for parallel tensor på PCIe-only-systemer over to GPU'er.
Den praktiske erstatning: behold modellen på én GPU
Den undervurderede kendsgerning om det nuværende GPU-landskab: et RTX Pro 6000 Blackwell har 96 GB VRAM på et enkelt kort - nok til at hoste en 70B ved INT4 eller INT8 i én GPU med KV-cacheplads. Hvis man undgår at opdele en model på tværs af GPU'er overhovedet, er NVLink irrelevant.
| Model | Quant | VRAM | En Pro 6000? |
|---|---|---|---|
| 7B/8B | INT4 | ~ 5 GB | Ja, mange eksemplarer |
| 13B | INT4 | ~ 9 GB | Ja, mange eksemplarer |
| 32B | INT4 | ~ 20 GB | Ja, 4 gange samtidig |
| 70B (Llama 3.3, Qwen) | INT4 | ~ 42 GB | Ja, plus KV-cache |
| 70B | INT8 | ~ 75 GB | Ja, stramt |
| Qwen2.5-VL 72B | INT4 | ~ 48 GB | Ja |
| 405B (Lama 3.1) | INT4 | ~ 240 GB | Nej — 3 kort |
| Mixtral 8×22B | INT4 | ~ 80 GB | Tæt, ét kort |
Hosting med ét kort er den rette arkitektur for næsten alle modeller, der er værd at betjene i 2026. Undtagelser: meget store, tætte modeller (405B, GPT-OSS 120B) og MoE-layouts, hvor det aktive ekspertsæt passer til ét kort, men det fulde vægtsæt ikke gør.
For multikort på PCIe er det rigtige valg rørlednings parallelitet, ikke tensorparallelisme. Pipeline parallel opdeler lag i lange sammenhængende blokke (GPU 0 indeholder lag 0-39, GPU 1 indeholder 40-79 osv.). Inter-GPU trafik er blot aktiveringstensoren ved hver blokgrænse - et par hundrede KB pr. token, ikke gigabyte pr. lag.
| Parallelismetilstand | Inter-GPU-trafik pr. lag | Følsom over for sammenkobling? |
|---|---|---|
| Tensor parallel | Aktivering × skjult dim, hvert lag | Ja — ønsker NVLink |
| Parallel rørledning | Aktivering kun ved blokgrænser | Nej — PCIe er fint |
| Parallelle data | Gradienter ved tringrænse (kun træning) | Moderat |
| Ekspertparallel (MoE) | Alt-i-alt på ekspertruteføring | Ja — NVLink hjælper |
På en 8× 5090-server, der betjener en 70B, opdeler du ikke modellen på tværs af alle otte kort. Du kører to instanser med 4-vejs pipeline parallelt, eller fire instanser med 2-vejs pipeline, eller – mest almindeligt – otte uafhængige instanser af en mindre model bag en load balancer. 8×-serveren bliver en gennemløbsmultiplikator med otte replikaer i stedet for én enorm virtuel GPU. Til produktionsinferens er replikaarkitekturen normalt det rigtige svar uanset NVLink-tilgængelighed: mere samtidighed, elegant nedbrydning, når et kort fejler.
Når NVLink virkelig betyder noget
Arbejdsbyrder hvor fraværet af NVLink er et reelt problem, ikke et marketingproblem:
- Træner en model, der ikke passer på én GPU. Forudtræning eller fuld finjustering af en 70B+ tæt model kræver, at modellen er opdelt på tværs af GPU'er med gradient AllReduces i hvert trin. NVLink er forskellen mellem en produktiv 8-GPU rig og fire kort, der for det meste venter på bussen.
- Tensor parallel inferens på meget store tætte modeller. Hvis du har brug for 405B serveret på tværs af GPU'er og ikke kan acceptere pipeline-parallel latency-per-token, er NVLink vigtig.
- MoE med ekspertrouting på tværs af GPU'er. MoE alt-til-alt er brutalt på PCIe. DeepSeek-V3, Mixtral 8×22B og lignende dense-via-MoE designs drager tydeligvis fordel af det.
- Højfrekvente RLHF / GRPO-sløjfer. Politik-/referencesynkronisering gentaget tusindvis af gange pr. epoch rammer den samme AllReduce-omkostning.
- Multi-GPU diffusionstræning i stor skala. Nogle større videodiffusionsmodeller har tensor-parallelle-lignende aktiveringsmønstre.
Hvis din arbejdsbelastning er på denne liste, så køb ikke en Kentino 8× 5090-server og forvent DGX H100-adfærd. Køb et HGX-system, eller lej H100/B200 i skyen til træningsfasen og bring vægtene tilbage on-prem til inferens. Det er en helt fornuftig arbejdsgang, som vi varmt kan anbefale.
NVSwitch: chassis-niveau-strukturen
NVLink er punkt-til-punkt — GPU A til GPU B over et bundt af links. Over to GPU'er i et chassis giver du enten hvert par sin egen dedikerede NVLink (skalerer ikke ud over fire) eller placerer en NVLink-switch i midten. NVIDIAs NVSwitch er den switch.
På et HGX H100 8-GPU baseboard giver fire NVSwitch-chips hver GPU fuld båndbredde NVLink 4 til alle andre GPU'er - 900 GB/s, alt-til-alt, ingen konkurrence. På et GB200 NVL72 rack skalerer NVSwitch på tværs af 72 GPU'er i en enkelt ikke-blokerende topologi, 1.8 TB/s pr. GPU, 130 TB/s aggregeret. NVSwitch er det, der får "én stor virtuel GPU" til rent faktisk at fungere; uden det er NVLink bare et hurtigere parvis kabel.
Praktisk:
- Ingen NVSwitch i nogen Kentino-build. NVSwitch leveres kun i NVIDIA-certificerede HGX og DGX. Ingen eftermarkedschips kan monteres i et Supermicro- eller Bone64c-kabinet.
- Ingen NVSwitch i noget RTX-kort nogensinde. Kun for datacenter.
- GB200 NVL72 er rack-skala, ikke server-skala. 72 GPU'er samarbejder via kobberkabelforbundet NVLink ved backplane-hastigheder. Kabler, switche og backplane er alle NVIDIA-proprietære. Listeprisen løber op i millioner af amerikanske dollars med leveringstider over flere kvartaler. Den høje ende af, hvad NVLink muliggør i 2026. Ikke for os.
Omkostninger og tilgængelighed
NVLink-kompatible systemer har deres eget prisniveau. Omtrentlig marked medio 2026, USA/EU:
| Systemklasse | GPU'er | Listeprisinterval | Bly tid |
|---|---|---|---|
| 4× RTX 5090 (Kentino-klasse) | 4 | 25–40 euro | 2-4 uger |
| 8× RTX 5090 (Kentino-klasse) | 8 | 50–80 euro | 3-6 uger |
| 4× RTX Pro 6000 Blackwell | 4 | 60–90 euro | 3-6 uger |
| 8× RTX Pro 6000 Blackwell | 8 | 120–180 euro | 4-8 uger |
| HGX H100 SXM (8× H100, NVSwitch) | 8 | 250–350 euro | 8-16 uger |
| HGX B200 SXM (8× B200, NVSwitch) | 8 | 400–550 euro | 12-24 uger |
| GB200 NVL72 (72× B200) | 72 | €3 mio.–€4 mio.+ | 6–12 måneder |
Prisforskellen mellem en Kentino 8× Pro 6000 build og en HGX H100 er omtrent 2× for det samme nominelle GPU-antal. Ydelsesforskellen for ikke-NVLink-afhængige workloads er meget mindre end 2×. Til NVLink-afhængigt arbejde (træning af store modeller, tensor parallel på 405B) er H100-boksen det rigtige værktøj, og prisen er berettiget. Tommelfingerregel: Hvis din workload passer til én 96 GB GPU, sparer Pro 6000 build 50%+ af budgettet. Hvis ikke, betal for NVLink.
Resumé
| Spørgsmål | Kentino-opstillingssvar |
|---|---|
| Har du et aktuelt kort med NVLink? | Ingen |
| Er der nogen nuværende builds med NVSwitch? | Ingen |
| Tensor-parallel en 70B? | Ja, ~0.6–0.7× skaleringsstraf over PCIe |
| Rørledningsparallel en 70B? | Ja, næsten lineær |
| Kan man få en 70B på ét kort? | Ja — RTX Pro 6000 Blackwell, 96 GB |
| Træne en 70B fra bunden? | Ikke effektivt — gå til cloud eller HGX |
| Server 405B tæt? | Kun pipeline-parallel på tværs af 3+ Pro 6000'ere |
| MoE i stor skala? | Mindre MoE ja; DeepSeek-klasse nej |
| Bygge en DGX-ækvivalent? | Ingen |
Hvad skal jeg gøre næste
Hvis du dimensionerer et system og er usikker på, om du har brug for NVLink, skal du løse problemet i denne rækkefølge:
- Skriv den største model ned, du skal betjene, med kvantisering. Hvis det passer til én GPU, er NVLink irrelevant. Stop.
- Hvis det ikke passer, så spørg om parallel rørledning er acceptabel. Pipeline tilføjer latenstid pr. token, men gennemløbshastigheden er fin. For batchinferens og de fleste chat-arbejdsbelastninger er det acceptabelt.
- Hvis parallel pipeline ikke er acceptabel (du har brug for minimum single-stream latency på en meget stor model), du har brug for tensor parallel. På PCIe betaler du en skat på 30-50%. Hvis den skat ødelægger din økonomi, er NVLink systemopgraderingen værd.
- Hvis du træner, er svaret næsten altid NVLink. At træne kompakte modeller over 13B på PCIe er en dårlig udnyttelse af GPU-timer. Lej NVLink i skyen eller køb HGX.
- Til slutning er et Pro 6000 Blackwell med ét kort eller et 4×/8× 5090 med flere replikaer normalt det rigtige svar. Det er det, de fleste af vores kunder køber, og det virker.
NVLink er ikke dårlig. Den er fremragende til det, den gør. NVIDIA har trukket en hård segmenteringslinje, og under denne linje er det rigtige arkitektoniske svar "vær mindre modeller, repliker horisontalt, brug pipeline parallel, når du skal opdele." Det er det, Kentino-serien er bygget til.
Opfølgninger: InfiniBand og RoCE til sammenkobling i klyngeskala (N02), skiftede klyngetopologier (N04), og PCIe-as-interconnect til små klynger (K07).
Dette er en del af Kentino Wiki, en referenceserie om AI-beregning, robotteknologi og de systemer, der forbinder dem. Kommentarer og rettelser er velkomne på info@kentino.com.