Byg dit eget AI-system: Den komplette 2026-guide til forbruger-GPU-hardware til lokale LLM'er
Del
Et dybdegående kig på VRAM-begrænsninger, Multi-GPU Pooling, PCIe-begrænsninger og floating point-ydeevne
Af Kentino.com Teknisk Team | Januar 2026
Introduktion: Hvorfor bygge dit eget AI-system?
AI-revolutionen sker ikke længere kun i datacentre. Med open source-modeller som DeepSeek R1, Qwen 3, Llama 4 og Gemma, der når hidtil usete muligheder, er det ikke bare blevet muligt – men også praktisk – at køre kraftfuld AI lokalt.
Men her er hage, som ingen fortæller dig: VRAM er konge, og alt andet er et kompromis.
Denne guide vil tage dig fra forvirret GPU-køber til informeret AI-systemarkitekt. Vi dækker alt fra single-GPU-opsætninger, der kører 8B parametermodeller, til multi-GPU-konfigurationer, der er i stand til at håndtere 70B+ parametergiganter. Uanset om du bygger en kodeassistent, en forskningsarbejdsstation eller en privat AI-server, har denne guide dig dækket.
Del 1: Forståelse af VRAM — Valutaen bag AI
Hvorfor VRAM er vigtigere end noget andet
Når du kører store sprogmodeller (LLM'er), er din GPU's VRAM (Video Random Access Memory) den mest kritiske specifikation. I modsætning til spil, hvor VRAM primært gemmer teksturer og billedbuffere, kræver AI-arbejdsbelastninger VRAM til:
- ModelvægteDe milliarder af parametre, der definerer AI'ens viden
- KV-cacheHukommelse der vokser med samtalens længde (kontekstvindue)
- AktiveringshukommelseMidlertidige beregninger under inferens
- System overheadCUDA-kerner, hukommelsesstyring, runtime-buffere
Den gyldne formel:
Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2
Examples:
- 8B model @ FP16 (2 bytes): 8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes): 8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes): 70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes): 70 × 0.5 × 1.2 = ~42 GB
Kvantiseringsrevolutionen
Kvantisering er den teknik, der gør det muligt at køre store modeller på forbrugerhardware. Ved at reducere præcisionen af modelvægte fra 16-bit (FP16) til 4-bit (Q4) kan du køre modeller, der ellers ville kræve hardware fra virksomheder.
| kvantisering | Bits pr. parameter | Hukommelsesreduktion | Kvalitetspåvirkning |
|---|---|---|---|
| FP16 | 16 bit (2 bytes) | Baseline | 100% |
| Q8_0 | 8 bit (1 byte) | 50% | ~ 99% |
| Q5_K_M | 5 bit (0.625 bytes) | 68% | ~ 97% |
| Q4_K_M | 4 bit (0.5 bytes) | 75% | ~ 95% |
| Q3_K_M | 3 bit (0.375 bytes) | 81% | ~ 90% |
Det optimale punkt: Q4_K_M-kvantisering giver 75 % hukommelsesbesparelse med kun ~5 % kvalitetstab – hvilket gør det til guldstandarden for forbrugerimplementering i 2026.
Del 2: GPU-landskabet i 2026
NVIDIA RTX 50-serien — Den nye standard
NVIDIAs Blackwell-arkitektur bringer betydelige forbedringer til AI-arbejdsbelastninger:
RTX 5090 — Flagskibsdyret
| Specification | RTX 5090 | RTX 4090 (Forrige generation) |
|---|---|---|
| VRAM | 32 GB GDDR7 | 24 GB GDDR6X |
| Hukommelsesbåndbredde | 1,792 GB / s | 1,008 GB / s |
| CUDA Cores | 21,760 | 16,384 |
| Tensorkerner | 680 (5. generation) | 512 (4. generation) |
| AI-TOPPER (INT8) | ~ 3,400 | ~ 1,300 |
| TDP | 575W | 450W |
| PCIe | 5.0 x16 | 4.0 x16 |
| MSRP | $1,999 | $1,599 |
Hvad 32 GB VRAM giver dig:
- Qwen3-32B @ Q4_K_M — komfortabelt
- DeepSeek R1 32B @ Q4_K_M — med plads til kontekst
- Llama 4 8B @ FP16 — fuld præcision
- 70B-modeller @ Q4_K_M — med aggressive kontekstbegrænsninger
RTX 5090's 78% båndbreddeforbedring i forhold til 4090 betyder hurtigere tokengenerering, hvilket er især vigtigt for større modeller, hvor hukommelsesbåndbredde bliver flaskehalsen.
RTX 5080 — Det praktiske valg
| Specification | RTX 5080 |
|---|---|
| VRAM | 16 GB GDDR7 |
| Hukommelsesbåndbredde | 960 GB / s |
| CUDA Cores | 10,752 |
| Tensorkerner | 336 (5. generation) |
| AI-TOPPER (INT8) | ~ 1,801 |
| TDP | 360W |
| MSRP | $999 |
Hvad 16 GB VRAM giver dig:
- Qwen3-14B @ Q4_K_M — fantastisk præstation
- DeepSeek R1 14B @ Q4_K_M — fremragende til kodning
- Llama 4 8B @ Q8_0 — høj kvalitet
- 32B-modeller @ aggressiv kvantisering — muligt, men stramt
RTX 5070 Ti — Budget AI Workhorse
| Specification | RTX 5070 Ti |
|---|---|
| VRAM | 16 GB GDDR7 |
| Hukommelsesbåndbredde | 896 GB / s |
| CUDA Cores | 8,960 |
| Tensorkerner | 280 (5. generation) |
| AI-TOPPER (INT8) | ~ 1,406 |
| TDP | 300W |
| MSRP | $749 |
RTX 5070 Ti tilbyder den samme 16 GB VRAM som 5080 til en 25 % lavere pris – hvilket gør den til den uden tvivl bedste værdi for dedikeret AI-arbejde, når rå tokenhastighed ikke er kritisk.
RTX 5070 — Indgangspunkt
| Specification | RTX 5070 |
|---|---|
| VRAM | 12 GB GDDR7 |
| Hukommelsesbåndbredde | 672 GB / s |
| CUDA Cores | 6,144 |
| TDP | 250W |
| MSRP | $549 |
12 GB-problemet: Selvom prisen på RTX 5070 er attraktiv, skaber 12 GB VRAM betydelige begrænsninger. Du vil støde på vægge med 14B+ modeller og længere kontekstvinduer. Betragt 5070 Ti's ekstra 4 GB som en essentiel forsikring.
Forrige generation stadig levedygtig
RTX 4090 — Stadig en udfordrer
RTX 4090 med 24 GB VRAM er fortsat fremragende til AI. Hvis du kan finde en til en god pris, håndterer den:
- 14B-modeller ved høj kvantisering
- 32B-modeller ved Q4_K_M (stramt)
- Flere 8B-modeller samtidigt
RTX 3090 / 3090 Ti — Budget Kings
Med 24 GB VRAM (samme som 4090) er disse ældre kort utrolig værdifulde for AI:
- Langsommere båndbredde (936 GB/s)
- Ældre Tensor-kerner (3. generation)
- Men den samme kapacitet på 24 GB
Hvis ren VRAM betyder mere end hastighed (f.eks. til batchbehandling eller udvikling), slår en brugt 3090 til $700-900 en ny 5070 til $549 til AI-arbejdsbelastninger.
Del 3: Forståelse af PCIe-begrænsninger
PCIe-båndbreddens virkelighed
PCIe (Peripheral Component Interconnect Express) er motorvejen mellem din GPU og resten af dit system. Her er hvad du behøver at vide:
| PCIe-version | Båndbredde pr. bane | x16 I alt | x8 I alt | x4 I alt |
|---|---|---|---|---|
| PCIe 3.0 | ~ 1 GB / s | ~ 16 GB / s | ~ 8 GB / s | ~ 4 GB / s |
| PCIe 4.0 | ~ 2 GB / s | ~ 32 GB / s | ~ 16 GB / s | ~ 8 GB / s |
| PCIe 5.0 | ~ 4 GB / s | ~ 64 GB / s | ~ 32 GB / s | ~ 16 GB / s |
Når PCIe betyder noget (og når det ikke gør)
PCIe er vigtig for:
- Første modelindlæsning (minutter sparet på store modeller)
- Multi-GPU-kommunikation (afgørende for tensorparallelisme)
- Blandet CPU/GPU-inferens (når modellen overføres til RAM)
PCIe betyder ikke så meget for:
- Enkelt-GPU-inferens efter indlæsning af modellen
- Lille modelinferens
- Langvarige sessioner, hvor indlæsningstiden er ubetydelig
Praktisk vejledning:
- Enkelt GPU: PCIe 4.0 x8 er normalt tilstrækkeligt
- Dobbelt GPU: PCIe 4.0 x16/x16 eller x8/x8 anbefales
- Quad GPU: PCIe 5.0 eller virksomhedsplatforme anbefales
CPU-banegrænser efter platform
| perron | Samlet antal PCIe-baner | Typisk konfiguration |
|---|---|---|
| Intel 14. generation (stationær) | 20 fra CPU + 4 fra chipset | 1 GPU x16 + NVMe |
| AMD Ryzen 9000 | 24 fra CPU'en | 1 GPU x16 + NVMe |
| AMD Threadripper PRO | 128 baner | 4 GPU'er x16 hver |
| Intel Xeon W | 64-112 baner | 2-4 GPU'er x16 hver |
Flaskehalsen på forbrugerplatformen: De fleste forbruger-CPU'er (Intel Core, AMD Ryzen) leverer kun 16-24 PCIe-baner fra CPU'en. Det betyder:
- Første GPU får fuld x16
- Tilføjelse af en anden GPU tvinger ofte begge til x8/x8
- Tredje og fjerde GPU'er kan køre ved x4
Til seriøst multi-GPU AI-arbejde, overvej Threadripper PRO- eller HEDT-platforme.
Del 4: Multi-GPU-konfigurationer — Pooling af VRAM
Drømmen vs. Virkelighed
Drømmen: Kombinér 4× RTX 5090'ere for 128 GB samlet VRAM, og kør de største modeller, som om de var på en H100.
Virkeligheden: Det er kompliceret, men i stigende grad muligt.
Sådan fungerer Multi-GPU for LLM'er
Der er to hovedtilgange:
Tensorparallelisme (TP)
Opdeler individuelle operationer (som matrixmultiplikationer) på tværs af flere GPU'er. Kræver kommunikation med høj båndbredde mellem GPU'er.
Bedst til: Højkapacitets inferens, latensfølsomme applikationer Krav: NVLink foretrækkes, minimum PCIe 4.0 x8 pr. GPU Støttet af: vLLM, TensorRT-LLM, DeepSpeed
Pipeline-parallelisme (PP)
Opdeler modellen i sekventielle faser, hvor hver GPU håndterer forskellige lag.
Bedst til: Tilpasning af store modeller, batchbehandling Krav: Moderat båndbredde mellem GPU'er Støttet af: llama.cpp, Ollama, de fleste frameworks
NVLink vs. PCIe — Den hårde sandhed
NVLink Leverer direkte GPU-til-GPU-kommunikation på ~900 GB/s (for NVLink 4.0). Det muliggør ægte hukommelsespooling, hvor GPU'er kan få direkte adgang til hinandens VRAM.
Problemet: Forbruger-RTX-kort understøtter ikke længere NVLink. De sidste NVLink-kompatible forbruger-GPU'er var RTX 3090/3090 Ti (NVLink 3.0 @ 112.5 GB/s tovejs).
Uden NVLink bruger multi-GPU-kommunikation PCIe:
- Meget langsommere (~32-64 GB/s vs. 900 GB/s)
- Højere latenstid
- Kan ikke pulje VRAM direkte
Praktisk effekt:
| Konfiguration | Forventet ydeevne |
|---|---|
| 1× RTX 5090 (32 GB) | Baseline |
| 2× RTX 5090 via PCIe | ~1.6-1.8x (ikke 2x) |
| 2× RTX 3090 via NVLink | ~1.8-1.9x |
| Virksomhed med NVLink | ~1.95x+ |
Få Multi-GPU til at fungere uden NVLink
Trods begrænsninger er multi-GPU-opsætninger på forbrugerhardware i stigende grad praktiske:
Anbefalet software:
- call.cppFremragende multi-GPU-understøttelse, opdeler lag på tværs af kort
- OllamaEnkel opsætning, automatisk lagfordeling
- vLLMHøjtydende servering, understøttelse af tensorparallelisme
- exllama2Optimeret til multi-GPU-inferens
Konfigurationstips:
- Sørg for, at begge GPU'er er på samme NUMA-node (tjek med
nvidia-smi topo -m) - Brug minimum x8/x8 PCIe til dobbelt GPU
- sæt
CUDA_VISIBLE_DEVICESkorrekt - Match GPU-modeller når det er muligt (blanding af generationer fungerer, men kan være ineffektivt)
Eksempler på multi-GPU-konfiguration
Dobbelt RTX 5090 (64 GB i alt)
Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓
Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)
Quad RTX 5090 (128 GB i alt)
Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓
Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)
Budgetversion: Dual RTX 3090 brugt (48 GB i alt)
Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)
Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!
Del 5: Dybdegående analyse af flydende komma-ydeevne
Præcisionsformater forklaret
Moderne AI bruger forskellige numeriske præcisionsformater:
| dannet | Bits | Rækkevidde | Use Case |
|---|---|---|---|
| FP32 | 32 | ±3.4×10^38 | Træning, høj præcision |
| FP16 | 16 | ± 65,504 | Inferens, afbalanceret |
| BF16 | 16 | ±3.4×10^38 | Træning, moderne GPU'er |
| FP8 | 8 | ±448 (E4M3) | Hurtig inferens |
| INT8 | 8 | -128 til 127 | Kvantiseret inferens |
| INT4 | 4 | -8 til 7 | Aggressiv kvantisering |
Blackwells FP4- og FP8-fordele
RTX 50-serien introducerer native FP4-understøttelse i Tensor Cores:
| Precision | RTX 4090 TOPS | RTX 5090 TOPS | Speedup |
|---|---|---|---|
| FP16 | 330 | 418 | 1.27x |
| FP8 | 660 | ~ 1,700 | 2.6x |
| FP4 | N / A | ~ 3,400 | Ny |
| INT8 | 660 | ~ 3,400 | 5.1x |
Hvad dette betyder:
- FP8- og FP4-inferens er dramatisk hurtigere på RTX 50-serien
- Modeller optimeret til FP8 oplever massive hastighedsforøgelser
- Tensor Core-generationer er lige så vigtige som CUDA-kerner
Hukommelsesbåndbredde — Den anden flaskehals
For store modeller betyder hukommelsesbåndbredde ofte mere end beregning:
Tokens/sekund er begrænset af:
Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter
RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum
RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum
Båndbreddeforbedringen på 78% i RTX 5090 oversættes direkte til hurtigere generering med store modeller.
Del 6: Landskabet med open source-modeller — Hvad skal man køre
Niveau 1: Flagskibsmodeller (32 GB+ VRAM anbefales)
Qwen3-235B-A22B (MoE)
- Aktive parametre: 22B (235B i alt)
- VRAM @ 4. kvartal: ~ 28 GB
- Kontekst: 32K native, 131K med YaRN
- Styrker: Matematik, kodning, flersproget (119 sprog)
- Bedst til: Generelt formål, kodning, forskning
DeepSeek R1 70B
- Parametre: 70B
- VRAM @ 4. kvartal: ~ 42 GB
- Kontekst: 128K
- Styrker: Ræsonnement, tankekæde, kodning
- Bedst til: Kompleks problemløsning, forskning
Lama 4 70B
- Parametre: 70B
- VRAM @ 4. kvartal: ~ 42 GB
- Kontekst: 128K
- Styrker: Generelle evner, instruktionsfølgende
- Bedst til: Alsidige applikationer
Niveau 2: Professionelle modeller (16-24 GB VRAM)
Qwen3-32B
- Parametre: 32B
- VRAM @ 4. kvartal: ~ 19 GB
- Kontekst: 128K
- Styrker: Kodning (matcher GPT-4o), ræsonnement
- Bedst til: Enkelt RTX 5090/4090, udvikling
DeepSeek R1 Destill 32B
- Parametre: 32B
- VRAM @ 4. kvartal: ~ 19 GB
- Styrker: Ræsonnement destilleret fra større model
- Bedst til: Omkostningseffektiv argumentation
Gemma 3 27B
- Parametre: 27B
- VRAM @ 4. kvartal: ~ 16 GB
- Kontekst: 128K
- Styrker: Effektiv, Google-kvalitet, multimodal
- Bedst til: RTX 5080/5070 Ti-versioner
Niveau 3: Forbrugermodeller (8-16 GB VRAM)
Qwen3-14B
- Parametre: 14B
- VRAM @ 4. kvartal: ~ 8.4 GB
- Kontekst: 128K
- Styrker: Fremragende balance mellem størrelse og kapacitet
- Bedst til: RTX 5070 Ti, 4070 Ti, almindelig brug
Qwen3-8B
- Parametre: 8B
- VRAM @ 4. kvartal: ~ 4.8 GB
- Kontekst: 32K native, 131K udvidet
- Styrker: Hurtig, kapabel, passer overalt
- Bedst til: Basisversioner, realtidsapplikationer
DeepSeek R1 Distill 14B (Qwen-base)
- Parametre: 14B
- VRAM @ 4. kvartal: ~ 8.4 GB
- Styrker: Stærk argumentation fra destillation
- Bedst til: Kodningsassistenter, problemløsning
Lama 4 8B
- Parametre: 8B
- VRAM @ 4. kvartal: ~ 4.8 GB
- Styrker: Hurtig, velafrundet
- Bedst til: Daglige opgaver, chatapplikationer
Niveau 4: Edge/Embedded (4-8 GB VRAM)
Qwen3-4B
- Parametre: 4B
- VRAM @ 4. kvartal: ~ 2.4 GB
- Styrker: Rivalernes Qwen2.5-7B ydeevne
- Bedst til: Bærbare computere, integreret grafik, edge-enheder
Phi-4 (Microsoft)
- Parametre: 14B
- VRAM @ 4. kvartal: ~ 8.4 GB
- Styrker: Enestående størrelse, STEM-fokus
- Bedst til: Uddannelsesmæssige, tekniske anvendelser
Qwen3-0.6B
- Parametre: 0.6B
- VRAM @ 4. kvartal: <1 GB
- Styrker: Kører overalt
- Bedst til: IoT, mobile, miljøer med ultralavt ressourceforbrug
Modelvalgsflowdiagram
What's your primary VRAM capacity?
├─ 32GB+ (RTX 5090, Dual 3090s)
│ └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
│
├─ 24GB (RTX 4090, 3090)
│ └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
│
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│ └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
│
├─ 12GB (RTX 5070, 4070 Ti)
│ └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
│
└─ 8GB (RTX 4070, 3070)
└─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant
Del 7: Komplette anbefalinger til systemopbygning
Byg 1: Indgangspunktet ($1,200-1,500)
Brug Case: Personlig AI-assistent, kodningshjælp, eksperimentering
| Component | Anbefaling | Noter |
|---|---|---|
| GPU | RTX 5070 Ti (16GB) | Bedste værdi for 16 GB |
| CPU | AMD Ryzen 7 9700X | 8 kerner, PCIe 5.0 |
| RAM | 32GB DDR5-6000 | Modelindlæsningsbuffer |
| Opbevaring | 2TB NVMe PCIe 4.0 | Hurtig modelladning |
| PSU | 750W 80+ Guld | Tilstrækkelig loftshøjde |
| Bundkort | B650 med PCIe 5.0 | Fremtidssikret |
Kan køre:
- Qwen3-14B @ Q4 (~8.4 GB) — fremragende
- DeepSeek R1 14B @ 4. kvartal — fremragende
- Qwen3-32B @ Q3 (aggressiv) — muligt, men tæt
- Flere 8B-modeller samtidigt
Estimeret ydeevne: 35-50 tokens/sekund med 14B-modeller
Bygge 2: Det optimale for prosumere ($3,500-4,500)
Brug Case: Professionel udvikling, research, indholdsskabelse
| Component | Anbefaling | Noter |
|---|---|---|
| GPU | RTX 5090 (32GB) | Maksimal VRAM for én GPU |
| CPU | AMD Ryzen 9 9950X | 16 kerner, høj single-thread |
| RAM | 64GB DDR5-6400 | Store kontekstvinduer |
| Opbevaring | 4TB NVMe Gen4 | Modelbibliotek |
| PSU | 1000W 80+ Guld | Kræves til 575W GPU |
| Bundkort | X670E | Komplet funktionssæt |
Kan køre:
- Qwen3-32B @ Q4 — komfortabel med 13 GB headroom
- DeepSeek R1 32B @ Q6 — højere kvalitet
- Qwen3-235B-A22B @ Q4 — stramt, men fungerer
- Enhver sub-32B-model i høj kvalitet
Estimeret ydeevne: 50-80 tokens/sekund med 32B-modeller
Bygge 3: Den lokale AI-server ($7,000-10,000)
Brug Case: Teaminferensserver, modeleksperimentering, produktionsarbejdsbelastninger
| Component | Anbefaling | Noter |
|---|---|---|
| GPU'er | 2× RTX 5090 (64 GB i alt) | Tensorparallelisme klar |
| CPU | AMD Threadripper 7960X | 24 kerner, 48 baner |
| RAM | 128 GB DDR5-5600 ECC | Fejlkorrektion for pålidelighed |
| Opbevaring | 8TB NVMe RAID 0 | Hurtig modelskift |
| PSU | 1600W 80+ Titanium | Dobbelt GPU-headroom |
| Bundkort | TRX50 | Fuld PCIe-baneunderstøttelse |
| Køling | Brugerdefineret loop | Termisk styring |
Kan køre:
- DeepSeek R1 70B @ 4. kvartal — fuld ydeevne
- Qwen3-235B-A22B @ Q4 — fremragende
- Enhver model under 120B parametre
- Flere 32B-modeller til A/B-testning
Estimeret ydeevne: 40-50 tokens/sekund med 70B-modeller
Bygge 4: Budgetlaboratoriet (brugtmarked 2,000-2,500 dollars)
Brug Case: Læring, udvikling, omkostningsbevidst entusiast
| Component | Anbefaling | Noter |
|---|---|---|
| GPU'er | 2× RTX 3090 (48 GB i alt) | NVLink-kompatibel! |
| CPU | AMD Ryzen 9 5950X | Tidligere generationsværdi |
| RAM | 64GB DDR4-3600 | Stadig i stand til |
| Opbevaring | 2TB NVMe | Modelopbevaring |
| PSU | 1200W 80+ Guld | Dobbelte 350W GPU'er |
| Bundkort | X570 med 2× x16 | NVLink-understøttelse |
| NVLink-broen | RTX 3090 NVLink | ~80 kr. brugt |
NVLink-fordelen: Dette er den eneste forbrugerkonfiguration med NVLink-understøttelse, der giver ægte VRAM-pooling ved 112.5 GB/s vs. PCIe'er på ~32 GB/s.
Kan køre:
- Qwen3-32B @ Q8 (højere kvalitet) — komfortabel
- DeepSeek R1 32B @ FP16 — med omhyggelig kontekststyring
- 70B-modeller @ aggressiv Q3 — muligt
Estimeret ydeevne: 25-35 tokens/sek. med 32B-modeller (hurtigere end forventet på grund af NVLink)
Byg 5: Den bærbare kraftpakke (bærbar)
Brug Case: Mobil AI-udvikling, inferens på farten
| Spec | Anbefaling |
|---|---|
| GPU | RTX 5090 Mobil (24GB) |
| CPU | Intel Core Ultra 9 / AMD Ryzen 9 |
| RAM | 64GB |
| Opbevaring | 2TB NVMe |
| Skærm | 16 "2560 × 1600 |
Bemærkelsesværdige modeller:
- ASUS ROG Strix SCAR 18 (2026)
- Razer Blade 18 (2026)
- MSI Titan GT78 (2026)
Kan køre:
- Qwen3-14B @ Q4 — fremragende
- DeepSeek R1 14B @ 4. kvartal — fremragende
- Qwen3-32B @ Q4 — stramt, men fungerer
Bemærk: Mobile RTX 5090 har 24 GB (ikke 32 GB) og lavere TDP. Forvent ~70% af desktop-ydeevne.
Del 8: Anbefalinger til softwarestak
Væsentlige værktøjer
Ollama — Den nemme knap
# Install
curl -fsSL https://ollama.ai/install.sh | sh
# Run Qwen3 8B
ollama run qwen3:8b
# Run with specific quantization
ollama run qwen3:14b-q4_K_M
# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b
Bedst til: Introduktion, enkle implementeringer, API-visning
LM Studio — GUI-oplevelsen
- Visuel modelbrowser
- Et-klik downloads
- Indbygget chat-grænseflade
- Kvantiseringsvalg
Bedst til: Ikke-tekniske brugere, modeludforskning
llama.cpp — Maksimal kontrol
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
-ngl 99 \
--tensor-split 0.5,0.5 \
-c 8192
Bedst til: Avancerede brugere, brugerdefinerede implementeringer, maksimal ydeevne
vLLM — Produktionsservering
# Install
pip install vllm
# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3-32B \
--tensor-parallel-size 2 \
--dtype auto
Bedst til: Højkapacitetsvisning, API-slutpunkter, produktion
Modelkilder
| Kilde | URL | Noter |
|---|---|---|
| Knusende ansigt | huggingface.co | Officielle udgivelser |
| Ollama Bibliotek | ollama.com/bibliotek | Forkvantificeret, nemt |
| TheBloke (HF) | huggingface.co/TheBloke | GGUF-kvantiseringer |
| LM Studio Hub | lmstudio.ai | Kurateret udvalg |
Del 9: Optimeringstips
VRAM-optimering
- Brug Q4_K_M kvantisering — Den bedste balance mellem størrelse og kvalitet
- Begræns kontekstlængde — 8K i stedet for 32K sparer ~40% VRAM
- Deaktiver KV-cache til enkeltstående prompter
- Brug Flash Attention 2 — Reducerer hukommelsen for lange kontekster
- Aktiver hukommelseseffektiv inferens i vLLM
Hurtigoptimering
- Maksimer GPU-hukommelsesbåndbredden — Hurtigere RAM = hurtigere tokens
- Brug FP8, når det er muligt — 2-3x hastighedsforøgelse på RTX 50-serien
- Aktivér spekulativ afkodning — Brug en lille model til at accelerere en stor
- Batchanmodninger — Højere kapacitet ved servering
- Brug kontinuerlig batching (vLLM) — Dynamisk anmodningshåndtering
Multi-GPU-optimering
- Match GPU-modeller — Undgå at blande generationer
- Tjek NUMA-topologien — Samme node = lavere latenstid
- Brug mindst x8 baner — x4 skaber flaskehalse
- Skærm med nvidia-smi — Vær opmærksom på ubalanceret udnyttelse
- Test forskellige TP/PP-konfigurationer — Optimal varierer afhængigt af modellen
Del 10: Fejlfinding af almindelige problemer
"CUDA er løbet tør for hukommelse"
årsager:
- Modellen er for stor til VRAM
- Kontekstvinduet er for langt
- KV cache vækst
Løsninger:
- Brug mere aggressiv kvantisering (Q4 → Q3)
- Reducer kontekstlængden
- Reducer batchstørrelsen
- Aktivér flash-opmærksomhed
- Opdelt på tværs af flere GPU'er
Langsom tokengenerering
årsager:
- Begrænset hukommelsesbåndbredde
- CPU-aflastning aktiv
- termisk drosling
Løsninger:
- Sørg for, at modellen passer fuldstændigt i VRAM
- Tjek GPU-temperaturen (mål <85°C)
- Brug en mindre model
- Aktivér GPU-ydeevnetilstand
- Forbedr luftstrømmen i kabinettet
Multi-GPU skalerer ikke
årsager:
- PCIe båndbreddeflaskehals
- Forkert lagdeling
- Problemer med NUMA-afstand
Løsninger:
- Check (Skak)
nvidia-smi topo -mtil topologi - Juster tensoropdelingsforhold
- Sørg for x8+ PCIe pr. GPU
- Overvej NVLink (RTX 3090)
- Brug pipeline-parallelisme i stedet for tensor
Konklusion: At træffe det rigtige valg
Det er mere tilgængeligt end nogensinde at bygge et lokalt AI-system i 2026. Her er opsummeringen:
Hurtige anbefalinger:
| budget | Bedste valg | Vigtigste fordel |
|---|---|---|
| $ 500-800 | Brugt RTX 3090 | 24 GB VRAM, NVLink-kompatibel |
| $ 750-1000 | RTX 5070 Ti | Ny, 16 GB, effektiv |
| $ 1000-1500 | RTX 5080 | 16 GB, hurtigere |
| $ 2000 + | RTX 5090 | 32 GB, flagskib |
| $ 4000 + | Dobbelt RTX 5090 | 64 GB, 70 GB modeller |
De gyldne regler:
- VRAM > Alt andet — Mere hukommelse = flere modelmuligheder
- Kvantisering er din ven — Q4_K_M er det optimale punkt
- Multi-GPU har aftagende afkast — Uden NVLink, forvent ~1.6x fra 2 GPU'er
- Hukommelsesbåndbredden er vigtig — Især til store modeller
- Start småt, skalér op — Test dine arbejdsbyrder, før du investerer
Open source AI-økosystemet udvikler sig hurtigt. Modeller, der for to år siden krævede hardware til 100 dollars, kører nu på systemer til 2 dollars. Uanset hvad du bygger i dag, vil det kun blive mere effektivt, efterhånden som modellerne bliver mere effektive.
Velkommen til den personlige AI-tidsalder.
For hardwareanbefalinger og tilgængelighed, besøg Kentino.com
Bilag: Oversigtstabeller
Krav til model VRAM (Q4_K_M)
| Model | Driftsparametre | VRAM @ 4. kvartal | Minimum GPU |
|---|---|---|---|
| Qwen3-0.6B | 0.6B | ~ 0.5 GB | Enhver |
| Qwen3-4B | 4B | ~ 2.4 GB | GTX 1650 |
| Qwen3-8B | 8B | ~ 4.8 GB | RTX 3060 |
| Qwen3-14B | 14B | ~ 8.4 GB | RTX 4070 |
| Qwen3-32B | 32B | ~ 19 GB | RTX 4090 |
| Qwen3-235B-A22B | 235B (22B aktiv) | ~ 28 GB | RTX 5090 |
| DeepSeek R1 70B | 70B | ~ 42 GB | 2× RTX 5090 |
| Lama 4 405B | 405B | ~ 243 GB | 8× RTX 5090 |
GPU-sammenligning for AI
| GPU | VRAM | båndbredde | AI-TOPPER | TDP | MSRP |
|---|---|---|---|---|---|
| RTX 5090 | 32GB | 1,792 GB / s | ~ 3,400 | 575W | $1,999 |
| RTX 5080 | 16GB | 960 GB / s | ~ 1,801 | 360W | $999 |
| RTX 5070 Ti | 16GB | 896 GB / s | ~ 1,406 | 300W | $749 |
| RTX 5070 | 12GB | 672 GB / s | ~ 988 | 250W | $549 |
| RTX 4090 | 24GB | 1,008 GB / s | ~ 1,300 | 450W | $1,599 |
| RTX 3090 | 24GB | 936 GB / s | ~ 285 | 350W | ~800 kr. brugt |
Sidst opdateret: januar 2026 Artikel udarbejdet af Kentino Technical Team