Byg dit eget AI-system: Den komplette 2026-guide til forbruger-GPU-hardware til lokale LLM'er

Byg dit eget AI-system: Den komplette 2026-guide til forbruger-GPU-hardware til lokale LLM'er

Et dybdegående kig på VRAM-begrænsninger, Multi-GPU Pooling, PCIe-begrænsninger og floating point-ydeevne

Af Kentino.com Teknisk Team | Januar 2026


Introduktion: Hvorfor bygge dit eget AI-system?

AI-revolutionen sker ikke længere kun i datacentre. Med open source-modeller som DeepSeek R1, Qwen 3, Llama 4 og Gemma, der når hidtil usete muligheder, er det ikke bare blevet muligt – men også praktisk – at køre kraftfuld AI lokalt.

Men her er hage, som ingen fortæller dig: VRAM er konge, og alt andet er et kompromis.

Denne guide vil tage dig fra forvirret GPU-køber til informeret AI-systemarkitekt. Vi dækker alt fra single-GPU-opsætninger, der kører 8B parametermodeller, til multi-GPU-konfigurationer, der er i stand til at håndtere 70B+ parametergiganter. Uanset om du bygger en kodeassistent, en forskningsarbejdsstation eller en privat AI-server, har denne guide dig dækket.


Del 1: Forståelse af VRAM — Valutaen bag AI

Hvorfor VRAM er vigtigere end noget andet

Når du kører store sprogmodeller (LLM'er), er din GPU's VRAM (Video Random Access Memory) den mest kritiske specifikation. I modsætning til spil, hvor VRAM primært gemmer teksturer og billedbuffere, kræver AI-arbejdsbelastninger VRAM til:

  1. ModelvægteDe milliarder af parametre, der definerer AI'ens viden
  2. KV-cacheHukommelse der vokser med samtalens længde (kontekstvindue)
  3. AktiveringshukommelseMidlertidige beregninger under inferens
  4. System overheadCUDA-kerner, hukommelsesstyring, runtime-buffere

Den gyldne formel:

Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2

Examples:
- 8B model @ FP16 (2 bytes):   8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes):   8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes):  70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes):  70 × 0.5 × 1.2 = ~42 GB

Kvantiseringsrevolutionen

Kvantisering er den teknik, der gør det muligt at køre store modeller på forbrugerhardware. Ved at reducere præcisionen af ​​modelvægte fra 16-bit (FP16) til 4-bit (Q4) kan du køre modeller, der ellers ville kræve hardware fra virksomheder.

kvantisering Bits pr. parameter Hukommelsesreduktion Kvalitetspåvirkning
FP16 16 bit (2 bytes) Baseline 100%
Q8_0 8 bit (1 byte) 50% ~ 99%
Q5_K_M 5 bit (0.625 bytes) 68% ~ 97%
Q4_K_M 4 bit (0.5 bytes) 75% ~ 95%
Q3_K_M 3 bit (0.375 bytes) 81% ~ 90%

Det optimale punkt: Q4_K_M-kvantisering giver 75 % hukommelsesbesparelse med kun ~5 % kvalitetstab – hvilket gør det til guldstandarden for forbrugerimplementering i 2026.


Del 2: GPU-landskabet i 2026

NVIDIA RTX 50-serien — Den nye standard

NVIDIAs Blackwell-arkitektur bringer betydelige forbedringer til AI-arbejdsbelastninger:

RTX 5090 — Flagskibsdyret

Specification RTX 5090 RTX 4090 (Forrige generation)
VRAM 32 GB GDDR7 24 GB GDDR6X
Hukommelsesbåndbredde 1,792 GB / s 1,008 GB / s
CUDA Cores 21,760 16,384
Tensorkerner 680 (5. generation) 512 (4. generation)
AI-TOPPER (INT8) ~ 3,400 ~ 1,300
TDP 575W 450W
PCIe 5.0 x16 4.0 x16
MSRP $1,999 $1,599

Hvad 32 GB VRAM giver dig:

  • Qwen3-32B @ Q4_K_M — komfortabelt
  • DeepSeek R1 32B @ Q4_K_M — med plads til kontekst
  • Llama 4 8B @ FP16 — fuld præcision
  • 70B-modeller @ Q4_K_M — med aggressive kontekstbegrænsninger

RTX 5090's 78% båndbreddeforbedring i forhold til 4090 betyder hurtigere tokengenerering, hvilket er især vigtigt for større modeller, hvor hukommelsesbåndbredde bliver flaskehalsen.

RTX 5080 — Det praktiske valg

Specification RTX 5080
VRAM 16 GB GDDR7
Hukommelsesbåndbredde 960 GB / s
CUDA Cores 10,752
Tensorkerner 336 (5. generation)
AI-TOPPER (INT8) ~ 1,801
TDP 360W
MSRP $999

Hvad 16 GB VRAM giver dig:

  • Qwen3-14B @ Q4_K_M — fantastisk præstation
  • DeepSeek R1 14B @ Q4_K_M — fremragende til kodning
  • Llama 4 8B @ Q8_0 — høj kvalitet
  • 32B-modeller @ aggressiv kvantisering — muligt, men stramt

RTX 5070 Ti — Budget AI Workhorse

Specification RTX 5070 Ti
VRAM 16 GB GDDR7
Hukommelsesbåndbredde 896 GB / s
CUDA Cores 8,960
Tensorkerner 280 (5. generation)
AI-TOPPER (INT8) ~ 1,406
TDP 300W
MSRP $749

RTX 5070 Ti tilbyder den samme 16 GB VRAM som 5080 til en 25 % lavere pris – hvilket gør den til den uden tvivl bedste værdi for dedikeret AI-arbejde, når rå tokenhastighed ikke er kritisk.

RTX 5070 — Indgangspunkt

Specification RTX 5070
VRAM 12 GB GDDR7
Hukommelsesbåndbredde 672 GB / s
CUDA Cores 6,144
TDP 250W
MSRP $549

12 GB-problemet: Selvom prisen på RTX 5070 er attraktiv, skaber 12 GB VRAM betydelige begrænsninger. Du vil støde på vægge med 14B+ modeller og længere kontekstvinduer. Betragt 5070 Ti's ekstra 4 GB som en essentiel forsikring.

Forrige generation stadig levedygtig

RTX 4090 — Stadig en udfordrer

RTX 4090 med 24 GB VRAM er fortsat fremragende til AI. Hvis du kan finde en til en god pris, håndterer den:

  • 14B-modeller ved høj kvantisering
  • 32B-modeller ved Q4_K_M (stramt)
  • Flere 8B-modeller samtidigt

RTX 3090 / 3090 Ti — Budget Kings

Med 24 GB VRAM (samme som 4090) er disse ældre kort utrolig værdifulde for AI:

  • Langsommere båndbredde (936 GB/s)
  • Ældre Tensor-kerner (3. generation)
  • Men den samme kapacitet på 24 GB

Hvis ren VRAM betyder mere end hastighed (f.eks. til batchbehandling eller udvikling), slår en brugt 3090 til $700-900 en ny 5070 til $549 til AI-arbejdsbelastninger.


Del 3: Forståelse af PCIe-begrænsninger

PCIe-båndbreddens virkelighed

PCIe (Peripheral Component Interconnect Express) er motorvejen mellem din GPU og resten af ​​dit system. Her er hvad du behøver at vide:

PCIe-version Båndbredde pr. bane x16 I alt x8 I alt x4 I alt
PCIe 3.0 ~ 1 GB / s ~ 16 GB / s ~ 8 GB / s ~ 4 GB / s
PCIe 4.0 ~ 2 GB / s ~ 32 GB / s ~ 16 GB / s ~ 8 GB / s
PCIe 5.0 ~ 4 GB / s ~ 64 GB / s ~ 32 GB / s ~ 16 GB / s

Når PCIe betyder noget (og når det ikke gør)

PCIe er vigtig for:

  • Første modelindlæsning (minutter sparet på store modeller)
  • Multi-GPU-kommunikation (afgørende for tensorparallelisme)
  • Blandet CPU/GPU-inferens (når modellen overføres til RAM)

PCIe betyder ikke så meget for:

  • Enkelt-GPU-inferens efter indlæsning af modellen
  • Lille modelinferens
  • Langvarige sessioner, hvor indlæsningstiden er ubetydelig

Praktisk vejledning:

  • Enkelt GPU: PCIe 4.0 x8 er normalt tilstrækkeligt
  • Dobbelt GPU: PCIe 4.0 x16/x16 eller x8/x8 anbefales
  • Quad GPU: PCIe 5.0 eller virksomhedsplatforme anbefales

CPU-banegrænser efter platform

perron Samlet antal PCIe-baner Typisk konfiguration
Intel 14. generation (stationær) 20 fra CPU + 4 fra chipset 1 GPU x16 + NVMe
AMD Ryzen 9000 24 fra CPU'en 1 GPU x16 + NVMe
AMD Threadripper PRO 128 baner 4 GPU'er x16 hver
Intel Xeon W 64-112 baner 2-4 GPU'er x16 hver

Flaskehalsen på forbrugerplatformen: De fleste forbruger-CPU'er (Intel Core, AMD Ryzen) leverer kun 16-24 PCIe-baner fra CPU'en. Det betyder:

  • Første GPU får fuld x16
  • Tilføjelse af en anden GPU tvinger ofte begge til x8/x8
  • Tredje og fjerde GPU'er kan køre ved x4

Til seriøst multi-GPU AI-arbejde, overvej Threadripper PRO- eller HEDT-platforme.


Del 4: Multi-GPU-konfigurationer — Pooling af VRAM

Drømmen vs. Virkelighed

Drømmen: Kombinér 4× RTX 5090'ere for 128 GB samlet VRAM, og kør de største modeller, som om de var på en H100.

Virkeligheden: Det er kompliceret, men i stigende grad muligt.

Sådan fungerer Multi-GPU for LLM'er

Der er to hovedtilgange:

Tensorparallelisme (TP)

Opdeler individuelle operationer (som matrixmultiplikationer) på tværs af flere GPU'er. Kræver kommunikation med høj båndbredde mellem GPU'er.

Bedst til: Højkapacitets inferens, latensfølsomme applikationer Krav: NVLink foretrækkes, minimum PCIe 4.0 x8 pr. GPU Støttet af: vLLM, TensorRT-LLM, DeepSpeed

Pipeline-parallelisme (PP)

Opdeler modellen i sekventielle faser, hvor hver GPU håndterer forskellige lag.

Bedst til: Tilpasning af store modeller, batchbehandling Krav: Moderat båndbredde mellem GPU'er Støttet af: llama.cpp, Ollama, de fleste frameworks

NVLink vs. PCIe — Den hårde sandhed

NVLink Leverer direkte GPU-til-GPU-kommunikation på ~900 GB/s (for NVLink 4.0). Det muliggør ægte hukommelsespooling, hvor GPU'er kan få direkte adgang til hinandens VRAM.

Problemet: Forbruger-RTX-kort understøtter ikke længere NVLink. De sidste NVLink-kompatible forbruger-GPU'er var RTX 3090/3090 Ti (NVLink 3.0 @ 112.5 GB/s tovejs).

Uden NVLink bruger multi-GPU-kommunikation PCIe:

  • Meget langsommere (~32-64 GB/s vs. 900 GB/s)
  • Højere latenstid
  • Kan ikke pulje VRAM direkte

Praktisk effekt:

Konfiguration Forventet ydeevne
1× RTX 5090 (32 GB) Baseline
2× RTX 5090 via PCIe ~1.6-1.8x (ikke 2x)
2× RTX 3090 via NVLink ~1.8-1.9x
Virksomhed med NVLink ~1.95x+

Få Multi-GPU til at fungere uden NVLink

Trods begrænsninger er multi-GPU-opsætninger på forbrugerhardware i stigende grad praktiske:

Anbefalet software:

  • call.cppFremragende multi-GPU-understøttelse, opdeler lag på tværs af kort
  • OllamaEnkel opsætning, automatisk lagfordeling
  • vLLMHøjtydende servering, understøttelse af tensorparallelisme
  • exllama2Optimeret til multi-GPU-inferens

Konfigurationstips:

  1. Sørg for, at begge GPU'er er på samme NUMA-node (tjek med nvidia-smi topo -m)
  2. Brug minimum x8/x8 PCIe til dobbelt GPU
  3. sæt CUDA_VISIBLE_DEVICES korrekt
  4. Match GPU-modeller når det er muligt (blanding af generationer fungerer, men kan være ineffektivt)

Eksempler på multi-GPU-konfiguration

Dobbelt RTX 5090 (64 GB i alt)

Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓

Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)

Quad RTX 5090 (128 GB i alt)

Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓

Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)

Budgetversion: Dual RTX 3090 brugt (48 GB i alt)

Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)

Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!

Del 5: Dybdegående analyse af flydende komma-ydeevne

Præcisionsformater forklaret

Moderne AI bruger forskellige numeriske præcisionsformater:

dannet Bits Rækkevidde Use Case
FP32 32 ±3.4×10^38 Træning, høj præcision
FP16 16 ± 65,504 Inferens, afbalanceret
BF16 16 ±3.4×10^38 Træning, moderne GPU'er
FP8 8 ±448 (E4M3) Hurtig inferens
INT8 8 -128 til 127 Kvantiseret inferens
INT4 4 -8 til 7 Aggressiv kvantisering

Blackwells FP4- og FP8-fordele

RTX 50-serien introducerer native FP4-understøttelse i Tensor Cores:

Precision RTX 4090 TOPS RTX 5090 TOPS Speedup
FP16 330 418 1.27x
FP8 660 ~ 1,700 2.6x
FP4 N / A ~ 3,400 Ny
INT8 660 ~ 3,400 5.1x

Hvad dette betyder:

  • FP8- og FP4-inferens er dramatisk hurtigere på RTX 50-serien
  • Modeller optimeret til FP8 oplever massive hastighedsforøgelser
  • Tensor Core-generationer er lige så vigtige som CUDA-kerner

Hukommelsesbåndbredde — Den anden flaskehals

For store modeller betyder hukommelsesbåndbredde ofte mere end beregning:

Tokens/sekund er begrænset af:

Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter

RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum

RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum

Båndbreddeforbedringen på 78% i RTX 5090 oversættes direkte til hurtigere generering med store modeller.


Del 6: Landskabet med open source-modeller — Hvad skal man køre

Niveau 1: Flagskibsmodeller (32 GB+ VRAM anbefales)

Qwen3-235B-A22B (MoE)

  • Aktive parametre: 22B (235B i alt)
  • VRAM @ 4. kvartal: ~ 28 GB
  • Kontekst: 32K native, 131K med YaRN
  • Styrker: Matematik, kodning, flersproget (119 sprog)
  • Bedst til: Generelt formål, kodning, forskning

DeepSeek R1 70B

  • Parametre: 70B
  • VRAM @ 4. kvartal: ~ 42 GB
  • Kontekst: 128K
  • Styrker: Ræsonnement, tankekæde, kodning
  • Bedst til: Kompleks problemløsning, forskning

Lama 4 70B

  • Parametre: 70B
  • VRAM @ 4. kvartal: ~ 42 GB
  • Kontekst: 128K
  • Styrker: Generelle evner, instruktionsfølgende
  • Bedst til: Alsidige applikationer

Niveau 2: Professionelle modeller (16-24 GB VRAM)

Qwen3-32B

  • Parametre: 32B
  • VRAM @ 4. kvartal: ~ 19 GB
  • Kontekst: 128K
  • Styrker: Kodning (matcher GPT-4o), ræsonnement
  • Bedst til: Enkelt RTX 5090/4090, udvikling

DeepSeek R1 Destill 32B

  • Parametre: 32B
  • VRAM @ 4. kvartal: ~ 19 GB
  • Styrker: Ræsonnement destilleret fra større model
  • Bedst til: Omkostningseffektiv argumentation

Gemma 3 27B

  • Parametre: 27B
  • VRAM @ 4. kvartal: ~ 16 GB
  • Kontekst: 128K
  • Styrker: Effektiv, Google-kvalitet, multimodal
  • Bedst til: RTX 5080/5070 Ti-versioner

Niveau 3: Forbrugermodeller (8-16 GB VRAM)

Qwen3-14B

  • Parametre: 14B
  • VRAM @ 4. kvartal: ~ 8.4 GB
  • Kontekst: 128K
  • Styrker: Fremragende balance mellem størrelse og kapacitet
  • Bedst til: RTX 5070 Ti, 4070 Ti, almindelig brug

Qwen3-8B

  • Parametre: 8B
  • VRAM @ 4. kvartal: ~ 4.8 GB
  • Kontekst: 32K native, 131K udvidet
  • Styrker: Hurtig, kapabel, passer overalt
  • Bedst til: Basisversioner, realtidsapplikationer

DeepSeek R1 Distill 14B (Qwen-base)

  • Parametre: 14B
  • VRAM @ 4. kvartal: ~ 8.4 GB
  • Styrker: Stærk argumentation fra destillation
  • Bedst til: Kodningsassistenter, problemløsning

Lama 4 8B

  • Parametre: 8B
  • VRAM @ 4. kvartal: ~ 4.8 GB
  • Styrker: Hurtig, velafrundet
  • Bedst til: Daglige opgaver, chatapplikationer

Niveau 4: Edge/Embedded (4-8 GB VRAM)

Qwen3-4B

  • Parametre: 4B
  • VRAM @ 4. kvartal: ~ 2.4 GB
  • Styrker: Rivalernes Qwen2.5-7B ydeevne
  • Bedst til: Bærbare computere, integreret grafik, edge-enheder

Phi-4 (Microsoft)

  • Parametre: 14B
  • VRAM @ 4. kvartal: ~ 8.4 GB
  • Styrker: Enestående størrelse, STEM-fokus
  • Bedst til: Uddannelsesmæssige, tekniske anvendelser

Qwen3-0.6B

  • Parametre: 0.6B
  • VRAM @ 4. kvartal: <1 GB
  • Styrker: Kører overalt
  • Bedst til: IoT, mobile, miljøer med ultralavt ressourceforbrug

Modelvalgsflowdiagram

What's your primary VRAM capacity?

├─ 32GB+ (RTX 5090, Dual 3090s)
│   └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
├─ 24GB (RTX 4090, 3090)
│   └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│   └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
├─ 12GB (RTX 5070, 4070 Ti)
│   └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
└─ 8GB (RTX 4070, 3070)
    └─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant

Del 7: Komplette anbefalinger til systemopbygning

Byg 1: Indgangspunktet ($1,200-1,500)

Brug Case: Personlig AI-assistent, kodningshjælp, eksperimentering

Component Anbefaling Noter
GPU RTX 5070 Ti (16GB) Bedste værdi for 16 GB
CPU AMD Ryzen 7 9700X 8 kerner, PCIe 5.0
RAM 32GB DDR5-6000 Modelindlæsningsbuffer
Opbevaring 2TB NVMe PCIe 4.0 Hurtig modelladning
PSU 750W 80+ Guld Tilstrækkelig loftshøjde
Bundkort B650 med PCIe 5.0 Fremtidssikret

Kan køre:

  • Qwen3-14B @ Q4 (~8.4 GB) — fremragende
  • DeepSeek R1 14B @ 4. kvartal — fremragende
  • Qwen3-32B @ Q3 (aggressiv) — muligt, men tæt
  • Flere 8B-modeller samtidigt

Estimeret ydeevne: 35-50 tokens/sekund med 14B-modeller


Bygge 2: Det optimale for prosumere ($3,500-4,500)

Brug Case: Professionel udvikling, research, indholdsskabelse

Component Anbefaling Noter
GPU RTX 5090 (32GB) Maksimal VRAM for én GPU
CPU AMD Ryzen 9 9950X 16 kerner, høj single-thread
RAM 64GB DDR5-6400 Store kontekstvinduer
Opbevaring 4TB NVMe Gen4 Modelbibliotek
PSU 1000W 80+ Guld Kræves til 575W GPU
Bundkort X670E Komplet funktionssæt

Kan køre:

  • Qwen3-32B @ Q4 — komfortabel med 13 GB headroom
  • DeepSeek R1 32B @ Q6 — højere kvalitet
  • Qwen3-235B-A22B @ Q4 — stramt, men fungerer
  • Enhver sub-32B-model i høj kvalitet

Estimeret ydeevne: 50-80 tokens/sekund med 32B-modeller


Bygge 3: Den lokale AI-server ($7,000-10,000)

Brug Case: Teaminferensserver, modeleksperimentering, produktionsarbejdsbelastninger

Component Anbefaling Noter
GPU'er 2× RTX 5090 (64 GB i alt) Tensorparallelisme klar
CPU AMD Threadripper 7960X 24 kerner, 48 baner
RAM 128 GB DDR5-5600 ECC Fejlkorrektion for pålidelighed
Opbevaring 8TB NVMe RAID 0 Hurtig modelskift
PSU 1600W 80+ Titanium Dobbelt GPU-headroom
Bundkort TRX50 Fuld PCIe-baneunderstøttelse
Køling Brugerdefineret loop Termisk styring

Kan køre:

  • DeepSeek R1 70B @ 4. kvartal — fuld ydeevne
  • Qwen3-235B-A22B @ Q4 — fremragende
  • Enhver model under 120B parametre
  • Flere 32B-modeller til A/B-testning

Estimeret ydeevne: 40-50 tokens/sekund med 70B-modeller


Bygge 4: Budgetlaboratoriet (brugtmarked 2,000-2,500 dollars)

Brug Case: Læring, udvikling, omkostningsbevidst entusiast

Component Anbefaling Noter
GPU'er 2× RTX 3090 (48 GB i alt) NVLink-kompatibel!
CPU AMD Ryzen 9 5950X Tidligere generationsværdi
RAM 64GB DDR4-3600 Stadig i stand til
Opbevaring 2TB NVMe Modelopbevaring
PSU 1200W 80+ Guld Dobbelte 350W GPU'er
Bundkort X570 med 2× x16 NVLink-understøttelse
NVLink-broen RTX 3090 NVLink ~80 kr. brugt

NVLink-fordelen: Dette er den eneste forbrugerkonfiguration med NVLink-understøttelse, der giver ægte VRAM-pooling ved 112.5 GB/s vs. PCIe'er på ~32 GB/s.

Kan køre:

  • Qwen3-32B @ Q8 (højere kvalitet) — komfortabel
  • DeepSeek R1 32B @ FP16 — med omhyggelig kontekststyring
  • 70B-modeller @ aggressiv Q3 — muligt

Estimeret ydeevne: 25-35 tokens/sek. med 32B-modeller (hurtigere end forventet på grund af NVLink)


Byg 5: Den bærbare kraftpakke (bærbar)

Brug Case: Mobil AI-udvikling, inferens på farten

Spec Anbefaling
GPU RTX 5090 Mobil (24GB)
CPU Intel Core Ultra 9 / AMD Ryzen 9
RAM 64GB
Opbevaring 2TB NVMe
Skærm 16 "2560 × 1600

Bemærkelsesværdige modeller:

  • ASUS ROG Strix SCAR 18 (2026)
  • Razer Blade 18 (2026)
  • MSI Titan GT78 (2026)

Kan køre:

  • Qwen3-14B @ Q4 — fremragende
  • DeepSeek R1 14B @ 4. kvartal — fremragende
  • Qwen3-32B @ Q4 — stramt, men fungerer

Bemærk: Mobile RTX 5090 har 24 GB (ikke 32 GB) og lavere TDP. Forvent ~70% af desktop-ydeevne.


Del 8: Anbefalinger til softwarestak

Væsentlige værktøjer

Ollama — Den nemme knap

bash
# Install
curl -fsSL https://ollama.ai/install.sh | sh

# Run Qwen3 8B
ollama run qwen3:8b

# Run with specific quantization
ollama run qwen3:14b-q4_K_M

# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b

Bedst til: Introduktion, enkle implementeringer, API-visning

LM Studio — GUI-oplevelsen

  • Visuel modelbrowser
  • Et-klik downloads
  • Indbygget chat-grænseflade
  • Kvantiseringsvalg

Bedst til: Ikke-tekniske brugere, modeludforskning

llama.cpp — Maksimal kontrol

bash
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
  -ngl 99 \
  --tensor-split 0.5,0.5 \
  -c 8192

Bedst til: Avancerede brugere, brugerdefinerede implementeringer, maksimal ydeevne

vLLM — Produktionsservering

bash
# Install
pip install vllm

# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-32B \
  --tensor-parallel-size 2 \
  --dtype auto

Bedst til: Højkapacitetsvisning, API-slutpunkter, produktion

Modelkilder

Kilde URL Noter
Knusende ansigt huggingface.co Officielle udgivelser
Ollama Bibliotek ollama.com/bibliotek Forkvantificeret, nemt
TheBloke (HF) huggingface.co/TheBloke GGUF-kvantiseringer
LM Studio Hub lmstudio.ai Kurateret udvalg

Del 9: Optimeringstips

VRAM-optimering

  1. Brug Q4_K_M kvantisering — Den bedste balance mellem størrelse og kvalitet
  2. Begræns kontekstlængde — 8K i stedet for 32K sparer ~40% VRAM
  3. Deaktiver KV-cache til enkeltstående prompter
  4. Brug Flash Attention 2 — Reducerer hukommelsen for lange kontekster
  5. Aktiver hukommelseseffektiv inferens i vLLM

Hurtigoptimering

  1. Maksimer GPU-hukommelsesbåndbredden — Hurtigere RAM = hurtigere tokens
  2. Brug FP8, når det er muligt — 2-3x hastighedsforøgelse på RTX 50-serien
  3. Aktivér spekulativ afkodning — Brug en lille model til at accelerere en stor
  4. Batchanmodninger — Højere kapacitet ved servering
  5. Brug kontinuerlig batching (vLLM) — Dynamisk anmodningshåndtering

Multi-GPU-optimering

  1. Match GPU-modeller — Undgå at blande generationer
  2. Tjek NUMA-topologien — Samme node = lavere latenstid
  3. Brug mindst x8 baner — x4 skaber flaskehalse
  4. Skærm med nvidia-smi — Vær opmærksom på ubalanceret udnyttelse
  5. Test forskellige TP/PP-konfigurationer — Optimal varierer afhængigt af modellen

Del 10: Fejlfinding af almindelige problemer

"CUDA er løbet tør for hukommelse"

årsager:

  • Modellen er for stor til VRAM
  • Kontekstvinduet er for langt
  • KV cache vækst

Løsninger:

  1. Brug mere aggressiv kvantisering (Q4 → Q3)
  2. Reducer kontekstlængden
  3. Reducer batchstørrelsen
  4. Aktivér flash-opmærksomhed
  5. Opdelt på tværs af flere GPU'er

Langsom tokengenerering

årsager:

  • Begrænset hukommelsesbåndbredde
  • CPU-aflastning aktiv
  • termisk drosling

Løsninger:

  1. Sørg for, at modellen passer fuldstændigt i VRAM
  2. Tjek GPU-temperaturen (mål <85°C)
  3. Brug en mindre model
  4. Aktivér GPU-ydeevnetilstand
  5. Forbedr luftstrømmen i kabinettet

Multi-GPU skalerer ikke

årsager:

  • PCIe båndbreddeflaskehals
  • Forkert lagdeling
  • Problemer med NUMA-afstand

Løsninger:

  1. Check (Skak) nvidia-smi topo -m til topologi
  2. Juster tensoropdelingsforhold
  3. Sørg for x8+ PCIe pr. GPU
  4. Overvej NVLink (RTX 3090)
  5. Brug pipeline-parallelisme i stedet for tensor

Konklusion: At træffe det rigtige valg

Det er mere tilgængeligt end nogensinde at bygge et lokalt AI-system i 2026. Her er opsummeringen:

Hurtige anbefalinger:

budget Bedste valg Vigtigste fordel
$ 500-800 Brugt RTX 3090 24 GB VRAM, NVLink-kompatibel
$ 750-1000 RTX 5070 Ti Ny, 16 GB, effektiv
$ 1000-1500 RTX 5080 16 GB, hurtigere
$ 2000 + RTX 5090 32 GB, flagskib
$ 4000 + Dobbelt RTX 5090 64 GB, 70 GB modeller

De gyldne regler:

  1. VRAM > Alt andet — Mere hukommelse = flere modelmuligheder
  2. Kvantisering er din ven — Q4_K_M er det optimale punkt
  3. Multi-GPU har aftagende afkast — Uden NVLink, forvent ~1.6x fra 2 GPU'er
  4. Hukommelsesbåndbredden er vigtig — Især til store modeller
  5. Start småt, skalér op — Test dine arbejdsbyrder, før du investerer

Open source AI-økosystemet udvikler sig hurtigt. Modeller, der for to år siden krævede hardware til 100 dollars, kører nu på systemer til 2 dollars. Uanset hvad du bygger i dag, vil det kun blive mere effektivt, efterhånden som modellerne bliver mere effektive.

Velkommen til den personlige AI-tidsalder.


For hardwareanbefalinger og tilgængelighed, besøg Kentino.com


Bilag: Oversigtstabeller

Krav til model VRAM (Q4_K_M)

Model Driftsparametre VRAM @ 4. kvartal Minimum GPU
Qwen3-0.6B 0.6B ~ 0.5 GB Enhver
Qwen3-4B 4B ~ 2.4 GB GTX 1650
Qwen3-8B 8B ~ 4.8 GB RTX 3060
Qwen3-14B 14B ~ 8.4 GB RTX 4070
Qwen3-32B 32B ~ 19 GB RTX 4090
Qwen3-235B-A22B 235B (22B aktiv) ~ 28 GB RTX 5090
DeepSeek R1 70B 70B ~ 42 GB 2× RTX 5090
Lama 4 405B 405B ~ 243 GB 8× RTX 5090

GPU-sammenligning for AI

GPU VRAM båndbredde AI-TOPPER TDP MSRP
RTX 5090 32GB 1,792 GB / s ~ 3,400 575W $1,999
RTX 5080 16GB 960 GB / s ~ 1,801 360W $999
RTX 5070 Ti 16GB 896 GB / s ~ 1,406 300W $749
RTX 5070 12GB 672 GB / s ~ 988 250W $549
RTX 4090 24GB 1,008 GB / s ~ 1,300 450W $1,599
RTX 3090 24GB 936 GB / s ~ 285 350W ~800 kr. brugt

Sidst opdateret: januar 2026 Artikel udarbejdet af Kentino Technical Team

ブログに戻る