Gå til produktinformation
1 of 7

Kentino sro

K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI-server

K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI-server

Regelmæssig pris € 11.940,00 EUR
Regelmæssig pris Udsalgspris € 11.940,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 64 Rom 5080 3600TOPS

Budget Blackwell-server med 4 GPU'er
4x RTX 5080 | EPYC Milano | 6704 TOPS INT8

3 600
TOPS INT8
64 DK
VRAM-pulje
4 GPU
Blackwell
rack
klar

Kentinos budgetvenlige 4-GPU Blackwell-server — 64 GB VRAM-pulje, 3.600 samlede TOPS INT8, laveste CZK pr. TOPS i serien.

En 4-GPU Blackwell-inferensserver bygget op omkring RTX 5080 — 360 W pr. kort, PCIe 5 silicium, 16 GB GDDR7 hver. Fire kort leverer en samlet VRAM-envelope på 64 GB og 3.600 INT8 TOPS-aggregater til det bedste CZK-pr.-TOPS-punkt, som Kentino tilbyder. Indgangen til multi-GPU Blackwell-inferens: ideel til indlejring af klynger, 7-13B-modelservering i stor skala, generering af billed-/videobatcher og 70B Q4 tensor-parallel.

Hardware

Component Detalje
GPU'er 4x NVIDIA GeForce RTX 5080 16 GB GDDR7 (360 W, PCIe 5.0 x16)
VRAM-pulje 64 DK
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning Enkelt 2 kW ATX strømforsyning
Chassis 4U rackmontering, 4x GPU, passive Gen4 x16 risers, rettet luftstrøm fra front til bag
Køling SP3 tårnkøler, 3x 120 mm frontindtag + 1x 120 mm bagudstødning (industrielle ventilatorer)
Netværk Indbygget dobbelt 10 GbE (Intel X550) + IPMI

Power kuvert

  • GPU-forbrug: 4 x 360 W = 1800 W
  • Systemtotal ved fuld belastning: ~4080 W
  • Strømforsyning i alt: 2.000 W (enkelt 2 kW ATX) — 11.75 % headroom
  • Over 10 %-grænsen, men strammere end andre 4-GPU-builds; opgradering med dobbelt strømforsyning anbefales til høje arbejdsbelastninger

Banetopologi

ROMED8-2T spreder 4x16 Gen4 fra CPU-rodkomplekset. 5080 er PCIe Gen5 silicium, der kører Gen4 x16 uden båndbreddeflaskehals til inferens. Ingen PCIe-switch. Ingen NVLink — tensor parallel over PCIe.

Hvad du kan løbe

Med 64 GB samlet VRAM på tværs af 4 Blackwell-kort håndterer denne server 70B Q4 tensor-parallel, integrerede klynger i stor skala, batch-pipelines for billeder og videoer og 7-13B multi-tenant-server til 64-128 samtidige brugere.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3-32B Q8 (tæt ved næsten fp16-kvalitet); Qwen3.5-27B bf16
  • Qwen3-30B-A3B / Qwen3-koder-30B-A3B bf16 (~60 GB passer stramt)
  • Qwen3.5-122B-A10B Q4 (~70-75 GB — tæt, spild til DDR4 RAM)
  • Hunyuan-A13B fp8 (~80 GB native — stram, foretrækker Q6)
  • Frø-OSS-36B bf16 (~72 GB begrænset)
  • DeepSeek-R2 32B sparse MoE bf16 (~64 GB) (~45-60 tok/s single-stream ved Q4 på Blackwell, offentliggjort reference)
  • GLM-4.5-Air 106B/12B Q3_K (~55 GB) — begrænset KV-lofthøjde
  • ERNIE-4.5-47B-A3B Q4 (~28 GB med plads til anden model)

Vestgrænsen

  • Lama 3.3 70B Q4_K_M (~43 GB) — det optimale punkt for denne pulje (~30-36 tok/s single-stream på 4x 5080, publiceret reference)
  • Hermes 3 70B / Tulu 3 70B Q4 — åbne Llama-derivater med fuld gennemsigtighed efter træning
  • Mistral Lille 3 / Magistral / Devstral Lille 2 24B bf16
  • Gemma 3 27B bf16 multimodal
  • Phi-4 14B / Nemotron-Super 49B Q6-Q8
  • gpt-oss-20b MXFP4 (16 GB — 4 instanser på 4 kort til parallelle lejere); gpt-oss-120b MXFP4 (80 GB — kompakt; spild håndteres)

Vision-Sprog

Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B; InternVL3.5-38B Q6-Q8; Llama 3.2 90B Vision Q4 (~52 GB tæt); Pixtral 12B / Pixtral Large 124B Q2-Q3; Gemma 3 27B multimodal bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB); Aya Vision 32B bf16.

Billedgenerering

FLUX.1 [dev] / [schnell] fp16 — batch-4 parallel (~10-15 sekunder pr. 1024x1024 billede ved fp8 på Blackwell, publiceret reference); FLUX.1 Kontext [dev] — redigering i kontekst på tværs af 4 brugere; SD 3.5 Large (18 GB fp16) — 4 parallelle generatorer; SDXL 1.0 + ControlNet + AnimateDiff-stakke x 4; HunyuanImage-2.1 bf16 pr. kort; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0 / PixArt-Sigma.

Video generation

Wan 2.2 TI2V-5B bf16 på et enkelt kort — 4 parallelle lejere; Wan 2.1 14B T2V/I2V Q4-Q6 pr. kort; HunyuanVideo 13B Q4 (~30 GB) tensor-parallel 2-vejs; HunyuanVideo 1.5 (8.3B) bf16 pr. kort; Open-Sora 2.0 (11B) Q8 pr. kort — 4 parallelle generationer; CogVideoX-5B int8; Mochi-1 Q4 pr. kort.

Lyd / Tale / TTS

Fuld vestlig og kinesisk lydstak passer pr. kort: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2. Med 4 kort kan hvert kort være vært for en dedikeret tale-lejer. Whisper v3 turbo kører ~50 gange realtid pr. kort (offentliggjort reference).

Multimodel / multi-lejer

Målsætningen. 16 GB pr. kort belønner partitionerede arbejdsbelastninger:

  • Integrering af klynge: BGE-M3 / Nomic / Jina-embed / E5 / Cohere Embed v3 — 4 lejere ved høj RPS
  • 7-13B servering i stor skala: 16-32 samtidige brugere pr. kort via vLLM / SGLang; 64-128 samtidige i alt
  • Blandet rørledning: Kort 1 = Qwen3-14B + reranker; Kort 2 = Whisper + Moshi; Kort 3 = FLUX.1; Kort 4 = Wan 2.2 TI2V
  • 4-vejs tensor-parallel til 70B Q4 — Llama 3.3 70B AWQ INT4 på tværs af 4 kort, ~90-130 tok/s batchaggregat (ekstrapoleret fra gf-logic 4x4090-bænk)

Målrettede arbejdsbyrder

  • Budgetvenlig multi-GPU AI-serverplatform til en startup eller et laboratorium med en investeringsgulv
  • Integrering + RAG-infrastruktur i 4-vejs horisontal skala
  • Billed-/videogenereringsbatchfarm (Stable Diffusion / FLUX / Wan 2.2)
  • 7-13B lille model, der betjener i stor skala — 4 uafhængige lejere eller 64-128 samtidige puljede
  • Udviklingsstagingboks til 70B Q4 tensor-parallelle arbejdsgange

Publicerede præstationsreferencer

Kentino målte (4x4090 reference) + offentliggjorte 5080 estimater

benchmark Resultat
4x4090 reference: vedvarende fp16 647 TFLOPS
4x4090 reference: vLLM Llama 3.3 70B AWQ (batch-32) 179.3 tok/s samlet
4x4090 reference: llama.cpp 70B Q4_K_M (enkelt) 20.3 tok/s afkodning
5080 anslået: Llama 3.3 70B Q4 TP-4 single ~15-20 tok/s
5080 estimeret: FLUX.1 fp8 pr. kort ~2.2-2.8 sek. pr. 1024x1024 ved 20 trin

5080 tensor-gennemstrømning ~1.35x 4090 pr. INT8 TOPS; single-stream-dekodning er hukommelsesbåndbreddebundet (GDDR7 ~960 GB/s vs. 4090 ~1008 GB/s — omtrent paritet).

Ikke ideel til

  • 70B tæthed ved Q6+ (16 GB pr. kort begrænser pladsen pr. kort; 64 GB pulje er begrænset til Q6)
  • Langkontekst MoE-flagskibe (Qwen3-235B, GLM-4.5) — utilstrækkelig VRAM selv Q2
  • Single-stream latency-sensitivt arbejde på meget store modeller (TP overhead bruger 16 GB kort)

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • Opgrader strømforsyningen til dobbelt 2 kW ATX synkroniseret — øger headroom til 55 %
  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Opgrader boot-drevet til 4 TB NVMe
  • Opgrader RAM til 384 GB (6x 64 GB) — bedre samtidig headroom til flere modeller
  • Rack PDU (C13/C19 målt) og 3 kVA online UPS
Se detaljer