Gå til produktinformation
1 of 14

Kentino sro

K-AI 32 Rom 5090 1676TOPS — 1x RTX 5090 AI-arbejdsstation

K-AI 32 Rom 5090 1676TOPS — 1x RTX 5090 AI-arbejdsstation

Regelmæssig pris € 8.092,00 EUR
Regelmæssig pris Udsalgspris € 8.092,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 32 Rom 5090 1676TOPS

Blackwell-arbejdsstation med én GPU
1x RTX 5090 | EPYC Milano | 6704 TOPS INT8

1 676
TOPS INT8
32 DK
VRAM GDDR7
fp8
oprindelig tensor
rack
klar

Enkelt Blackwell GPU, 32 GB GDDR7, fp8 native — den skarpeste enkeltkorts AI-arbejdsstation, Kentino bygger.

En AI-server i arbejdsstationsklassen med én GPU på ROMED8-2T / EPYC Milan-platformen. Én RTX 5090 leverer 32 GB GDDR7 VRAM med native fp8 tensor-matematikker – det optimale valg til en udviklerboks, et inferens-slutpunkt for et lille team eller en arbejdsstation til billed-/videogenerering, hvor én stærk GPU slår to svagere. 4U rack-formfaktor, men drop-in til en stille implementering under skrivebordet på kontoret.

Hardware

Component Detalje
GPU 1x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell)
VRAM-pulje 32 DK
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Opbevaring / bagagerum 1 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning Enkelt 2 kW ATX strømforsyning
Chassis 4U rackmonteret, passiv Gen4 x16 riser
Køling SP3 tårnkøler (Arctic Freezer 4U-M klasse), 3x 120 mm frontindtag + 1x 120 mm bagudstødning
Netværk Indbygget dobbelt 10 GbE (Intel X550) + IPMI

Power kuvert

  • GPU-forbrug: 1 x 575 W = 575 W
  • Systemtotal ved fuld belastning: ~900 W
  • Strømforsyning i alt: 2.000 W (enkelt 2 kW ATX) — 55 % headroom
  • Generøs transientmargin, lydløs drift ved let belastning

Banetopologi

PCIe Gen4 x16 på GPU'en (ROMED8-2T er Gen4; 5090 er Gen5 silicium, der kører Gen4 uden båndbreddestraf for inferens). 16 baner direkte fra CPU-rodkomplekset. Ingen PCIe-switch. Ingen NVLink på GeForce 5090.

Hvad du kan løbe

Med 32 GB GDDR7 VRAM og native fp8 tensor matematik håndterer denne arbejdsstation åbne LLM'er med en tæthed på op til 32B, billedgenerering med FLUX.1, videogenerering, tale-AI og multimodel-stakke med én udvikler.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3-32B tæt Q6_K — 32k kontekst, generel argumentation for flagskib (~40-55 tok/s single-stream på Blackwell fp8, publiceret reference)
  • Qwen3-30B-A3B MoE ved Q4_K_M med lang KV-headroom (Qwen3-Coder-30B-A3B agentic, 256k ctx)
  • QwQ-32B Q6 — forhåndsvisning af ræsonnement
  • DeepSeek-R2 32B sparsom MoE ved Q4-Q6 — single-GPU-ræsonnement, der scorer 92.7 % AIME-2025 (~45-60 tok/s single-stream på Blackwell fp8, publiceret reference)
  • Qwen3.5-27B tæt 6. kvartal (udgivelse februar 2026)
  • Hunyuan-A13B ved Q4_K_M (~28-30 GB) — 80B/13B MoE, 256k ctx, dual-mode ræsonnement
  • Frø-OSS-36B Q4_K_M — 512k native kontekst til analyse af lange dokumenter

Vestgrænsen

  • Lama 3.3 70B ved Q2_K (~27 GB RAM-spild) eller Q3_K (~34 GB med RAM-spild) — kan bruges til generel chat
  • Mistral Lille 3 / Magistral Lille / Devstral Lille 2 (24B tæt) ved Q6-Q8 eller bf16
  • Gemma 3 27B multimodal ved Q6 med 128k kontekst
  • Phi-4 14B / Phi-4-ræsonnement bf16
  • Reka Flash 3 (21B Apache 2.0) ved bf16
  • gpt-oss-20b native MXFP4 (~16 GB — passer til generøs KV)

Vision-Sprog

Qwen3-VL-8B / -32B ved Q4-Q6; Qwen3-VL-30B-A3B MoE; InternVL3.5-8B / -38B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6 (8B); Llama 3.2 11B Vision bf16; Pixtral 12B bf16 (24 GB — stram, brug Q8); Gemma 3 12B / 27B multimodal; PaliGemma 2 (3/10B); Phi-4-multimodal 5.6B; Aya Vision 8B.

Billedgenerering

FLUX.1 [dev] / [snel] fp8 (~12 GB) native Blackwell speedup (~8-12 sekunder pr. 1024x1024 billede ved 20 trin på Blackwell, publiceret reference); FLUX.1 Kontext [dev] — redigering i kontekst, tegnkonsistens; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 10-12 GB fp16; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8; AuraFlow v0.3 / OmniGen v1 / PixArt-Sigma.

Video generation

Wan 2.2 TI2V-5B ved ~16 GB — 720p@24fps på et enkelt 5090; Wan 2.1 T2V/I2V 14B ved Q4-Q6 (~16 GB); HunyuanVideo 1.5 (8.3B) — minimum 14 GB; CogVideoX-5B / 5B-I2V int8 (~12 GB); LTX-Video 2B realtidsklasse 30 fps; Mochi-1 Q4 (~17-18 GB).

Lyd / Tale / TTS

  • ASR: Whisper v3 large / turbo (~50x realtid på enkelt GPU, publiceret reference); NVIDIA Parakeet-TDT 1.1B; Canary 1B
  • TTS: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabil lyd åben
  • Realtid / S2S: Kyutai Moshi (7B) — kun åben realtids fuld-duplex stemme; Step-Audio 2 mini / R1

Multimodel / multi-lejer

  • Resident stak til en enkelt udvikler: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB passer stramt) på swap, eller Qwen3-14B Q6 (~9 GB) + FLUX.1 + Whisper-turbo + Kokoro samtidigt (~20-24 GB fastlåst)
  • 2-4 samtidige brugere på 14-32B klasse LLM'er via vLLM / SGLang
  • LoRA/QLoRA finjustering af 7-14B tætte modeller

Målrettede arbejdsbyrder

  • Udviklerarbejdsstation til en enkelt AI-ingeniør, der kører blandet inferens + billedgenerering
  • Lille team af koderingsagent-slutpunkt (Qwen3-Coder-30B-A3B) med 1-4 samtidige brugere
  • Indholdspipeline: FLUX.1 eller SD 3.5 Storbatch-billedgenerering + WAN 2.2 kortformatvideo
  • Lokal ASR + TTS-stemmestak (Whisper + Kokoro + Moshi) til en filial
  • Prosumer LLM + VLM forskningsboks — test Qwen3, Llama 3.3, Gemma 3, Phi-4 på rigtig hardware

Publicerede præstationsreferencer

Udgivet reference | enkelt RTX 5090 sammenlignelig hardware

benchmark Resultat
Llama 3.3 70B Q4_K_M llama.cpp afkodning ~18-22 tok/s med CPU KV-offload
Qwen3-32B Q6 vLLM enkeltstrøms ~45-55 tok/s afkodning ved fp8
FLUX.1 [udvikling] fp8 på Blackwell ~1.7-2.0 sek. pr. 1024x1024 billede ved 20 trin
Wan 2.2 TI2V-5B 720p klip ~3-4 minutter ved fp16

Offentliggjorte referencepunkter fra sammenlignelig single-5090 hardware. Kentinos målte tal vil blive offentliggjort, når gf-logic udvider bænken til single-5090.

Ikke ideel til

  • 70B kompakte modeller ved Q6+ (32 GB er utilstrækkeligt — brug 2x 5090 til den korrekte 64 GB-pulje)
  • Samtidig servering af flere brugere i stor skala (enkelt tensor-parallel partition)
  • Frontier 100B+ MoE (GLM-4.5, Kimi K2, Mistral Large 3 — uden for rækkevidde på et enkelt forbrugerkort)

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Opgrader boot-drevet til 2 TB NVMe — eller 4 TB
  • Opgrader RAM til 256 GB (4x 64 GB DDR4) for større KV-cache / samtidige multimodel-stacks
  • Rack PDU (C13/C19 målt) og 2 kVA online UPS
Se detaljer