Kentino sro
K-AI 32 Rom 5090 1676TOPS — 1x RTX 5090 AI-arbejdsstation
K-AI 32 Rom 5090 1676TOPS — 1x RTX 5090 AI-arbejdsstation
Kunne ikke indlæse afhentningstilgængelighed
K-AI 32 Rom 5090 1676TOPS
Blackwell-arbejdsstation med én GPU
1x RTX 5090 | EPYC Milano | 6704 TOPS INT8
Enkelt Blackwell GPU, 32 GB GDDR7, fp8 native — den skarpeste enkeltkorts AI-arbejdsstation, Kentino bygger.
En AI-server i arbejdsstationsklassen med én GPU på ROMED8-2T / EPYC Milan-platformen. Én RTX 5090 leverer 32 GB GDDR7 VRAM med native fp8 tensor-matematikker – det optimale valg til en udviklerboks, et inferens-slutpunkt for et lille team eller en arbejdsstation til billed-/videogenerering, hvor én stærk GPU slår to svagere. 4U rack-formfaktor, men drop-in til en stille implementering under skrivebordet på kontoret.
Hardware
| Component | Detalje |
|---|---|
| GPU | 1x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell) |
| VRAM-pulje | 32 DK |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Opbevaring / bagagerum | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | Enkelt 2 kW ATX strømforsyning |
| Chassis | 4U rackmonteret, passiv Gen4 x16 riser |
| Køling | SP3 tårnkøler (Arctic Freezer 4U-M klasse), 3x 120 mm frontindtag + 1x 120 mm bagudstødning |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) + IPMI |
Power kuvert
- GPU-forbrug: 1 x 575 W = 575 W
- Systemtotal ved fuld belastning: ~900 W
- Strømforsyning i alt: 2.000 W (enkelt 2 kW ATX) — 55 % headroom
- Generøs transientmargin, lydløs drift ved let belastning
Banetopologi
PCIe Gen4 x16 på GPU'en (ROMED8-2T er Gen4; 5090 er Gen5 silicium, der kører Gen4 uden båndbreddestraf for inferens). 16 baner direkte fra CPU-rodkomplekset. Ingen PCIe-switch. Ingen NVLink på GeForce 5090.
Hvad du kan løbe
Med 32 GB GDDR7 VRAM og native fp8 tensor matematik håndterer denne arbejdsstation åbne LLM'er med en tæthed på op til 32B, billedgenerering med FLUX.1, videogenerering, tale-AI og multimodel-stakke med én udvikler.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3-32B tæt Q6_K — 32k kontekst, generel argumentation for flagskib (~40-55 tok/s single-stream på Blackwell fp8, publiceret reference)
- Qwen3-30B-A3B MoE ved Q4_K_M med lang KV-headroom (Qwen3-Coder-30B-A3B agentic, 256k ctx)
- QwQ-32B Q6 — forhåndsvisning af ræsonnement
- DeepSeek-R2 32B sparsom MoE ved Q4-Q6 — single-GPU-ræsonnement, der scorer 92.7 % AIME-2025 (~45-60 tok/s single-stream på Blackwell fp8, publiceret reference)
- Qwen3.5-27B tæt 6. kvartal (udgivelse februar 2026)
- Hunyuan-A13B ved Q4_K_M (~28-30 GB) — 80B/13B MoE, 256k ctx, dual-mode ræsonnement
- Frø-OSS-36B Q4_K_M — 512k native kontekst til analyse af lange dokumenter
Vestgrænsen
- Lama 3.3 70B ved Q2_K (~27 GB RAM-spild) eller Q3_K (~34 GB med RAM-spild) — kan bruges til generel chat
- Mistral Lille 3 / Magistral Lille / Devstral Lille 2 (24B tæt) ved Q6-Q8 eller bf16
- Gemma 3 27B multimodal ved Q6 med 128k kontekst
- Phi-4 14B / Phi-4-ræsonnement bf16
- Reka Flash 3 (21B Apache 2.0) ved bf16
- gpt-oss-20b native MXFP4 (~16 GB — passer til generøs KV)
Vision-Sprog
Qwen3-VL-8B / -32B ved Q4-Q6; Qwen3-VL-30B-A3B MoE; InternVL3.5-8B / -38B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6 (8B); Llama 3.2 11B Vision bf16; Pixtral 12B bf16 (24 GB — stram, brug Q8); Gemma 3 12B / 27B multimodal; PaliGemma 2 (3/10B); Phi-4-multimodal 5.6B; Aya Vision 8B.
Billedgenerering
FLUX.1 [dev] / [snel] fp8 (~12 GB) native Blackwell speedup (~8-12 sekunder pr. 1024x1024 billede ved 20 trin på Blackwell, publiceret reference); FLUX.1 Kontext [dev] — redigering i kontekst, tegnkonsistens; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 10-12 GB fp16; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8; AuraFlow v0.3 / OmniGen v1 / PixArt-Sigma.
Video generation
Wan 2.2 TI2V-5B ved ~16 GB — 720p@24fps på et enkelt 5090; Wan 2.1 T2V/I2V 14B ved Q4-Q6 (~16 GB); HunyuanVideo 1.5 (8.3B) — minimum 14 GB; CogVideoX-5B / 5B-I2V int8 (~12 GB); LTX-Video 2B realtidsklasse 30 fps; Mochi-1 Q4 (~17-18 GB).
Lyd / Tale / TTS
- ASR: Whisper v3 large / turbo (~50x realtid på enkelt GPU, publiceret reference); NVIDIA Parakeet-TDT 1.1B; Canary 1B
- TTS: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabil lyd åben
- Realtid / S2S: Kyutai Moshi (7B) — kun åben realtids fuld-duplex stemme; Step-Audio 2 mini / R1
Multimodel / multi-lejer
- Resident stak til en enkelt udvikler: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB passer stramt) på swap, eller Qwen3-14B Q6 (~9 GB) + FLUX.1 + Whisper-turbo + Kokoro samtidigt (~20-24 GB fastlåst)
- 2-4 samtidige brugere på 14-32B klasse LLM'er via vLLM / SGLang
- LoRA/QLoRA finjustering af 7-14B tætte modeller
Målrettede arbejdsbyrder
- Udviklerarbejdsstation til en enkelt AI-ingeniør, der kører blandet inferens + billedgenerering
- Lille team af koderingsagent-slutpunkt (Qwen3-Coder-30B-A3B) med 1-4 samtidige brugere
- Indholdspipeline: FLUX.1 eller SD 3.5 Storbatch-billedgenerering + WAN 2.2 kortformatvideo
- Lokal ASR + TTS-stemmestak (Whisper + Kokoro + Moshi) til en filial
- Prosumer LLM + VLM forskningsboks — test Qwen3, Llama 3.3, Gemma 3, Phi-4 på rigtig hardware
Publicerede præstationsreferencer
Udgivet reference | enkelt RTX 5090 sammenlignelig hardware
| benchmark | Resultat |
|---|---|
| Llama 3.3 70B Q4_K_M llama.cpp afkodning | ~18-22 tok/s med CPU KV-offload |
| Qwen3-32B Q6 vLLM enkeltstrøms | ~45-55 tok/s afkodning ved fp8 |
| FLUX.1 [udvikling] fp8 på Blackwell | ~1.7-2.0 sek. pr. 1024x1024 billede ved 20 trin |
| Wan 2.2 TI2V-5B 720p klip | ~3-4 minutter ved fp16 |
Offentliggjorte referencepunkter fra sammenlignelig single-5090 hardware. Kentinos målte tal vil blive offentliggjort, når gf-logic udvider bænken til single-5090.
Ikke ideel til
- 70B kompakte modeller ved Q6+ (32 GB er utilstrækkeligt — brug 2x 5090 til den korrekte 64 GB-pulje)
- Samtidig servering af flere brugere i stor skala (enkelt tensor-parallel partition)
- Frontier 100B+ MoE (GLM-4.5, Kimi K2, Mistral Large 3 — uden for rækkevidde på et enkelt forbrugerkort)
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Opgrader boot-drevet til 2 TB NVMe — eller 4 TB
- Opgrader RAM til 256 GB (4x 64 GB DDR4) for større KV-cache / samtidige multimodel-stacks
- Rack PDU (C13/C19 målt) og 2 kVA online UPS
Del
