Kentino sro
K-AI 128 Rom 5090 6704TOPS — 4× RTX 5090 Blackwell AI-server
K-AI 128 Rom 5090 6704TOPS — 4× RTX 5090 Blackwell AI-server
Kunne ikke indlæse afhentningstilgængelighed
K-AI 128 Rom 5090 6704TOPS
128 GB VRAM Blackwell Inference Server
4x RTX 5090 | EPYC Milano | 6704 TOPS INT8
Fire Blackwell RTX 5090 med native fp8/fp4 tensor-stier. 4-GPU med højest gennemløbshastighed baseret på Rome-platformen.
En 4U rackmonteret inferensserver med fire GeForce RTX 5090 kombineret med 128 GB VRAM, én AMD EPYC 7643 Milan CPU (48C/96T), 512 GB DDR4 ECC (alle 8 DIMM-slots udfyldt for maksimal båndbredde), 2 TB NVMe-opstart og dobbelt synkroniseret 2 kW ATX-strømforsyning. Kører vLLM, SGLang, llama.cpp, ComfyUI med Blackwell-native fp8- og MXFP4-inferenskerner.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 4x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W, PCIe 5.0 x16) |
| VRAM-pulje | 128 GB i alt på tværs af 4 kort (ingen NVLink på forbruger 5090) |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 512 GB DDR4-2666 ECC RDIMM (8 x 64 GB — alle DIMM-pladser er udfyldt) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | Dobbelt 2 kW ATX strømforsyning med synkroniseringskabel + 12VHPWR adaptersæt |
| Chassis | 4U rackmontering, 4x GPU, passive PCIe 4.0 x16 risers |
| Køling | Arctic Freezer 4U-M SP3 tårn + 3x 120 mm frontindtag + 1x 120 mm bagudstødning |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 4 x 575 W = 1800 W
- Systemtotal ved fuld belastning: ~4080 W
- Strømforsyning i alt: 4.000 W (dobbelt 2 kW synkroniseret) — 33.8 % headroom
- Dobbelt strømforsyning til delt strømforsyning — hver strømforsyning forsyner en del af systemet
Banetopologi
ROMED8-2T fordeler 128 PCIe Gen4-baner fra EPYC direkte til syv x16-slots; fire er befolket af GPU'er ved Gen4 x16. Ingen PCIe-switch. Intet NVLink på forbruger 5090 — inter-GPU peer-to-peer. Kortene er Gen5 native; Rome begrænses ved Gen4.
Hvad du kan løbe
Med 128 GB samlet VRAM og Blackwell-native fp8 tensor paths, opgraderer denne server til Qwen3-235B-A22B Q4 og gpt-oss-120b MXFP4 med ægte KV headroom - ud over hvad 4x RTX 4090 kan nå.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q3-Q4 (~112-132 GB) passer til 128 GB-puljen med 8-16k ctx — hero-konfigurationen; Qwen3-32B tæt bf16 (~65 GB) med massiv KV; Qwen3-Coder-30B-A3B agentic ved 1M ctx; Qwen3.5-122B-A10B Q6/fp8 (~75-80 GB); QwQ-32B bf16-argumentation
- DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 fp8-native Q2 (~215 GB) med RAM-spild på tværs af 512 GB vært — mulig til batch; DeepSeek-R2 32B bf16 multi-stream (4 samtidige, en pr. kort)
- GLM / Z.ai: GLM-4.5-Air 106B/12B fp8 (~106 GB) eller Q6 komfortabelt; GLM-4.5/4.6/4.7 Q2_K_XL (~135 GB) tæt med MoE-aflastning
- Tencent Hunyuan: Hunyuan-A13B fp8 native (~80 GB) — Blackwell kører fp8 uden upcast-straf; Hunyuan-Large Q2 med RAM-spild
- ByteDance Seed-OSS-36B bf16 med 512k native; ERNIE-4.5-424B Q2 (~150 GB spild)
Vestgrænsen
- Meta Lama: Llama 3.3 70B Q4 på tværs af 4x 5090 (~30-40 tok/s single-stream, ~270+ tok/s batch-32 vLLM); Llama 4 Scout 109B/17B MoE fp8/Q6 (~90 GB); Llama 4 Maverick 400B/17B Q3 (~188 GB spild)
- Mistral: Mistral Small 3 / Magistral / Devstral Small 2 (24B) bf16 multistream; Pixtral Large / Mistral Large 2 (123B) Q6 (~88 GB)
- OpenAI (åbne vægte): gpt-oss-120b MXFP4 native (80 GB) med ægte KV og lang kontekst — Blackwell hero-arbejdsbelastning; gpt-oss-20b MXFP4
- Google Gemma 3: 27B multimodal bf16 (~54 GB) to samtidige strømme; 12B / 4B
- Microsoft Phi-4 14B tæt bf16; Phi-4-ræsonnement destilleret
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q3 (~119 GB) tæt; Super 49B bf16 (~98 GB)
- Andet: Cohere Command R+ 104B Q6 (~85 GB); Molmo 72B Q6-bf16 VLM; OLMo 2 32B; IBM Granite 4.0 H-Lille
Vision-sprog modeller
Qwen3-VL-235B-A22B Q3-Q4; Qwen3-VL-32B bf16; InternVL3.5-241B-A28B Q4 (~135 GB begrænset); InternVL3 78B bf16; Llama 3.2 90B Vision Q6 (~74 GB); Pixtral Large 124B Q6 (~88 GB); Molmo 72B Q6/bf16; Gemma 3 27B multimodal bf16; GLM-4.6V 106B fp8.
Billedgenerering
FLUX.1 [dev] bf16 og fp8 (~10-18 s/billede ved fp8); FLUX.1 Kontext [dev]; SD 3.5 Stor bf16; HunyuanImage-2.1 bf16 og Q4; HunyuanImage-3.0 base (80B MoE, 13B aktiv) bf16 (~80 GB, hero footprint); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Video generation
Wan 2.2 MoE two-expert bf16 (~54 GB, fuld ctx); Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 begge eksperter (~60-80 GB); HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16 (~24 GB); Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; Stabil lyd åben; XTTS v2; StyleTTS 2; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2
Multimodel-/multi-lejer-servering
- 200B MoE ved Q4 med batchinferens (Qwen3-235B, GLM-4.5/4.6/4.7-Air) til 8-16 samtidige brugere
- fp8-native frontier — DeepSeek V3-familien, Hunyuan-Large fp8 med Blackwell native stier
- Blandet resident stak: gpt-oss-120b MXFP4 + FLUX.1 + Whisper + Moshi på partitioneret VRAM
- Højkapacitets 70B — tensor-parallel vLLM / SGLang med 200+ tok/s batchaggregat
Målrettede arbejdsbyrder
- 200B+ MoE produktion i 3.-4. kvartal med reel KV (Qwen3-235B, GLM-4.5-Air 106B)
- fp8-native frontier inference (DeepSeek V3/R1 fp8, Hunyuan fp8) — Blackwell kører uden upcast
- Højkapacitets 70B-servering — tensor-parallel batch via vLLM eller SGLang
- Videogenereringsstudie på bf16 (Wan 2.2 dual-expert, HunyuanVideo 13B, Mochi-1)
- Blandet arbejdsbyrde for flere lejere — 120B MoE + billedgenerering + realtidsstemme for alle beboere
Målt ydeevne
Publicerede referencer | NVIDIA RTX 5090 datablad + community benchmarks
| benchmark | Resultat |
|---|---|
| INT8 TOPS pr. kort (NVIDIA-datablad) | 1 676 TOPPER |
| Samlede INT8 TOPS (4 kort) | 6 704 TOPPER |
| Hukommelsesbåndbredde pr. kort | ~1792 GB/s |
| Llama 3.3 70B Q6 via vLLM (fællesskab) | 60-90 tok/s enkeltstrøm, 300+ tok/s batch |
| Qwen3-235B-A22B Q3-Q4 | Passer til 128 GB pool med 8-16k ctx |
| gpt-oss-120b MXFP4 native | 80 GB — komfortabel med KV-headroom |
Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.
Ikke ideel til
- Frontier 400B+ ved Q4 (Kimi-K2, Mistral Large 3, Intern-S1-Pro — kræver 8-GPU eller 6x RTX Pro 6000)
- PCIe Gen5-linkfølsomme arbejdsbelastninger — vælg Genoa SKU til native Gen5 x16
- Træning fra bunden (ingen NVLink på forbruger 5090)
- ECC-følsom 24/7-produktion — forbruger 5090 har ingen ECC; foretrækker L40 eller RTX Pro 6000 Server Edition
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- Opgrader strømforsyningen til dobbelt 2.5 kW (FSP) for vedvarende worst-case bf16 + video — anbefales til 24/7
- 4 TB NVMe til modelbibliotek + MoE-vægtstaging
- 24U åbent kabinet til implementering af flere servere
- Overvej Genoa-platformvarianten på forespørgsel til Gen5 x16 link
Del
