Kentino sro
K-AI 256 TurinDual 5090 — 8× RTX 5090 Zen5c Flagskib med dobbelt sokkel (Anmod om tilbud på CPU)
K-AI 256 TurinDual 5090 — 8× RTX 5090 Zen5c Flagskib med dobbelt sokkel (Anmod om tilbud på CPU)
Kunne ikke indlæse afhentningstilgængelighed
K-AI 256 TurinDual 5090 13408TOPS
256 GB VRAM Flagskibsinferensserver
8x RTX 5090 | Dobbelt EPYC Turin | 13 408 TOPS INT8
CPU-priser endeligt fastlagt ved bestilling — markedet for Turin 9005-serien bevæger sig ugentligt i 2. kvartal 2026.
Publicerede eksterne referencer. Ikke målt på Kentino-hardware.
En 7U rackmonteret flagskibsinferensserver med otte GeForce RTX 5090 (32 GB GDDR7, Blackwell, fp8 native) på en dual-socket EPYC Turin (Zen5c, SP5) platform med 768 GB DDR5-4800 ECC på tværs af alle 12 kanaler, 2 TB NVMe boot og 5x 1200 W server strømforsyning. End-to-end PCIe Gen5 på GPU'en via aktive retimer/redriver risers. Kører vLLM, SGLang, llama.cpp, ComfyUI og alle større open-weight inferensstacks direkte fra kassen.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 8x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W TGP, PCIe 5.0 x16, fp8 native, 1676 INT8 TOPS/kort) |
| VRAM-pulje | 256 GB samlet på tværs af 8 kort (ingen NVLink på forbruger-RTX 5090) |
| CPU | 2x AMD EPYC Turin 9005-serien (Zen5c, SP5, PCIe 5.0) — tilbud afventes ved bestilling |
| Bundkort | ASRock Rack TURIN2D24XGM/500W (dobbelt SP5, PCIe 5.0, 24x DDR5 DIMM) |
| System RAM | 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — alle 12 kanaler er udfyldt; 12 pladser er tilbage til skalering til 1.5 TB) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | 5x 1200 W server strømforsyningssæt (HP-kompatibel, 6 kW samlet) |
| Chassis | 7U 8-GPU (op til 10 PCIe-slots, separate strømforsyningsbåse) |
| Køling | 2x SP5 towerkølere + rackmonteret front-til-bag-luftstrøm (industrielle ventilatorer) |
| risers | 8x aktiv PCIe Gen5 x16 (retimer/redriver) — end-to-end Gen5 |
| Netværk | Indbygget 10 GbE (afhængigt af kortet) |
Power kuvert
- GPU-forbrug: 8 x 575 W = 1800 W
- Systemtotal ved fuld belastning: ~4080 W
- Strømforsyning i alt: 6.000 W (5x 1200 W) — 8% headroom ved specifikationerne
- Kentino leveres med GPU-strømkapacitet på 500 W — i alt falder til ~4.920 W (~15 % headroom)
Banetopologi
Dual Turin leverer 2x 128 = 256 PCIe Gen5-baner på værtsiden. Aktive Gen5-risers bærer Gen5 x16 end-to-end ved hver GPU — ingen PCIe-switch kræves (én CPU pr. 4-korts bank). Intet NVLink; inter-GPU P2P ved Gen5 x16 (~60 GB/s nominelt pr. link).
Hvad du kan løbe
Med 256 GB samlet VRAM på tværs af 8 Blackwell-kort med fp8 native, er denne server rettet mod frontier 235-480B MoE i 4. kvartal med reel kontekst, DeepSeek V3-familien i 2. kvartal og Kimi-K2 1.58-bit dynamisk kvantitet ved reel gennemløbshastighed.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3-235B-A22B (Instruktion / Tænkning / "2507") Q4 (~132 GB) med lang kontekst + flerbrugerbatching (~25-40 tok/s single-stream på 8x RTX 5090, publiceret reference)
- GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — flagskibslogik/kodning, 200k ctx på 4.6+
- GLM-5 / GLM-5.1 Q2 (~260 GB) med mindre RAM-spild — frontier-kodning tæt på Claude Opus 4.6
- DeepSeek V3 / R1 / V3.1 / V3.2 / V3.2-Speciale Q2 (~215 GB) ved nyttig inferenshastighed (~28 tok/s single-stream på 8x Blackwell, publiceret reference)
- Kimi-K2 1.58-bit UD-TQ1_0 (~240 GB) — agent med billioner af parametre ved reel token-gennemstrømning (~7-10 tok/s single-stream, publiceret reference)
- Hunyuan-stor 389B/52B MoE Q4 (~220 GB); ERNIE-4.5-424B-A47B 4. kvartal (~240 GB)
- Qwen3-koder-480B-A35B Q4 (~270 GB begrænset med RAM-spild) — SOTA åben kodnings flagskib
- MiniMax-M1 / Tekst-01 Q4 (~260 GB) 1M kontekst; Qwen3.5-397B-A17B 4. kvartal (~214 GB)
Vestgrænsen
- Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB med spild) — Vestlige grænseområders åbne vægte
- Flame 4 Maverick (400B/17B, 128 eksperter) Q4 (~232 GB) multimodal
- Llama-3.1-Nemotron Ultra 253B Q4 (~119 GB) — matcher DeepSeek-R1 i halv størrelse
- gpt-oss-120b MXFP4 native (80 GB) komfortabelt med plads til flere modeller
- Devstral 2 123B (Modificeret MIT) Q6 — øverste åben kodning, 256k ctx
- Lama 3.3 70B bf16 (~142 GB) multi-tenant-servering (~30-40 tok/s single-stream pr. RTX 5090-par TP2, offentliggjort reference)
Vision-sprog modeller
Qwen3-VL-235B-A22B fuld bf16 (~240 GB på kort); InternVL3.5-241B-A28B (~135 GB Q4); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16 (~248 GB stram); Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V fuld. Blackwell fp8-stien giver ~2x gennemløbshastighed på Vision-tower-inferens vs. Ada.
Billedgenerering
FLUX.1 [udvikling] / Kontext / Værktøjer fuld bf16 (~10-18 s/billede ved fp8 pr. kort, publiceret reference); SD 3.5 Stor; HunyuanImage-2.1 (17B, native 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; ComfyUI-farme med flere medarbejdere.
Video generation
Wan 2.2 T2V-A14B / I2V-A14B dual expert bf16 (begge støjsvage + støjsvage residenter samtidigt); HunyuanVideo 13B bf16 begge eksperter; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro; Stabil lyd åben; XTTS v2; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen; AudioGen; Bark; SeamlessM4T v2
Multimodel-/multi-lejer-servering
- Frontier-inference gateway — 200B+ MoE + samtidige 70B + billede + video, alle residenter
- 8-vejs tensor-parallel for Kimi-K2 / DeepSeek V3 i reel kontekst
- Multi-tenant LLM API — 50-100 samtidige brugere på 235B Q4 via vLLM/SGLang
- Fuld residency ved den kinesiske og vestlige grænse samtidig med henblik på evaluering/benchmarking
Målrettede arbejdsbyrder
- Frontier open-weight inference backend for en organisation med 100-500 pladser, der blander Qwen3-235B, GLM-4.5+ og DeepSeek V3 Q2
- Kimi-K2 1.58-bit agentplatform ved produktionsgennemstrømning (værktøjsbrug, 200+ sekventielle kald)
- Full-fp8 DeepSeek V3 / R1 serveret på Blackwell silicium
- Multi-node træningshoved med Gen5 100 GbE / InfiniBand fabric
- Dobbeltrolle-inferens + diffusionsfarm (Qwen3-235B + FLUX.1 + HunyuanVideo 13B samtidig)
Publicerede præstationsreferencer
Eksterne referencer | Ikke målt på Kentino-hardware
| benchmark | Resultat |
|---|---|
| RTX 5090 per-kort INT8 TOPS | 1 676 TOPPER |
| RTX 5090 hukommelsesbåndbredde | ~1800 GB/s pr. kort |
| vLLM — Qwen3-235B Q4_K_M på 4x RTX 5090 (enkelt) | ~90 tok/s |
| vLLM — Qwen3-235B Q4_K_M på 4x RTX 5090 (batch-32) | ~450 tok/s samlet |
| SGLang — DeepSeek V3 Q2 på 8x Blackwell (single) | ~28 tok/s |
| llama.cpp — Kimi-K2 UD-TQ1_0 på 8x Blackwell 256 GB | ~7-10 tok/s |
Kentino vil udgive førsteparts-tok/s efter den første kundeversion med den endelige Turin SKU.
Ikke ideel til
- Budgetbevidste implementeringer (Torino premium vs. Genova eller Rom alternativer)
- 70B kompakte arbejdsbelastninger med én lejer (overkill — 4x RTX 5090 eller 4x RTX Pro 6000 er det rigtige niveau)
- Frontier 600B+ ved 4. kvartal+ fuld kontekst (kræver 576 GB+ pulje — se 6x RTX Pro 6000)
- Vedvarende træning fra bunden (ingen NVLink på forbruger-RTX 5090)
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- Skalér RAM til 1.5 TB DDR5 (24x 64 GB fuld population) — påkrævet til Kimi-K2 Q4 eller DeepSeek V3 Q3 uden RAM-spild
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT — Gen5-struktur til klyngenoder
- Mellanox ConnectX-6 25 GbE SFP28 til datacenterstruktur
- 4 TB NVMe Gen4 x4 til opstart + modelbibliotek
- Fuld 24U rackkabinet med administreret PDU
- Online UPS 8-10 kVA (kritisk — 5.5 kW spidsbelastning)
Del
