Gå til produktinformation
1 of 7

Kentino sro

K-AI 256 TurinDual 5090 — 8× RTX 5090 Zen5c Flagskib med dobbelt sokkel (Anmod om tilbud på CPU)

K-AI 256 TurinDual 5090 — 8× RTX 5090 Zen5c Flagskib med dobbelt sokkel (Anmod om tilbud på CPU)

Regelmæssig pris € 0,00 EUR
Regelmæssig pris Udsalgspris € 0,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 256 TurinDual 5090 13408TOPS

256 GB VRAM Flagskibsinferensserver
8x RTX 5090 | Dobbelt EPYC Turin | 13 408 TOPS INT8

13 408
TOPS INT8
256 DK
VRAM-pulje
fp8
Blackwell-indfødt
Gen5
PCIe end-to-end

CPU-priser endeligt fastlagt ved bestilling — markedet for Turin 9005-serien bevæger sig ugentligt i 2. kvartal 2026.

Publicerede eksterne referencer. Ikke målt på Kentino-hardware.

En 7U rackmonteret flagskibsinferensserver med otte GeForce RTX 5090 (32 GB GDDR7, Blackwell, fp8 native) på en dual-socket EPYC Turin (Zen5c, SP5) platform med 768 GB DDR5-4800 ECC på tværs af alle 12 kanaler, 2 TB NVMe boot og 5x 1200 W server strømforsyning. End-to-end PCIe Gen5 på GPU'en via aktive retimer/redriver risers. Kører vLLM, SGLang, llama.cpp, ComfyUI og alle større open-weight inferensstacks direkte fra kassen.

Hardware

Component Detalje
GPU'er 8x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W TGP, PCIe 5.0 x16, fp8 native, 1676 INT8 TOPS/kort)
VRAM-pulje 256 GB samlet på tværs af 8 kort (ingen NVLink på forbruger-RTX 5090)
CPU 2x AMD EPYC Turin 9005-serien (Zen5c, SP5, PCIe 5.0) — tilbud afventes ved bestilling
Bundkort ASRock Rack TURIN2D24XGM/500W (dobbelt SP5, PCIe 5.0, 24x DDR5 DIMM)
System RAM 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — alle 12 kanaler er udfyldt; 12 pladser er tilbage til skalering til 1.5 TB)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning 5x 1200 W server strømforsyningssæt (HP-kompatibel, 6 kW samlet)
Chassis 7U 8-GPU (op til 10 PCIe-slots, separate strømforsyningsbåse)
Køling 2x SP5 towerkølere + rackmonteret front-til-bag-luftstrøm (industrielle ventilatorer)
risers 8x aktiv PCIe Gen5 x16 (retimer/redriver) — end-to-end Gen5
Netværk Indbygget 10 GbE (afhængigt af kortet)

Power kuvert

  • GPU-forbrug: 8 x 575 W = 1800 W
  • Systemtotal ved fuld belastning: ~4080 W
  • Strømforsyning i alt: 6.000 W (5x 1200 W) — 8% headroom ved specifikationerne
  • Kentino leveres med GPU-strømkapacitet på 500 W — i alt falder til ~4.920 W (~15 % headroom)

Banetopologi

Dual Turin leverer 2x 128 = 256 PCIe Gen5-baner på værtsiden. Aktive Gen5-risers bærer Gen5 x16 end-to-end ved hver GPU — ingen PCIe-switch kræves (én CPU pr. 4-korts bank). Intet NVLink; inter-GPU P2P ved Gen5 x16 (~60 GB/s nominelt pr. link).

Hvad du kan løbe

Med 256 GB samlet VRAM på tværs af 8 Blackwell-kort med fp8 native, er denne server rettet mod frontier 235-480B MoE i 4. kvartal med reel kontekst, DeepSeek V3-familien i 2. kvartal og Kimi-K2 1.58-bit dynamisk kvantitet ved reel gennemløbshastighed.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3-235B-A22B (Instruktion / Tænkning / "2507") Q4 (~132 GB) med lang kontekst + flerbrugerbatching (~25-40 tok/s single-stream på 8x RTX 5090, publiceret reference)
  • GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — flagskibslogik/kodning, 200k ctx på 4.6+
  • GLM-5 / GLM-5.1 Q2 (~260 GB) med mindre RAM-spild — frontier-kodning tæt på Claude Opus 4.6
  • DeepSeek V3 / R1 / V3.1 / V3.2 / V3.2-Speciale Q2 (~215 GB) ved nyttig inferenshastighed (~28 tok/s single-stream på 8x Blackwell, publiceret reference)
  • Kimi-K2 1.58-bit UD-TQ1_0 (~240 GB) — agent med billioner af parametre ved reel token-gennemstrømning (~7-10 tok/s single-stream, publiceret reference)
  • Hunyuan-stor 389B/52B MoE Q4 (~220 GB); ERNIE-4.5-424B-A47B 4. kvartal (~240 GB)
  • Qwen3-koder-480B-A35B Q4 (~270 GB begrænset med RAM-spild) — SOTA åben kodnings flagskib
  • MiniMax-M1 / Tekst-01 Q4 (~260 GB) 1M kontekst; Qwen3.5-397B-A17B 4. kvartal (~214 GB)

Vestgrænsen

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB med spild) — Vestlige grænseområders åbne vægte
  • Flame 4 Maverick (400B/17B, 128 eksperter) Q4 (~232 GB) multimodal
  • Llama-3.1-Nemotron Ultra 253B Q4 (~119 GB) — matcher DeepSeek-R1 i halv størrelse
  • gpt-oss-120b MXFP4 native (80 GB) komfortabelt med plads til flere modeller
  • Devstral 2 123B (Modificeret MIT) Q6 — øverste åben kodning, 256k ctx
  • Lama 3.3 70B bf16 (~142 GB) multi-tenant-servering (~30-40 tok/s single-stream pr. RTX 5090-par TP2, offentliggjort reference)

Vision-sprog modeller

Qwen3-VL-235B-A22B fuld bf16 (~240 GB på kort); InternVL3.5-241B-A28B (~135 GB Q4); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16 (~248 GB stram); Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V fuld. Blackwell fp8-stien giver ~2x gennemløbshastighed på Vision-tower-inferens vs. Ada.

Billedgenerering

FLUX.1 [udvikling] / Kontext / Værktøjer fuld bf16 (~10-18 s/billede ved fp8 pr. kort, publiceret reference); SD 3.5 Stor; HunyuanImage-2.1 (17B, native 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; ComfyUI-farme med flere medarbejdere.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B dual expert bf16 (begge støjsvage + støjsvage residenter samtidigt); HunyuanVideo 13B bf16 begge eksperter; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Lyd / Tale / TTS

  • ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro; Stabil lyd åben; XTTS v2; Step-Audio-EditX
  • Realtid / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
  • Musik / SFX: MusicGen; AudioGen; Bark; SeamlessM4T v2

Multimodel-/multi-lejer-servering

  • Frontier-inference gateway — 200B+ MoE + samtidige 70B + billede + video, alle residenter
  • 8-vejs tensor-parallel for Kimi-K2 / DeepSeek V3 i reel kontekst
  • Multi-tenant LLM API — 50-100 samtidige brugere på 235B Q4 via vLLM/SGLang
  • Fuld residency ved den kinesiske og vestlige grænse samtidig med henblik på evaluering/benchmarking

Målrettede arbejdsbyrder

  • Frontier open-weight inference backend for en organisation med 100-500 pladser, der blander Qwen3-235B, GLM-4.5+ og DeepSeek V3 Q2
  • Kimi-K2 1.58-bit agentplatform ved produktionsgennemstrømning (værktøjsbrug, 200+ sekventielle kald)
  • Full-fp8 DeepSeek V3 / R1 serveret på Blackwell silicium
  • Multi-node træningshoved med Gen5 100 GbE / InfiniBand fabric
  • Dobbeltrolle-inferens + diffusionsfarm (Qwen3-235B + FLUX.1 + HunyuanVideo 13B samtidig)

Publicerede præstationsreferencer

Eksterne referencer | Ikke målt på Kentino-hardware

benchmark Resultat
RTX 5090 per-kort INT8 TOPS 1 676 TOPPER
RTX 5090 hukommelsesbåndbredde ~1800 GB/s pr. kort
vLLM — Qwen3-235B Q4_K_M på 4x RTX 5090 (enkelt) ~90 tok/s
vLLM — Qwen3-235B Q4_K_M på 4x RTX 5090 (batch-32) ~450 tok/s samlet
SGLang — DeepSeek V3 Q2 på 8x Blackwell (single) ~28 tok/s
llama.cpp — Kimi-K2 UD-TQ1_0 på 8x Blackwell 256 GB ~7-10 tok/s

Kentino vil udgive førsteparts-tok/s efter den første kundeversion med den endelige Turin SKU.

Ikke ideel til

  • Budgetbevidste implementeringer (Torino premium vs. Genova eller Rom alternativer)
  • 70B kompakte arbejdsbelastninger med én lejer (overkill — 4x RTX 5090 eller 4x RTX Pro 6000 er det rigtige niveau)
  • Frontier 600B+ ved 4. kvartal+ fuld kontekst (kræver 576 GB+ pulje — se 6x RTX Pro 6000)
  • Vedvarende træning fra bunden (ingen NVLink på forbruger-RTX 5090)

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • Skalér RAM til 1.5 TB DDR5 (24x 64 GB fuld population) — påkrævet til Kimi-K2 Q4 eller DeepSeek V3 Q3 uden RAM-spild
  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT — Gen5-struktur til klyngenoder
  • Mellanox ConnectX-6 25 GbE SFP28 til datacenterstruktur
  • 4 TB NVMe Gen4 x4 til opstart + modelbibliotek
  • Fuld 24U rackkabinet med administreret PDU
  • Online UPS 8-10 kVA (kritisk — 5.5 kW spidsbelastning)
Se detaljer