Gå til produktinformation
1 of 7

Kentino sro

K-AI 768 TurinDual RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (Dual Turin)

K-AI 768 TurinDual RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (Dual Turin)

Regelmæssig pris € 0,00 EUR
Regelmæssig pris Udsalgspris € 0,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 768 TurinDual RTXPro6000MQ 16000TOPS

768 GB ECC VRAM Frontier Flagskib
8x RTX Pro 6000 Max-Q | Dobbelt EPYC Turin | 16.000 TOPS INT8

16 000
TOPS INT8
768 DK
ECC VRAM-pulje
Gen5
PCIe end-to-end
Flagship
grænse-multi-lejer

CPU-priser endeligt fastlagt ved bestilling — markedet for Turin 9005-serien bevæger sig ugentligt i 2. kvartal 2026.

Publicerede eksterne referencer. Ikke målt på Kentino-hardware.

Toppen af ​​Kentino AI-serverserien. En 7U rackmonteret flagskibsplatform i frontlinjen med otte NVIDIA RTX Pro 6000 Blackwell Max-Q turbofan-kort samlet i 768 GB ECC VRAM, to AMD EPYC Turin 9005-serie CPU'er (Zen5c, SP5), 1.5 TB DDR5-4800 ECC (alle 24 kanaler besat), 4 TB NVMe-opstart og 5x 1200 W server-strømforsyning. PCIe Gen5 end-to-end. DeepSeek V3 fp8 native (~670 GB) on-card. Kimi-K2 Q4-Q5. 4 frontlinjemodeller installeret samtidigt.

Hardware

Component Detalje
GPU'er 8x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turbofan, 600 W TDP-specifikation, PCIe 5.0 x16, 2000 INT8 TOPS/kort, fp8 native)
VRAM-pulje 768 GB i alt på tværs af 8 kort (ingen NVLink — P2P over PCIe Gen5 ved ~55-60 GB/s inden for socket, cross-socket via CPU-interconnect)
CPU 2x AMD EPYC Turin 9005-serien (Zen5c, SP5, PCIe 5.0) — tilbud afventes, nøjagtig SKU bekræftet ved bestilling
Bundkort ASRock Rack TURIN2D24XGM/500W (dobbelt SP5 Turin, PCIe 5.0, 24x DDR5, 2x 10 GbE, IPMI)
System RAM 1.5 TB DDR5-4800 ECC RDIMM (24x 64 GB — alle 24 kanaler er befolket, ~920 GB/s samlet)
Opbevaring / bagagerum 4 TB NVMe M.2 (PCIe 4.0 x4) — dimensioneret til grænsekontrolpunkter
Strømforsyning 5x 1200 W server strømforsyningssæt (6 kW i alt)
Chassis 7U 8-GPU rackmontering, 10 PCIe-slotkapacitet, aktive Gen5-risers
Køling 2x SP5 Turin tower-kølere + 8x 120 mm Martech-kabinetblæsere. Selvstændige turboblæsere pr. GPU.
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug (specifikationer): 8 x 600 W = 3600 W
  • CPU-forbrug: 2 x 360 W = 720 W (estimat for mellemniveau i Torino)
  • Systemtotal ved specificeret fuld belastning: ~4080 W
  • Strømforsyning i alt: 6.000 W — ~4.7 % rå headroom ved specifikationerne
  • Virkeligheden: Max-Q opretholder 520-550 W i inferens, hvilket øger den vedvarende headroom til ~20%+
  • Firmware-strømkapacitet på 520 W tilgængelig for garanteret headroom

Banetopologi

Dual Turin leverer 2x 128 PCIe Gen5-baner. TURIN2D24XGM/500W sender 8 GPU-slots direkte til CPU'erne ved Gen5 x16 via aktive risers — 4 slots pr. CPU-rod. Ingen PCIe-switch i GPU-stien — ren dual-root-topologi. NUMA-tuning kræves for optimal cross-socket peer-to-peer. Ingen NVLink; P2P ved ~55-60 GB/s pr. retning inden for socket.

Hvad du kan løbe

Med 768 GB samlet ECC VRAM – toppen af ​​Kentino-konvolutten – kører denne server DeepSeek V3 fp8 native (~670 GB) on-card, Kimi-K2 Q4-Q5 (~630 GB) komfortabelt, og det afgørende use case: 4 frontier-class modeller resident samtidigt til multi-tenant produktionsservering.

LLM'er — tekst / ræsonnement / kodning

Kinesisk grænse ved produktionsmængder

  • Kimi-K2 (Basis / Instruktion / Tænkning) ved Q4_K_M / Q5_K_M (~630 GB) komfortabel (~15-25 tok/s enkelt, publiceret reference) — flagskib i den kinesiske grænse på en enkelt boks ved produktionskvanter
  • DeepSeek V3 / R1 / V3.1 / V3.2 ved fp8 native (~670 GB) på kort (~30-50 tok/s enkelt, publiceret reference) — Blackwell fp8 tensorkerner kører dette native med hastighed
  • DeepSeek V3 ved Q4_K_M (~404 GB) med flere samtidige store batch-visningsinstanser
  • GLM-5 / GLM-5.1 (~745B/44B) ved 3.-4. kvartal (~420-560 GB) komfortabelt on-card
  • Praktikant-S1-Pro (1T/22B aktiv, SAGE) komfortabelt ved Q3-Q4 (~440-580 GB)
  • Qwen3-koder-480B-A35B ved Q5-Q6 (~340-400 GB) med 1 mio. ctx
  • Qwen3-235B-A22B ved bf16 (~470 GB) med generøs KV til lang kontekst
  • ERNIE-4.5-424B-A47B ved 6. kvartal (~360 GB); Hunyuan-stor ved fp8 (~390 GB)
  • MiniMax-Tekst-01 / M1 ved Q5-Q6 (~325-390 GB)

Vestlig grænse ved produktionsmængder

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) ved 3.-4. kvartal (~317-404 GB) komfortabel (~20-30 tok/s enkelt, publiceret reference)
  • Flame 4 Maverick (400B/17B, 128 eksperter) ved 5.-6. kvartal (~290-350 GB)
  • Llama-3.1-Nemotron Ultra 253B ved bf16 (~506 GB) på kortet
  • Snefnug Arktis ved 5.-6. kvartal (~350-420 GB); Grok-1 ved Q5-Q6 (~225-270 GB)
  • DBRX-instruktion 132B/36B ved bf16 (~264 GB) multi-instans

Vision-sprog modeller

Qwen3-VL-235B-A22B flagskibs-VLM med lang kontekst; InternVL3.5-241B-A28B ved bf16 (~482 GB); GLM-4.5V / 4.6V 106B bf16 multiinstans; Llama 3.2 90B Vision bf16 multiinstans; Pixtral Large 124B bf16; Molmo 72B bf16 multiinstans.

Billedgenerering

HunyuanImage-3.0 Instruerer samtidige instanser; FLUX.1 multi-instans (~15-20 s pr. 1024x1024 billede, publiceret reference); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0 — fuld kinesisk + vestlig billedstak resident samtidig.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B — mange samtidige streams; HunyuanVideo 13B bf16 flere samtidige streams; Open-Sora 2.0 (11B) multi-instans; Mochi-1 (10B) multi-instans; NVIDIA Cosmos Predict 2 op til 14B.

Lyd / Tale / TTS

Fuld stak resident ved batch: Whisper v3 large, Parakeet-TDT, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.

Multimodel-/multi-tenant-servering (den definerende use case)

  • Multi-tenant grænseproduktion: 4 frontier-klasse modeller resident samtidigt — f.eks. DeepSeek V3 fp8 + Kimi-K2 Q4 + Mistral Large 3 Q3 + Qwen3-Coder-480B Q5 — med partitioneret VRAM og SLO'er pr. lejer
  • Samtidig fp8-native Blackwell-inferens (DeepSeek V3 / R1-familie, Hunyuan fp8) + kvantiseret servering på separate PCIe-domæner
  • A/B-forskning på tværs af 4-5 frontier open-weight-modeller på forskningsniveau
  • Agentplatform med over 400 milliarder primære specialister + flere specialister på 30-70 milliarder

Målrettede arbejdsbyrder

  • Åbenvægtsproduktion med flere lejere i grænseområdet — flere grænsemodeller er placeret samtidig med isolation pr. lejer
  • Implementering af AI i suveræne grænser — on-prem DeepSeek V3 fp8 / Kimi-K2 / Mistral Large 3-adgang, EU-dataophold
  • Frontierforskningslaboratorium med A/B-evaluering på tværs af 4+ frontier open-weight-modeller på forskningsniveau
  • Enterprise agent platform, hvor 400+ MoE driver værktøjer + flere specialmodeller
  • Air-gapped reguleret industriinferens på grænseniveau med ECC + PCIe Gen5

Publicerede præstationsreferencer

Eksterne referencer | Ikke målt på Kentino-hardware

benchmark Resultat
RTX Pro 6000 per-kort INT8 TOPS 2 000 TOPPER
vLLM — DeepSeek V3 fp8 på 8x RTX Pro 6000 (enkelt) ~30-50 tok/s
vLLM — DeepSeek V3 fp8 på 8x RTX Pro 6000 (batch-32) 300-500 tok/s samlet
Kimi-K2 Q4 serverer på 8x RTX Pro 6000 (enkelt) ~15-25 tok/s
FLUX.1 [udvikling] fp8 på et enkelt RTX Pro 6000-kort ~15-20 sekunder pr. 1024x1024 billede

Nøjagtige tal bekræftet på PoC-stadiet. Kentino vil offentliggøre førstepartstal efter den indledende kundeudvikling.

Ikke ideel til

  • Budgetbevidste implementeringer — flagskibs-SKU til flagskibspris
  • Træning fra bunden på frontlinjemodeller — ingen NVLink, kun PCIe P2P (til træning i denne skala er H100/H200 SXM eller GB200 NVLink fabric det rigtige værktøj)
  • Plug-and-play-implementering — grænseoverskridende multi-tenant MoE-servering kræver et dygtigt MLOps-team

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in, memtest, funktionel verifikation, NUMA-tuning og opsætning af LLM-miljø (vLLM / SGLang / llama.cpp / CUDA 13-stak med fp8 Blackwell-kerner). Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.

Anbefalede tilføjelser

  • NVIDIA ConnectX-5 MCX555A-ECAT eller ConnectX-7 Gen5 100 GbE NIC til multi-node skalering
  • Mellanox ConnectX-6 25 GbE SFP28 til datacenterstruktur
  • Anden 4 TB NVMe til datasæt/modelbibliotek (grænsekontrolpunkter er store — Kimi-K2 bf16 alene er ~1 TB)
  • Fuld 24U rackkabinet med perforeret frontdør og administreret PDU
  • Online UPS 10 kVA (nøjsom nedlukning ved strømafbrydelse)
Se detaljer