Gå til produktinformation
1 of 7

Kentino sro

K-AI 576 Genoa RTXPro6000 12000TOPS — 6× RTX Pro 6000 Blackwell Server Edition AI Frontier Server

K-AI 576 Genoa RTXPro6000 12000TOPS — 6× RTX Pro 6000 Blackwell Server Edition AI Frontier Server

Regelmæssig pris € 106.069,00 EUR
Regelmæssig pris Udsalgspris € 106.069,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 576 Genoa RTXPro6000 12000TOPS

576 GB ECC VRAM Frontier Research Server
6x RTX Pro 6000 Server Edition | EPYC Genoa | 12.000 TOPS INT8

12 000
TOPS INT8
576 DK
ECC VRAM-pulje
BCM
PCIe Gen5-switch
Frontier
forskning på stedet

Publicerede eksterne referencer. Ikke målt på Kentino-hardware.

En 7U rackmonteret frontier-tier inferensplatform med seks NVIDIA RTX Pro 6000 Blackwell Server Edition passive kort samlet til 576 GB ECC VRAM, én AMD EPYC 9354 Genoa CPU (32C/64T), 768 GB DDR5-4800 ECC (alle 12 kanaler besat), 4 TB NVMe boot og 5x 1200 W server strømforsyning. Indbygget Broadcom PCIe Gen5 switch fordeler sig ensartet til alle 6 GPU-slots. DeepSeek V3 Q4 (~404 GB) komfortabel med lang kontekst, Kimi-K2 Q2, Mistral Large 3 Q2-Q3 - den komplette frontier on-prem.

Hardware

Component Detalje
GPU'er 6x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC (passiv, 600 W, PCIe 5.0 x16, 2000 INT8 TOPS pr. kort)
VRAM-pulje 576 GB i alt på tværs af 6 kort (ingen NVLink — P2P over PCIe Gen5 ved ~55-60 GB/s pr. retning)
CPU AMD EPYC 9354 Genoa (32C/64T, 280 W, 128x PCIe 5.0-baner, 12-kanals DDR5)
Bundkort ASRock Rack GENOAD8X-2T/BCM (SP5 Genoa, integreret Broadcom PEX PCIe Gen5-switch, 12x DDR5, 2x 10 GbE, IPMI)
System RAM 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — alle kanaler udfyldt, ~460 GB/s samlet)
Opbevaring / bagagerum 4 TB NVMe M.2 (PCIe 4.0 x4) — dimensioneret til frontier checkpoint staging
Strømforsyning 5x 1200 W server strømforsyningssæt (HP-kompatibel, 6 kW i alt)
Chassis 7U 8-GPU rackmontering, 10 PCIe-slotkapacitet, aktive Gen5-risers
Køling SP5 Genoa towerkøler, 8x 120 mm chassisblæsere, kræves luftstrøm fra front til bag i datacenteret. Passive GPU-kort.
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 6 x 600 W = 1800 W
  • Systemtotal ved fuld belastning: ~4080 W
  • Strømforsyning i alt: 6.000 W (5x 1200 W) — 32% headroom
  • Ingen effektgrænse nødvendig for steady-state-inferens

Banetopologi

GENOAD8X-2T/BCM integrerer en Broadcom PEX PCIe Gen5-switch på kortet. 128 Gen5-baner fra EPYC Genoa-root'en ​​opstrøms for switchen, som spredes ensartet ud til alle 6 GPU-slots ved Gen5 x16 end-to-end via aktive risers. Ren single-root-topologi — enklere NUMA-tuning end dual-socket. Ingen NVLink; P2P ved ~55-60 GB/s pr. retning.

Hvad du kan løbe

Med 576 GB samlet ECC VRAM på Blackwell fp8 native silicium kører denne server den fulde kinesiske + vestlige open-weight frontier på forskningsniveau kvantiteter: DeepSeek V3 Q4 (~404 GB) med lang kontekst, Kimi-K2 Q2, Mistral Large 3 Q2-Q3, GLM-5 Q2, Qwen3-Coder-480B Q4.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • DeepSeek V3 / R1 / V3.1 / V3.2 ved Q4_K_M (~404 GB) komfortabel med lang kontekst (~5-8 tok/s enkelt vLLM TP-6, publiceret reference); fp8 native (~670 GB) med RAM-spild
  • Kimi-K2 (Basis / Instruktion / Tænkning) ved Q2_K (~375 GB) komfortabel (~5-8 tok/s enkelt, publiceret reference)
  • GLM-5 / GLM-5.1 (~745B/44B) ved Q2_K (~260 GB) komfortabelt; Q3 (~420 GB med RAM-spild)
  • Qwen3-koder-480B-A35B ved Q4_K_M (~270 GB) med lang kontekst
  • Qwen3-235B-A22B ved bf16 (~470 GB) eller fp8 (~240 GB)
  • ERNIE-4.5-424B-A47B i 4. kvartal (~240 GB) med fuld 128k ctx
  • Praktikant-S1-Pro (1T/22B aktiv, SAGE) ved Q2_K (~325 GB) komfortabel
  • Hunyuan-stor A52B i 4. kvartal (~220 GB); MiniMax-M1 i 4. kvartal (~260 GB)

Vestgrænsen

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) ved 2.-3. kvartal (~243-317 GB) komfortabel (~20-30 tok/s enkelt, publiceret reference)
  • Flame 4 Maverick (400B/17B) ved Q4_K_M (~232 GB) med lang ctx (~45-55 tok/s enkelt, publiceret reference)
  • Llama-3.1-Nemotron Ultra 253B ved fp8 (~253 GB) eller bf16 med RAM-spild
  • Grok-1 314B i 4. kvartal (~182 GB); Snefnug Arktis i 4. kvartal (~278 GB)
  • DBRX-instruktion 132B/36B ved bf16 (~264 GB) eller fp8 multi-instans
  • Alle modeller i 70-120B-klassen ved bf16 med plads tilovers

Vision-sprog modeller

Qwen3-VL-235B-A22B flagskibs-VLM; InternVL3.5-241B-A28B Q4 (~135 GB); GLM-4.5V / 4.6V 106B bf16 (~210 GB); Llama 3.2 90B Vision bf16; Pixtral Large 124B fp8; Molmo 72B bf16.

Billedgenerering

HunyuanImage-3.0 Instruct-niveau (3x 80 GB) — passer til headroom; FLUX.1 [dev] / [schnell] / Kontext multi-instance (~15-20 s pr. 1024x1024 billede på enkelt RTX Pro 6000 fp8, publiceret reference); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B dual-expert MoE bf16 (~54 GB); HunyuanVideo 13B bf16 komfortabel; Open-Sora 2.0 (11B) bf16; Mochi-1 (10B) fp16; NVIDIA Cosmos Predict 2 op til 14B; CogVideoX-5B; LTX-Video; Pyramid Flow.

Lyd / Tale / TTS

Fuld stak resident samtidigt: Whisper v3 large, Parakeet-TDT 1.1B, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.

Multimodel-/multi-lejer-servering

  • DeepSeek V3 Q4 inferens + FLUX billede + HunyuanVideo + Whisper/Moshi realtidsstemme, alt resident samtidigt
  • Samtidig 70B tensor-parallel + 235B-MoE på separate PCIe-domæner via Broadcom-switchen
  • Forsknings-A/B-evaluering: 3 frontier open-weight-modeller installeret samtidigt

Målrettede arbejdsbyrder

  • Frontier åbent forskningslaboratorium — adgang til DeepSeek V3 / Kimi-K2 / Mistral Large 3-klassen på stedet uden cloud-udgang
  • Suveræn implementering af AI — EU-dataophold med en Apache 2.0 / MIT-modelstak
  • Enterprise multi-model RAG + agentplatform — flere 200-400B MoE-modeller residente
  • Modelevaluering/sikkerhedsforskning, der sammenligner kinesiske frontlinje vs. vestlige åbne vægte
  • Inferens i stor skala for regulerede industrier, der kræver air-gap + ECC + PCIe Gen5

Publicerede præstationsreferencer

Eksterne referencer | Ikke målt på Kentino-hardware

benchmark Resultat
RTX Pro 6000 per-kort INT8 TOPS 2 000 TOPPER
vLLM — DeepSeek V3 Q4 på 6x RTX Pro 6000 (enkelt) ~25-40 tok/s
vLLM — DeepSeek V3 Q4 på 6x RTX Pro 6000 (batch-32) 200-400 tok/s samlet
FLUX.1 [udvikling] fp8 på et enkelt RTX Pro 6000-kort ~15-20 sekunder pr. 1024x1024 billede

Nøjagtige tal bekræftet på PoC-stadiet. Kentino vil offentliggøre førstepartstal efter den indledende kundeudvikling.

Ikke ideel til

  • Kimi-K2 / DeepSeek V3 ved Q4 real-speed produktionslevering — opgrader til 768 GB Turin dual
  • Træning fra bunden på frontlinjemodeller — ingen NVLink, kun PCIe P2P
  • Plug-and-play-implementering — Frontier MoE-servering kræver et dygtigt MLOps-team

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in, memtest, funktionel verifikation og opsætning af LLM-miljø (vLLM / SGLang / llama.cpp / CUDA 13-stak med fp8 Blackwell-kerner). Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.

Anbefalede tilføjelser

  • NVIDIA ConnectX-5 MCX555A-ECAT 100 GbE NIC til multi-node skalering
  • Anden 4 TB NVMe til datasæt/modelbibliotek
  • Fuld 24U rackkabinet med perforeret frontdør
  • Online UPS 10 kVA
  • Administreret PDU
Se detaljer