Kentino sro
K-AI 576 Genoa RTXPro6000MQ 12000TOPS — 6× RTX Pro 6000 Blackwell Max-Q AI Frontier-server
K-AI 576 Genoa RTXPro6000MQ 12000TOPS — 6× RTX Pro 6000 Blackwell Max-Q AI Frontier-server
Kunne ikke indlæse afhentningstilgængelighed
K-AI 576 Genoa RTXPro6000MQ 12000TOPS
576 GB ECC VRAM Frontier-server
6x RTX Pro 6000 Max-Q Turbofan | EPYC Genoa | 12.000 TOPS INT8
Publicerede eksterne referencer. Ikke målt på Kentino-hardware.
En 7U rackmonteret frontier-tier inferensplatform med seks NVIDIA RTX Pro 6000 Blackwell Max-Q turbofan-kort samlet i 576 GB ECC VRAM, én AMD EPYC 9354 Genoa CPU (32C/64T), 768 GB DDR5-4800 ECC (alle 12 kanaler besat), 4 TB NVMe boot og 5x 1200 W server PSU. Samme silicium- og hukommelsespool som den passive Server Edition-build — anden køler. Max-Q turbofanen er selvstændig pr. kort, kører mere støjsvag og tolererer mindre streng chassis-luftstrøm. Identisk modelkonvolut med sin passive søskende.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 6x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turbofan-blæser, 600 W TDP-specifikation, PCIe 5.0 x16, 2000 INT8 TOPS pr. kort) |
| VRAM-pulje | 576 GB i alt på tværs af 6 kort (ingen NVLink — P2P over PCIe Gen5 ved ~55-60 GB/s pr. retning) |
| CPU | AMD EPYC 9354 Genoa (32C/64T, 280 W, 128x PCIe 5.0-baner, 12-kanals DDR5) |
| Bundkort | ASRock Rack GENOAD8X-2T/BCM (SP5 Genoa, integreret Broadcom PEX PCIe Gen5-switch, 12x DDR5, 2x 10 GbE, IPMI) |
| System RAM | 768 GB DDR5-4800 ECC RDIMM (12x 64 GB — alle kanaler udfyldt, ~460 GB/s samlet) |
| Opbevaring / bagagerum | 4 TB NVMe M.2 (PCIe 4.0 x4) — dimensioneret til frontier checkpoint staging |
| Strømforsyning | 5x 1200 W server strømforsyningssæt (HP-kompatibel, 6 kW i alt) |
| Chassis | 7U 8-GPU rackmontering, 10 PCIe-slotkapacitet, aktive Gen5-risers |
| Køling | SP5 Genoa towerkøler + 8x 120 mm chassisblæsere. Turboblæsere pr. GPU er selvstændige — luftstrøm i datacenteret anbefales, men er ikke strengt påkrævet. Mere støjsvage til laboratoriemiljøer. |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug (specifikationer): 6 x 600 W = 3600 W
- Systemtotal ved specificeret fuld belastning: ~4080 W
- Strømforsyning i alt: 6.000 W (5x 1200 W) — 32% headroom
- Max-Q-kort kører typisk på 520-550 W vedvarende — reel headroom på over 20 %
Køling (Max-Q differentiator)
Hvert kort trækker luft frem og tilbage via sin egen blæser — uafhængig pr. kort. Tolererer blandet rack-/åbent kabinet-implementering. Mere støjsvag end en tilsvarende aksial blæserstak. Max-Q firmwareprofilen foretrækker lavere vedvarende effekt (typisk 520-550 W). Anbefalet: kabinet med perforeret frontdør og fri bagudgående udstødningskanal.
Hvad du kan løbe
Identisk med Server Edition-søskendemodellen — samme silicium, samme 576 GB pulje. DeepSeek V3 Q4 (~404 GB) med lang kontekst, Kimi-K2 Q2, Mistral Large 3 Q2-Q3, GLM-5 Q2, Qwen3-Coder-480B Q4.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- DeepSeek V3 / R1 / V3.1 / V3.2 ved Q4_K_M (~404 GB) komfortabel med lang kontekst (~5-8 tok/s enkelt vLLM TP-6, publiceret reference); fp8 native (~670 GB) med RAM-spild
- Kimi-K2 (Basis / Instruktion / Tænkning) ved Q2_K (~375 GB) komfortabel (~5-8 tok/s enkelt, publiceret reference)
- GLM-5 / GLM-5.1 (~745B/44B) ved Q2_K (~260 GB); Q3 (~420 GB) med RAM-spild
- Qwen3-koder-480B-A35B ved Q4_K_M (~270 GB) med lang kontekst
- Qwen3-235B-A22B ved bf16 (~470 GB) eller fp8 (~240 GB)
- ERNIE-4.5-424B-A47B i 4. kvartal (~240 GB) med 128k ctx
- Praktikant-S1-Pro ved Q2_K (~325 GB); Hunyuan-stor i 4. kvartal (~220 GB)
- MiniMax-Tekst-01 / M1 i 4. kvartal (~260 GB)
Vestgrænsen
- Mistral Large 3 komfortabelt ved 2.-3. kvartal (~243-317 GB) (~20-30 tok/s enkelt, offentliggjort reference)
- Flame 4 Maverick ved Q4_K_M (~232 GB) med lang ctx (~45-55 tok/s enkelt, publiceret reference)
- Llama-3.1-Nemotron Ultra 253B ved fp8 (~253 GB)
- Grok-1 314B i 4. kvartal (~182 GB); Snefnug Arktis i 4. kvartal (~278 GB)
- DBRX-instruktion 132B/36B ved bf16 (~264 GB) eller fp8
Vision-sprog modeller
Qwen3-VL-235B-A22B; InternVL3.5-241B-A28B Q4; GLM-4.5V / 4.6V 106B bf16; Llama 3.2 90B Vision bf16; Pixtral Large 124B fp8; Molmo 72B bf16.
Billedgenerering
HunyuanImage-3.0 Instruktion; FLUX.1 [dev] / [schnell] / Kontext multi-instans (~15-20 s pr. 1024x1024 billede, publiceret reference); SD 3.5 Stor; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0.
Video generation
Wan 2.2 T2V-A14B dual-expert MoE bf16; HunyuanVideo 13B bf16; Open-Sora 2.0 (11B); Mochi-1 (10B); NVIDIA Cosmos Predict 2 op til 14B; CogVideoX-5B; LTX-Video; Pyramid Flow.
Lyd / Tale / TTS
Fuld stak resident: Whisper v3 large, Parakeet-TDT 1.1B, Canary 1B, Moshi 7B realtime, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.
Multimodel-/multi-lejer-servering
- DeepSeek V3 Q4 + FLUX + HunyuanVideo + Whisper/Moshi realtid, alt resident
- Samtidig 70B tensor-parallel + 235B-MoE på separate PCIe-domæner
- 3 frontiermodeller residente til A/B-evaluering
Målrettede arbejdsbyrder
- Frontier åbent forskningslaboratorium med blandet/ikke-ideel luftstrømsinfrastruktur
- Colocation / privat datacenter, hvor en turbofan per kort er operationelt enklere end fuld passiv luftstrøm
- Suveræn AI-implementering med Apache 2.0 / MIT-modelstak
- Enterprise multi-model RAG + agentplatform
- Laboratoriemiljøer med åbne stativer
Publicerede præstationsreferencer
Eksterne referencer | Samme silicium som Server Edition | Ikke målt på Kentino-hardware
| benchmark | Resultat |
|---|---|
| RTX Pro 6000 per-kort INT8 TOPS | 2 000 TOPPER |
| vLLM — DeepSeek V3 Q4 på 6x RTX Pro 6000 (enkelt) | ~25-40 tok/s |
| vLLM — DeepSeek V3 Q4 på 6x RTX Pro 6000 (batch-32) | 200-400 tok/s samlet |
| FLUX.1 [udvikling] fp8 på et enkelt RTX Pro 6000-kort | ~15-20 sekunder pr. 1024x1024 billede |
Nøjagtige tal bekræftet på PoC-stadiet. Kentino vil offentliggøre førstepartstal efter den indledende kundeudvikling.
Ikke ideel til
- Kimi-K2 / DeepSeek V3 ved Q4 real-speed produktionsservering — opgrader til K-AI 768 TurinDual RTXPro6000MQ
- Træning fra bunden på frontier-klasse modeller — ingen NVLink
- Plug-and-play-implementering — Frontier MoE-servering kræver et dygtigt MLOps-team
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in, memtest, funktionel verifikation og opsætning af LLM-miljøet. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- NVIDIA ConnectX-5 MCX555A-ECAT 100 GbE NIC til multi-node skalering
- Anden 4 TB NVMe til datasæt/modelbibliotek
- Fuld 24U rackkabinet med perforeret frontdør
- Online UPS 10 kVA
- Administreret PDU
Del
