Kentino sro
K-AI 192 Turin2U RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — 2U Turin SP5
K-AI 192 Turin2U RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — 2U Turin SP5
Kunne ikke indlæse afhentningstilgængelighed
K-AI 192 Turin2U RTXPro6000 4000TOPS
192 GB ECC Blackwell Flagship-par
2x RTX Pro 6000 Server Edition | EPYC Turin SP5 | 4.000 TOPS INT8
To passive RTX Pro 6000 Blackwell Server Edition-kort -- 96 GB ECC hver. Mindre tensor-parallel overhead end 4- eller 8-korts builds. Datacenter-flagskibspar på en Gen5/DDR5 2U-platform med ægte 1+1 redundant strøm.
En 2U rackmonteret inferensserver med to passive RTX Pro 6000 Blackwell Server Edition-kort (96 GB ECC GDDR7 pr. kort), én AMD EPYC 9335 Turin CPU (32C/64T, 3.0/4.4 GHz), 512 GB DDR5-4800 ECC, 5.76 TB datacenter Gen5 NVMe og en 1+1 redundant 2.7 kW 80+ Platinum CRPS strømforsyning. Fra €56.600 ekskl. moms. For 70B tæt bf16 og mellemstore MoE-kort er færre store kort bedre end flere små kort -- to-korts tensorparallelisme har minimal kommunikationsoverhead, og hvert 96 GB-kort indeholder en komplet kopi af de fleste modeller.
Det samme 192 GB Blackwell-par som vores 4U Rome-build, i et 2U rack-tæt ASRock-kabinet med fuld Gen5-værtside, DDR5-4800-hukommelse og en ægte 1+1 redundant 2.7 kW Platinum CRPS-strømforsyning. Vælg denne build, når rack-tæthed er vigtig, når dine tilladelses- eller indkøbsspecifikationer kræver en moderne PCIe 5.0 / DDR5-platform, eller når redundant strøm er et krav snarere end et mersalg.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (passiv, 600 W, PCIe 5.0 x16, dobbelt slot) |
| VRAM-pulje | 192 GB ECC (96 GB x 2) -- hvert kort indeholder en 70B bf16 model standalone |
| CPU | AMD EPYC 9335 Turin (32C/64T, 3.0/4.4 GHz, 210 W, SP5, 128x PCIe 5.0-baner, Zen5c, 256 MB L3) |
| Bundkort | ASRock Rack 2U4G-GENOA/M3 (SP5, 4x PCIe 5.0 x16 dual-slot GPU, 8x DDR5 1DPC, OCP 3.0, IPMI AST2600) |
| System RAM | 512 GB DDR5-4800 ECC RDIMM (8x 64 GB, 1 DPC fuldt udbygget -- konfiguration med maks. båndbredde) |
| Opbevaring / bagagerum | Kioxia CD8-P 3.84 TB Gen5 U.3 (hot-tier, 1 DWPD, ~12 GB/s læsning) + Kioxia CD8-P 1.92 TB Gen5 U.3 (boot OS-tier) -- 5.76 TB samlet datacenter Gen5 NVMe |
| Strømforsyning | 1+1 redundant 2.7 kW 80+ Platinum CRPS (2x 1350 W ved 230 V) -- ægte N+1 redundans; én strømforsyning understøtter fuld inferensbelastning |
| Chassis | 2U rackmontering med front-til-bagud rettet luftstrøm (80 mm højtryksblæsere). Kompatibel med 24/7. |
| Køling | SP5 aktiv CPU-køleplade + 3x 80x38 mm frontindtag + 1x 80x80 mm bagudstødning (designet til 4x passiv GPU-termisk belastning; 2-korts layout giver rigelig termisk plads) |
| Netværk | Intel X710-T2L PCIe dual 10GBASE-T + OCP 3.0-slot tilgængelig til 25/100 GbE-opgradering |
Power kuvert
- GPU-forbrug: 2x 600 W = 1200 W
- Systemtotal ved fuld belastning: ~4080 W
- Strømforsyningskonfiguration: 1+1 redundant CRPS, 2x 1350 W ved 230 V (2700 W i alt)
- Lofthøjde: 44.1 % under typisk inferensbelastning
- Ægte N+1 redundans -- én strømforsyning opretholder fuld inferensbelastning; ingen risiko for fejl på én strømforsyning
Banetopologi
PCIe Gen5 x16 end-to-end -- både værts- og kortnative Gen5. Direkte root-kompleks forbindelse, ingen PCIe-switch. Én PCIe 5.0 x16 single-slot + én PCIe 5.0 x8-slot forbliver tilgængelig (NIC optager x8-slot). Ingen NVLink -- inter-GPU peer-to-peer via PCIe. Gen5-båndbredde eliminerer Gen4-værtsgrænsen, der findes i 4U Rome-søsteren.
Hvad du kan løbe
Med 192 GB ECC VRAM på kun to Blackwell-kort med native fp8/fp4 er dette den reneste vej til tæt 70B ved bf16 og mellemstor MoE. To uafhængige 70B-streams -- én pr. kort -- eller 200B MoE på tværs af begge med minimal 2-vejs TP-overhead.
LLM'er -- tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) komfortabel med lang ctx (~15-25 tok/s single-stream på tværs af 2 kort); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B tæt bf16 med enorm KV; QwQ-32B bf16
- DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB med lille RAM-spild) -- Blackwell kører fp8 native; DeepSeek-R2 32B bf16 to samtidige streams (én pr. kort)
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) -- heltekonfiguration på dette niveau; GLM-4.5-Air fp8 eller bf16 med kæmpe KV
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) -- 389B MoE med 256k ctx; Hunyuan-A13B fp8 native (~80 GB) med enorm KV
- Andet: Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)
Vestgrænsen
- Meta Lama: Llama 3.3 70B bf16 på ét kort -- to uafhængige samtidige 70B-streams (~20-30 tok/s pr. stream); Llama 4 Scout bf16 (~218 GB, tæt); Llama 4 Maverick Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) enkeltkort eller bf16 på tværs af begge; Mistral Small 3 multistream
- OpenAI (åbne vægte): gpt-oss-120b MXFP4 native (80 GB) -- passer til ÉT kort, to uafhængige samtidige streams
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 på enkelt kort
- Andet: Cohere Command R+ 104B Q6 (~85 GB) på ét kort; Google Gemma 3 27B bf16 flere samtidige streams
Vision-sprog modeller
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 enkeltkort; Pixtral Large 124B bf16 eller Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodal x 2-3 samtidige streams.
Billedgenerering
FLUX.1 [dev] bf16 flere samtidige streams; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Stor bf16 samtidig; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 samtidige; HunyuanImage-3.0 base (80B MoE, 13B aktiv) bf16 -- passer på ét kort; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Video generation
Wan 2.2 MoE dual-expert bf16 fuld kontekst -- passer på ét kort, to samtidige generationsstrømme; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 begge eksperter; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabil lyd åben; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2
Multimodel-/multi-lejer-servering
- To uafhængige 70B-strømme -- én pr. kort, den enkleste form for lejerisolering
- Tæt 70B bf16 + understøttende stak -- LLM på kort 1, billede/video/lyd på kort 2
- 200B MoE på tværs af begge kort -- minimal tensor-parallel overhead (2-vejs split)
- fp8-native frontier -- DeepSeek V3-familie, Hunyuan-Large fp8 med Blackwell native stier
Målrettede arbejdsbyrder
- Tæt 70B bf16-inferens -- to kort tensorparallelle med minimal overhead, eller én model pr. kort til streaming
- 100-150B MoE ved Q4-Q6 (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
- FP8-native frontier inference (DeepSeek V3-familien, Hunyuan, Llama 4) -- Blackwell kører fp8 nativt
- Videnskabelig beregning, der kræver Gen5 NVMe-gennemstrømning og ECC-hukommelse i datacenterklassen
- Billed- + videogenereringsstudie på bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [udvikler])
- Implementeringer med begrænset rackdensitet -- 2U-formfaktor vs. 4U Rom-ækvivalenten ved samme VRAM
- Indkøbsspecifikationer, der kræver PCIe 5.0 / DDR5-platform eller redundant strømforsyning
Målt ydeevne
Publicerede referencer | NVIDIA RTX Pro 6000 Blackwell Server Edition datablad + community benchmarks
| benchmark | Resultat |
|---|---|
| INT8 TOPS pr. kort (NVIDIA-datablad) | 2 000 TOPPER |
| Samlede INT8 TOPS (2 kort) | 4 000 TOPPER |
| Hukommelsesbåndbredde pr. kort | ~1800 GB/s, 96 GB ECC GDDR7 |
| Llama 3.3 70B bf16 pr. kort (fællesskab) | 15-25 tok/s single-stream, 60-90 tok/s batch -- forventet forbedring fra Gen5 værtssidehukommelsessti i streamingbatch-arbejdsbelastninger vs. Gen4 vært |
| Gen5-fordel på værtssiden (enkelt kort, samme silicium) | PCIe 5.0 x16 end-to-end reducerer overførselslatens mellem vært og enhed for streaming af batch-arbejdsbelastninger; beregningsbundne opgaver på kortet ser identisk gennemløbshastighed som Gen4-hostede builds |
| Dobbeltkort tensor-parallel 70B (fællesskab) | ~30-45 tok/s enkeltstrøm forventet |
| Blackwell fp8 native | DeepSeek-V3 fp8, Hunyuan-A13B fp8 kører uden bf16 upcast |
Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.
Ikke ideel til
- Meget høj samtidighedsvisning af flere lejere -- 4x L40 eller 6x L4 fordeler bedre på tværs af flere kort
- Tung KV-cache ved meget lang kontekst -- opgrader til K-AI 576 Genoa RTXPro6000 12000TOPS
- Træning -- Kentino sælger ikke NVLink-stoffer i H-klassen
- Budgetinferens ved denne VRAM-pulje -- 4U Rome K-AI 192 RTXPro6000 4000TOPS-buildet er billigere, hvis Gen4-værtssiden er acceptabel, og PSU-redundans ikke er påkrævet.
Garanti og leveringstid
NVIDIA OEM 3 års garanti på RTX Pro 6000 Server Edition + 36 måneders chassisgaranti + Kentino-integrationsgaranti. Byggeprocessen inkluderer samling, BIOS/firmwarekonfiguration, IPMI-opsætning, driverinstallation, burn-in-test og funktionel verifikation. Leveringstid på 14-21 hverdage afspejler forhandlerordre for Turin-klassekomponenter; bekræftet ved ordreafgivelse.
Anbefalede tilføjelser
- Udvid til 4-kortskonfiguration -- kabinettet har 4 GPU-båse indbygget (nuværende build bruger 2 af 4), opgraderingssti til K-AI 384 Turin2U RTXPro6000 8000TOPS
- Tilføj 25 GbE eller 100 GbE via OCP 3.0-slot (Mellanox ConnectX-5/6 OCP-variant)
- Yderligere Kioxia CD8-P NVMe i de 2 resterende U.2-båse til RAID- eller scratch-lagring
- Opgrader lagerniveau til Samsung PM1743 eller Kioxia CM7-V for højere udholdenhed (3 DWPD)
- 24U rackskab + online UPS 5 kVA
Del
