Kentino sro
K-AI 192 Rome RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milano
K-AI 192 Rome RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milano
Kunne ikke indlæse afhentningstilgængelighed
K-AI 192 Rome RTXPro6000 4000TOPS
192 GB ECC Blackwell Flagship-par
2x RTX Pro 6000 Server Edition | EPYC Milano | 8.000 TOPS INT4
To passive RTX Pro 6000 Blackwell Server Edition-kort — 96 GB ECC hver. Mindre tensor-parallel overhead end builds med 4 eller 8 kort. Datacenter-flagskibspar.
En 4U rackmonteret inferensserver med to passive RTX Pro 6000 Blackwell Server Edition-kort (96 GB ECC GDDR7 pr. kort), én AMD EPYC 7643 Milan CPU (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe boot og en enkelt 2 kW ATX strømforsyning. For 70B tæt bf16 og mellemstore MoE-kort er færre store kort bedre end flere små kort — to-korts tensorparallelisme har minimal kommunikationsoverhead, og hvert 96 GB kort indeholder en komplet kopi af de fleste modeller.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (passiv, 600 W, PCIe 5.0 x16, dobbelt slot) |
| VRAM-pulje | 192 GB ECC (96 GB x 2) — hvert kort indeholder en 70B bf16 model standalone |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | 1x 2 kW ATX strømforsyning |
| Chassis | 4U rackmontering med rettet luftstrøm fra forsiden til bagsiden |
| Køling | Arctic Freezer 4U-M SP3 tårn + 3x 120 mm frontindtag + 1x 120 mm bagudstødning |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 2 x 600 W = 1800 W
- Systemtotal ved fuld belastning: ~4080 W
- Strømforsyning i alt: 2.000 W (enkelt 2 kW) — 23.7 % frihøjde
- Tilstrækkelig med én strømforsyning; valgfri opgradering med to strømforsyninger for N+1 redundans
Banetopologi
PCIe Gen4 x16 pr. GPU (kortet er Gen5 native; Rome-kort begrænset til Gen4). Direkte root-complex-forbindelse — ingen PCIe-switch. Ingen NVLink — inter-GPU peer-to-peer. Fem x16-slots forbliver åbne til udvidelse. Gen4 vs Gen5 ubetydelig for inferens ved denne VRAM-tæthed.
Hvad du kan løbe
Med 192 GB ECC VRAM på kun to Blackwell-kort med native fp8/fp4 er dette den reneste vej til tæt 70B ved bf16 og mellemstor MoE. To uafhængige 70B-streams — én pr. kort — eller 200B MoE på tværs af begge med minimal 2-vejs TP-overhead.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) komfortabel med lang ctx (~15-25 tok/s single-stream på tværs af 2 kort); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B tæt bf16 med enorm KV; QwQ-32B bf16
- DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB med lille RAM-spild) — Blackwell kører fp8 native; DeepSeek-R2 32B bf16 to samtidige streams (én pr. kort)
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — heltekonfiguration på dette niveau; GLM-4.5-Air fp8 eller bf16 med kæmpe KV
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE med 256k ctx; Hunyuan-A13B fp8 native (~80 GB) med enorm KV
- Andet: Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)
Vestgrænsen
- Meta Lama: Llama 3.3 70B bf16 på ét kort — to uafhængige samtidige 70B-streams (~20-30 tok/s pr. stream); Llama 4 Scout bf16 (~218 GB, tæt); Llama 4 Maverick Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) enkeltkort eller bf16 på tværs af begge; Mistral Small 3 multistream
- OpenAI (åbne vægte): gpt-oss-120b MXFP4 native (80 GB) — passer til ÉT kort, to uafhængige samtidige streams
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 på enkelt kort
- Andet: Cohere Command R+ 104B Q6 (~85 GB) på ét kort; Google Gemma 3 27B bf16 flere samtidige streams
Vision-sprog modeller
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 enkeltkort; Pixtral Large 124B bf16 eller Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodal x 2-3 samtidige streams.
Billedgenerering
FLUX.1 [dev] bf16 flere samtidige streams; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Stor bf16 samtidig; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 samtidige; HunyuanImage-3.0 base (80B MoE, 13B aktiv) bf16 — passer på ét kort; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Video generation
Wan 2.2 MoE dual-expert bf16 fuld kontekst — passer på ét kort, to samtidige generationsstrømme; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 begge eksperter; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabil lyd åben; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2
Multimodel-/multi-lejer-servering
- To uafhængige 70B-strømme — én pr. kort, den enkleste form for lejerisolering
- Tæt 70B bf16 + understøttende stak — LLM på kort 1, billede/video/lyd på kort 2
- 200B MoE på tværs af begge kort — minimal tensor-parallel overhead (2-vejs split)
- fp8-native frontier — DeepSeek V3-familien, Hunyuan-Large fp8 med Blackwell native stier
Målrettede arbejdsbyrder
- Tæt 70B bf16-inferens — to kort tensorparallelle med minimal overhead eller én model pr. kort til streaming
- 100-150B MoE ved Q4-Q6 (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
- FP8-native frontier inference (DeepSeek V3-familien, Hunyuan, Llama 4) — Blackwell kører fp8 nativt
- Billed- + videogenereringsstudie på bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [udvikler])
- Analyse af langkontekstdokumenter (MiniMax-M1, Kimi-K2 1.58-bit UD med spill)
Målt ydeevne
Publicerede referencer | NVIDIA RTX Pro 6000 Blackwell Server Edition datablad + community benchmarks
| benchmark | Resultat |
|---|---|
| INT8 TOPS pr. kort (NVIDIA-datablad) | 2 000 TOPPER |
| Samlede INT8 TOPS (2 kort) | 4 000 TOPPER |
| Hukommelsesbåndbredde pr. kort | ~1800 GB/s, 96 GB ECC GDDR7 |
| Llama 3.3 70B bf16 pr. kort (fællesskab) | 15-25 tok/s enkeltstrøm, 60-90 tok/s batch |
| Dobbeltkort tensor-parallel 70B (fællesskab) | ~30-45 tok/s enkeltstrøm forventet |
| Blackwell fp8 native | DeepSeek-V3 fp8, Hunyuan-A13B fp8 kører uden bf16 upcast |
Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.
Ikke ideel til
- Meget høj samtidighedsvisning af flere lejere — 4x L40 eller 6x L4 fordeler bedre på tværs af flere kort
- Tung KV-cache ved meget lang kontekst — opgrader til K-AI 384 RTXPro6000 8000TOPS
- Træning — Kentino sælger ikke NVLink-stoffer i H-klassen
- Budgetinferens ved 192 GB pool — 8x RTX 4090 er billigere (bytter ECC og passiv køling til fordel for prisen)
Garanti og leveringstid
NVIDIA OEM 3 års garanti på RTX Pro 6000 Server Edition + Kentino integrationsgaranti. Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.
Anbefalede tilføjelser
- Opgrader til dobbelt 2 kW synkroniseret strømforsyning for N+1 redundans
- Opgrader RAM til 512 GB (4 DIMM-pladser ledige)
- 4 TB NVMe til store biblioteker og modelstaging
- Udvid til 4-kortskonfiguration (K-AI 384 RTXPro6000 8000TOPS) — kabinettet har slotkapacitet
- 24U rackskab + online UPS 5 kVA
Del
