Gå til produktinformation
1 of 7

Kentino sro

K-AI 192 Rome RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milano

K-AI 192 Rome RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milano

Regelmæssig pris € 25.162,00 EUR
Regelmæssig pris Udsalgspris € 25.162,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 192 Rome RTXPro6000 4000TOPS

192 GB ECC Blackwell Flagship-par
2x RTX Pro 6000 Server Edition | EPYC Milano | 8.000 TOPS INT4

4 000
INT8 TOPPER
192 DK
ECC VRAM
Blackwell
fp8 native
2-kort
minimal TP

To passive RTX Pro 6000 Blackwell Server Edition-kort — 96 GB ECC hver. Mindre tensor-parallel overhead end builds med 4 eller 8 kort. Datacenter-flagskibspar.

En 4U rackmonteret inferensserver med to passive RTX Pro 6000 Blackwell Server Edition-kort (96 GB ECC GDDR7 pr. kort), én AMD EPYC 7643 Milan CPU (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe boot og en enkelt 2 kW ATX strømforsyning. For 70B tæt bf16 og mellemstore MoE-kort er færre store kort bedre end flere små kort — to-korts tensorparallelisme har minimal kommunikationsoverhead, og hvert 96 GB kort indeholder en komplet kopi af de fleste modeller.

Hardware

Component Detalje
GPU'er 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (passiv, 600 W, PCIe 5.0 x16, dobbelt slot)
VRAM-pulje 192 GB ECC (96 GB x 2) — hvert kort indeholder en 70B bf16 model standalone
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning 1x 2 kW ATX strømforsyning
Chassis 4U rackmontering med rettet luftstrøm fra forsiden til bagsiden
Køling Arctic Freezer 4U-M SP3 tårn + 3x 120 mm frontindtag + 1x 120 mm bagudstødning
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 2 x 600 W = 1800 W
  • Systemtotal ved fuld belastning: ~4080 W
  • Strømforsyning i alt: 2.000 W (enkelt 2 kW) — 23.7 % frihøjde
  • Tilstrækkelig med én strømforsyning; valgfri opgradering med to strømforsyninger for N+1 redundans

Banetopologi

PCIe Gen4 x16 pr. GPU (kortet er Gen5 native; Rome-kort begrænset til Gen4). Direkte root-complex-forbindelse — ingen PCIe-switch. Ingen NVLink — inter-GPU peer-to-peer. Fem x16-slots forbliver åbne til udvidelse. Gen4 vs Gen5 ubetydelig for inferens ved denne VRAM-tæthed.

Hvad du kan løbe

Med 192 GB ECC VRAM på kun to Blackwell-kort med native fp8/fp4 er dette den reneste vej til tæt 70B ved bf16 og mellemstor MoE. To uafhængige 70B-streams — én pr. kort — eller 200B MoE på tværs af begge med minimal 2-vejs TP-overhead.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) komfortabel med lang ctx (~15-25 tok/s single-stream på tværs af 2 kort); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B tæt bf16 med enorm KV; QwQ-32B bf16
  • DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB med lille RAM-spild) — Blackwell kører fp8 native; DeepSeek-R2 32B bf16 to samtidige streams (én pr. kort)
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — heltekonfiguration på dette niveau; GLM-4.5-Air fp8 eller bf16 med kæmpe KV
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE med 256k ctx; Hunyuan-A13B fp8 native (~80 GB) med enorm KV
  • Andet: Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)

Vestgrænsen

  • Meta Lama: Llama 3.3 70B bf16 på ét kort — to uafhængige samtidige 70B-streams (~20-30 tok/s pr. stream); Llama 4 Scout bf16 (~218 GB, tæt); Llama 4 Maverick Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) enkeltkort eller bf16 på tværs af begge; Mistral Small 3 multistream
  • OpenAI (åbne vægte): gpt-oss-120b MXFP4 native (80 GB) — passer til ÉT kort, to uafhængige samtidige streams
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 på enkelt kort
  • Andet: Cohere Command R+ 104B Q6 (~85 GB) på ét kort; Google Gemma 3 27B bf16 flere samtidige streams

Vision-sprog modeller

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 enkeltkort; Pixtral Large 124B bf16 eller Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodal x 2-3 samtidige streams.

Billedgenerering

FLUX.1 [dev] bf16 flere samtidige streams; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Stor bf16 samtidig; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 samtidige; HunyuanImage-3.0 base (80B MoE, 13B aktiv) bf16 — passer på ét kort; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Video generation

Wan 2.2 MoE dual-expert bf16 fuld kontekst — passer på ét kort, to samtidige generationsstrømme; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 begge eksperter; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Lyd / Tale / TTS

  • ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabil lyd åben; Step-Audio-EditX
  • Realtid / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2

Multimodel-/multi-lejer-servering

  • To uafhængige 70B-strømme — én pr. kort, den enkleste form for lejerisolering
  • Tæt 70B bf16 + understøttende stak — LLM på kort 1, billede/video/lyd på kort 2
  • 200B MoE på tværs af begge kort — minimal tensor-parallel overhead (2-vejs split)
  • fp8-native frontier — DeepSeek V3-familien, Hunyuan-Large fp8 med Blackwell native stier

Målrettede arbejdsbyrder

  • Tæt 70B bf16-inferens — to kort tensorparallelle med minimal overhead eller én model pr. kort til streaming
  • 100-150B MoE ved Q4-Q6 (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
  • FP8-native frontier inference (DeepSeek V3-familien, Hunyuan, Llama 4) — Blackwell kører fp8 nativt
  • Billed- + videogenereringsstudie på bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [udvikler])
  • Analyse af langkontekstdokumenter (MiniMax-M1, Kimi-K2 1.58-bit UD med spill)

Målt ydeevne

Publicerede referencer | NVIDIA RTX Pro 6000 Blackwell Server Edition datablad + community benchmarks

benchmark Resultat
INT8 TOPS pr. kort (NVIDIA-datablad) 2 000 TOPPER
Samlede INT8 TOPS (2 kort) 4 000 TOPPER
Hukommelsesbåndbredde pr. kort ~1800 GB/s, 96 GB ECC GDDR7
Llama 3.3 70B bf16 pr. kort (fællesskab) 15-25 tok/s enkeltstrøm, 60-90 tok/s batch
Dobbeltkort tensor-parallel 70B (fællesskab) ~30-45 tok/s enkeltstrøm forventet
Blackwell fp8 native DeepSeek-V3 fp8, Hunyuan-A13B fp8 kører uden bf16 upcast

Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.

Ikke ideel til

  • Meget høj samtidighedsvisning af flere lejere — 4x L40 eller 6x L4 fordeler bedre på tværs af flere kort
  • Tung KV-cache ved meget lang kontekst — opgrader til K-AI 384 RTXPro6000 8000TOPS
  • Træning — Kentino sælger ikke NVLink-stoffer i H-klassen
  • Budgetinferens ved 192 GB pool — 8x RTX 4090 er billigere (bytter ECC og passiv køling til fordel for prisen)

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

NVIDIA OEM 3 års garanti på RTX Pro 6000 Server Edition + Kentino integrationsgaranti. Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.

Anbefalede tilføjelser

  • Opgrader til dobbelt 2 kW synkroniseret strømforsyning for N+1 redundans
  • Opgrader RAM til 512 GB (4 DIMM-pladser ledige)
  • 4 TB NVMe til store biblioteker og modelstaging
  • Udvid til 4-kortskonfiguration (K-AI 384 RTXPro6000 8000TOPS) — kabinettet har slotkapacitet
  • 24U rackskab + online UPS 5 kVA
Se detaljer