Gå til produktinformation
1 of 7

Kentino sro

K-AI 384 Rome RTXPro6000MQ — 4× RTX Pro 6000 Blackwell Max-Q Turbofan (384 GB ECC VRAM)

K-AI 384 Rome RTXPro6000MQ — 4× RTX Pro 6000 Blackwell Max-Q Turbofan (384 GB ECC VRAM)

Regelmæssig pris € 46.583,00 EUR
Regelmæssig pris Udsalgspris € 46.583,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 384 Rome RTXPro6000MQ 8000TOPS

384 GB ECC VRAM Lab-server
4x RTX Pro 6000 Max-Q Turbofan | EPYC Milan | 8.000 TOPS INT8

8 000
TOPS INT8
384 DK
ECC VRAM-pulje
fp8
Blackwell-indfødt
Stille
turbofan-køling

Publicerede eksterne referencer. Ikke målt på Kentino-hardware.

En 4U rackmonteret inferensserver med fire NVIDIA RTX Pro 6000 Blackwell Max-Q turbofan (blæser)-kort (96 GB ECC hver) samlet i 384 GB ECC VRAM, én AMD EPYC 7643 Milan CPU (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2.5 kW ATX strømforsyning. Samme Blackwell-silicium som Server Edition - identisk inferenskurve, identisk gennemløbshastighed - med en mere støjsvag blæserkøler, der er egnet til laboratorie-, R&D- og kontortilstødende miljøer.

Hardware

Component Detalje
GPU'er 4x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turbofan/blæserkøler, 600 W TGP, PCIe 5.0 x16, 2000 INT8 TOPS/kort, fp8 native)
VRAM-pulje 384 GB samlet ECC på tværs af 4 kort
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 DIMM-pladser åbne til opgradering til 512 GB)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning 2x 2.5 kW ATX med dobbelt strømforsyningssynkroniseringskabel (5 kW samlet)
Chassis 4U rackmontering
Køling SP3 tårnkøler (Arctic Freezer 4U-M klasse) + luftstrøm rettet mod forsiden og bagsiden (3x 120 mm frontindtag + 1x 120 mm bagudstødning). GPU-kort selvkølet via turbofanblæser (bagudstødning) — mere støjsvag til laboratoriemiljøer.
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 4 x 600 W = 1800 W
  • Systemtotal under fuld belastning: ~2 775 W
  • Strømforsyning i alt: 5.000 W (dobbelt 2.5 kW synkroniseret) — 44.5 % headroom
  • Dobbelt strømforsyning til delt strømforsyning — enkelt strømforsyningsfejl = tab af 2 GPU'er eller 2 GPU'er + bundkort

Termisk profil (Max-Q)

Max-Q bruger en turbofan (blæser) køler med retningsbestemt udstødning bagfra på kortet. Forventet GPU-hotspot på 72-80 C under kontinuerlig belastning. Væsentligt mere støjsvag end passive kort i et kabinet med højt statisk tryk. Bedre egnet til luftstrøm uden for datacenter, åbne racks eller placering ved siden af ​​laboratoriet/kontoret. Silicium, TDP, ECC og ydeevne er identiske med Server Edition.

Hvad du kan løbe

Identisk med Server Edition (K-AI 384 Rome RTXPro6000) — samme Blackwell-silicium, samme 384 GB ECC-pool, samme fp8 native, samme modelkompatibilitet. Forskellen er akustisk, ikke beregningsmæssig.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • DeepSeek V3 / V3-0324 / V3.1 / V3.2 / R1 / R1-0528 Q3 (~290 GB) komfortabelt på kortet (~30-40 tok/s enkelt, publiceret reference); fp8 native (~670 GB) med RAM-spild
  • Qwen3-koder-480B-A35B Q3 (~350 GB begrænset med RAM-spild) — SOTA åben kodningsagent (~18-25 tok/s enkelt, publiceret reference)
  • Qwen3-235B-A22B Q6/Q8 (~200-280 GB) med lang ctx og flerbrugerbatching
  • GLM-5 / GLM-5.1 Q3 (~317 GB) — Kinesisk grænse, tæt på Claude Opus 4.6 om kodning
  • Kimi-K2 1.58-bit UD (~240 GB) — agent med billioner parametre ved reel gennemløbshastighed
  • Hunyuan-stor 389B/52B Q4 (~220 GB), fp8 native (~390 GB spill)
  • ERNIE-4.5-424B-A47B 4. kvartal (~240 GB); MiniMax-M1 Q4 (~260 GB) 1M-ctx
  • Lama 3.3 70B bf16-resident på et enkelt kort (96 GB/kort)

Vestgrænsen

  • Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB) — åbne vægte i det vestlige frontierland (~20-30 tok/s enkelt, offentliggjort reference)
  • Flame 4 Maverick (400B/17B) Q4 (~232 GB) med generøst KV-budget (~45-55 tok/s enkelt, offentliggjort reference)
  • Llama-3.1-Nemotron Ultra 253B Q4-Q6 (~119-207 GB)
  • gpt-oss-120b MXFP4 native (80 GB med samtidig flådekapacitet
  • Pixtral Stor / Mistral Stor 2 bf16 (~248 GB); Devstral 2 123B bf16 — 256k øverste åben kodning
  • Lama 3.3 70B bf16 på et enkelt kort; 4x samtidige 70B-implementeringer mulige

Vision-sprog modeller

Qwen3-VL-235B-A22B bf16 (~240 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16; Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V 106B bf16 på TP. Blackwell fp8 leverer ~2x gennemløbshastighed på Vision-Tower-inferens vs. Ada.

Billedgenerering

FLUX.1 [dev] / Kontext / Værktøjer ved fp8 native (~15-20 s pr. 1024x1024 billede på enkelt RTX Pro 6000, publiceret reference); SD 3.5 Large; HunyuanImage-2.1 (17B native 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; 4x samtidige ComfyUI-workers.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B dobbelt-ekspert bf16; HunyuanVideo 13B bf16 begge eksperter; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Lyd / Tale / TTS

  • ASR: Whisper v3 stor / turbo; Parakeet-TDT; Canary; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro; Stabil lyd åben; XTTS v2; Step-Audio-EditX
  • Realtid / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
  • Musik / SFX: MusicGen / AudioGen / Bark / SeamlessM4T

Multimodel-/multi-lejer-servering

  • DeepSeek V3 Q3 + samtidig 70B + FLUX.1 + Whisper all resident
  • 4-vejs tensor-parallel på 350-400B klasse ved Q4
  • Isolering af lejere pr. kort — én 96 GB Llama 3.3 70B bf16 pr. kort, 4 uafhængige inferenssiloer
  • Multi-model RAG: læser + reranger + vision + embedder, alt sammen på én vært

Målrettede arbejdsbyrder

  • Frontier open-weight inference for et laboratorie-/F&U-team, hvor det akustiske budget er vigtigt
  • Serverrum til små teams uden dedikeret datacenterluftstrøm — Max-Q selvkøling tolererer placering i åbne racks
  • Kontortilstødende AI-arbejdsstation til et specialistteam (ML-forskning, agentværktøjer)
  • fp8-native visning (DeepSeek / R1 / Hunyuan) i laboratorieindstillinger
  • Isolationsarbejdsbelastning for 4 lejere pr. kort med støjbudget

Publicerede præstationsreferencer

Eksterne referencer | Samme silicium som Server Edition | Ikke målt på Kentino-hardware

benchmark Resultat
RTX Pro 6000 per-kort INT8 TOPS 2 000 TOPPER
RTX Pro 6000 hukommelsesbåndbredde ~1800 GB/s pr. kort
vLLM — DeepSeek V3 Q3 på 4x Blackwell PCIe (enkelt) ~30-40 tok/s
vLLM — DeepSeek V3 Q3 på 4x Blackwell PCIe (batch-8) ~200 tok/s samlet
SGLang — Llama 4 Maverick Q4 på 4x Blackwell (single) ~45-55 tok/s
llama.cpp — Qwen3-Coder-480B Q3 på 4x Blackwell (enkelt) ~18-25 tok/s
FLUX.1 [udvikling] fp8 på et enkelt RTX Pro 6000-kort ~1.8 sekunder pr. 1024x1024 billede

Kentino vil offentliggøre førstepartstal efter den indledende kundeudvikling.

Ikke ideel til

  • Korrekt implementering af datacenterracks med etableret varmgangsluftstrøm — vælg i stedet den passive Server Edition (K-AI 384 Rome RTXPro6000): samme silicium, enklere mekanisk
  • Enkeltbruger-arbejdsbelastninger på op til 70B (4x RTX 5090 er væsentligt billigere for en pool på 128 GB)
  • Uddannelse på grænsen fra bunden (ingen NVLink)
  • Fuld DeepSeek V3 Q4 på kort (~404 GB) — opgrader til 6x RTX Pro 6000 / 576 GB

Garanti og leveringstid

3 år
NVIDIA OEM GPU-garanti
2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in, memtest og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • Opgrader RAM til 512 GB DDR4 (tilføj 2x 64 GB — 2 DIMM-pladser åbne) for RAM-spill headroom på Q3 frontier quants
  • 4 TB NVMe Gen4 x4 til frontier-modelbibliotek (DeepSeek V3 Q3 alene har ~290 GB på disken)
  • Fuld 24U rackskab med administreret PDU + online UPS
  • Alternativ silhuet: passiv Server Edition (K-AI 384 Rome RTXPro6000) — samme silicium, til implementering af luftstrøm i datacentre
Se detaljer