Kentino sro
K-AI 384 Rome RTXPro6000MQ — 4× RTX Pro 6000 Blackwell Max-Q Turbofan (384 GB ECC VRAM)
K-AI 384 Rome RTXPro6000MQ — 4× RTX Pro 6000 Blackwell Max-Q Turbofan (384 GB ECC VRAM)
Kunne ikke indlæse afhentningstilgængelighed
K-AI 384 Rome RTXPro6000MQ 8000TOPS
384 GB ECC VRAM Lab-server
4x RTX Pro 6000 Max-Q Turbofan | EPYC Milan | 8.000 TOPS INT8
Publicerede eksterne referencer. Ikke målt på Kentino-hardware.
En 4U rackmonteret inferensserver med fire NVIDIA RTX Pro 6000 Blackwell Max-Q turbofan (blæser)-kort (96 GB ECC hver) samlet i 384 GB ECC VRAM, én AMD EPYC 7643 Milan CPU (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2.5 kW ATX strømforsyning. Samme Blackwell-silicium som Server Edition - identisk inferenskurve, identisk gennemløbshastighed - med en mere støjsvag blæserkøler, der er egnet til laboratorie-, R&D- og kontortilstødende miljøer.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 4x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turbofan/blæserkøler, 600 W TGP, PCIe 5.0 x16, 2000 INT8 TOPS/kort, fp8 native) |
| VRAM-pulje | 384 GB samlet ECC på tværs af 4 kort |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 DIMM-pladser åbne til opgradering til 512 GB) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | 2x 2.5 kW ATX med dobbelt strømforsyningssynkroniseringskabel (5 kW samlet) |
| Chassis | 4U rackmontering |
| Køling | SP3 tårnkøler (Arctic Freezer 4U-M klasse) + luftstrøm rettet mod forsiden og bagsiden (3x 120 mm frontindtag + 1x 120 mm bagudstødning). GPU-kort selvkølet via turbofanblæser (bagudstødning) — mere støjsvag til laboratoriemiljøer. |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 4 x 600 W = 1800 W
- Systemtotal under fuld belastning: ~2 775 W
- Strømforsyning i alt: 5.000 W (dobbelt 2.5 kW synkroniseret) — 44.5 % headroom
- Dobbelt strømforsyning til delt strømforsyning — enkelt strømforsyningsfejl = tab af 2 GPU'er eller 2 GPU'er + bundkort
Termisk profil (Max-Q)
Max-Q bruger en turbofan (blæser) køler med retningsbestemt udstødning bagfra på kortet. Forventet GPU-hotspot på 72-80 C under kontinuerlig belastning. Væsentligt mere støjsvag end passive kort i et kabinet med højt statisk tryk. Bedre egnet til luftstrøm uden for datacenter, åbne racks eller placering ved siden af laboratoriet/kontoret. Silicium, TDP, ECC og ydeevne er identiske med Server Edition.
Hvad du kan løbe
Identisk med Server Edition (K-AI 384 Rome RTXPro6000) — samme Blackwell-silicium, samme 384 GB ECC-pool, samme fp8 native, samme modelkompatibilitet. Forskellen er akustisk, ikke beregningsmæssig.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- DeepSeek V3 / V3-0324 / V3.1 / V3.2 / R1 / R1-0528 Q3 (~290 GB) komfortabelt på kortet (~30-40 tok/s enkelt, publiceret reference); fp8 native (~670 GB) med RAM-spild
- Qwen3-koder-480B-A35B Q3 (~350 GB begrænset med RAM-spild) — SOTA åben kodningsagent (~18-25 tok/s enkelt, publiceret reference)
- Qwen3-235B-A22B Q6/Q8 (~200-280 GB) med lang ctx og flerbrugerbatching
- GLM-5 / GLM-5.1 Q3 (~317 GB) — Kinesisk grænse, tæt på Claude Opus 4.6 om kodning
- Kimi-K2 1.58-bit UD (~240 GB) — agent med billioner parametre ved reel gennemløbshastighed
- Hunyuan-stor 389B/52B Q4 (~220 GB), fp8 native (~390 GB spill)
- ERNIE-4.5-424B-A47B 4. kvartal (~240 GB); MiniMax-M1 Q4 (~260 GB) 1M-ctx
- Lama 3.3 70B bf16-resident på et enkelt kort (96 GB/kort)
Vestgrænsen
- Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB) — åbne vægte i det vestlige frontierland (~20-30 tok/s enkelt, offentliggjort reference)
- Flame 4 Maverick (400B/17B) Q4 (~232 GB) med generøst KV-budget (~45-55 tok/s enkelt, offentliggjort reference)
- Llama-3.1-Nemotron Ultra 253B Q4-Q6 (~119-207 GB)
- gpt-oss-120b MXFP4 native (80 GB med samtidig flådekapacitet
- Pixtral Stor / Mistral Stor 2 bf16 (~248 GB); Devstral 2 123B bf16 — 256k øverste åben kodning
- Lama 3.3 70B bf16 på et enkelt kort; 4x samtidige 70B-implementeringer mulige
Vision-sprog modeller
Qwen3-VL-235B-A22B bf16 (~240 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16; Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V 106B bf16 på TP. Blackwell fp8 leverer ~2x gennemløbshastighed på Vision-Tower-inferens vs. Ada.
Billedgenerering
FLUX.1 [dev] / Kontext / Værktøjer ved fp8 native (~15-20 s pr. 1024x1024 billede på enkelt RTX Pro 6000, publiceret reference); SD 3.5 Large; HunyuanImage-2.1 (17B native 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; 4x samtidige ComfyUI-workers.
Video generation
Wan 2.2 T2V-A14B / I2V-A14B dobbelt-ekspert bf16; HunyuanVideo 13B bf16 begge eksperter; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo; Parakeet-TDT; Canary; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro; Stabil lyd åben; XTTS v2; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen / AudioGen / Bark / SeamlessM4T
Multimodel-/multi-lejer-servering
- DeepSeek V3 Q3 + samtidig 70B + FLUX.1 + Whisper all resident
- 4-vejs tensor-parallel på 350-400B klasse ved Q4
- Isolering af lejere pr. kort — én 96 GB Llama 3.3 70B bf16 pr. kort, 4 uafhængige inferenssiloer
- Multi-model RAG: læser + reranger + vision + embedder, alt sammen på én vært
Målrettede arbejdsbyrder
- Frontier open-weight inference for et laboratorie-/F&U-team, hvor det akustiske budget er vigtigt
- Serverrum til små teams uden dedikeret datacenterluftstrøm — Max-Q selvkøling tolererer placering i åbne racks
- Kontortilstødende AI-arbejdsstation til et specialistteam (ML-forskning, agentværktøjer)
- fp8-native visning (DeepSeek / R1 / Hunyuan) i laboratorieindstillinger
- Isolationsarbejdsbelastning for 4 lejere pr. kort med støjbudget
Publicerede præstationsreferencer
Eksterne referencer | Samme silicium som Server Edition | Ikke målt på Kentino-hardware
| benchmark | Resultat |
|---|---|
| RTX Pro 6000 per-kort INT8 TOPS | 2 000 TOPPER |
| RTX Pro 6000 hukommelsesbåndbredde | ~1800 GB/s pr. kort |
| vLLM — DeepSeek V3 Q3 på 4x Blackwell PCIe (enkelt) | ~30-40 tok/s |
| vLLM — DeepSeek V3 Q3 på 4x Blackwell PCIe (batch-8) | ~200 tok/s samlet |
| SGLang — Llama 4 Maverick Q4 på 4x Blackwell (single) | ~45-55 tok/s |
| llama.cpp — Qwen3-Coder-480B Q3 på 4x Blackwell (enkelt) | ~18-25 tok/s |
| FLUX.1 [udvikling] fp8 på et enkelt RTX Pro 6000-kort | ~1.8 sekunder pr. 1024x1024 billede |
Kentino vil offentliggøre førstepartstal efter den indledende kundeudvikling.
Ikke ideel til
- Korrekt implementering af datacenterracks med etableret varmgangsluftstrøm — vælg i stedet den passive Server Edition (K-AI 384 Rome RTXPro6000): samme silicium, enklere mekanisk
- Enkeltbruger-arbejdsbelastninger på op til 70B (4x RTX 5090 er væsentligt billigere for en pool på 128 GB)
- Uddannelse på grænsen fra bunden (ingen NVLink)
- Fuld DeepSeek V3 Q4 på kort (~404 GB) — opgrader til 6x RTX Pro 6000 / 576 GB
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in, memtest og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- Opgrader RAM til 512 GB DDR4 (tilføj 2x 64 GB — 2 DIMM-pladser åbne) for RAM-spill headroom på Q3 frontier quants
- 4 TB NVMe Gen4 x4 til frontier-modelbibliotek (DeepSeek V3 Q3 alene har ~290 GB på disken)
- Fuld 24U rackskab med administreret PDU + online UPS
- Alternativ silhuet: passiv Server Edition (K-AI 384 Rome RTXPro6000) — samme silicium, til implementering af luftstrøm i datacentre
Del
