Kentino sro
K-AI 384 Rome RTXPro6000 — 4× RTX Pro 6000 Blackwell Server Edition (384 GB ECC VRAM)
K-AI 384 Rome RTXPro6000 — 4× RTX Pro 6000 Blackwell Server Edition (384 GB ECC VRAM)
Kunne ikke indlæse afhentningstilgængelighed
K-AI 384 Rome RTXPro6000 8000TOPS
384 GB ECC VRAM datacenterserver
4x RTX Pro 6000 Server Edition | EPYC Milano | 8.000 TOPS INT8
Publicerede eksterne referencer. Ikke målt på Kentino-hardware.
En 4U rackmonteret inferensserver med fire NVIDIA RTX Pro 6000 Blackwell Server Edition passive datacenterkort (96 GB ECC hver) samlet i 384 GB ECC VRAM, én AMD EPYC 7643 Milan CPU (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2.5 kW ATX strømforsyning. Blackwell silicium med fp8 native acceleration. Passiv luftstrømsstyret køling til datacenterchassis. Kører DeepSeek V3 Q3, Mistral Large 3, Qwen3-Coder-480B og alle større frontier open-weight modeller.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 4x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC (passiv datacenterkøler, 600 W TGP, PCIe 5.0 x16, 2000 INT8 TOPS/kort, fp8 native) |
| VRAM-pulje | 384 GB samlet ECC på tværs af 4 kort |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 DIMM-pladser åbne til opgradering til 512 GB) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | 2x 2.5 kW ATX med dobbelt strømforsyningssynkroniseringskabel (5 kW samlet) |
| Chassis | 4U rackmontering |
| Køling | SP3-tårnkøler (Arctic Freezer 4U-M-klasse) + luftstrøm rettet mod forsiden og bagsiden (3x 120 mm frontindtag + 1x 120 mm bagudstødning). Passive GPU-kort — kræver luftstrøm i datacenterchassis. |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 4 x 600 W = 1800 W
- Systemtotal under fuld belastning: ~2 775 W
- Strømforsyning i alt: 5.000 W (dobbelt 2.5 kW synkroniseret) — 44.5 % headroom
- Dobbelt strømforsyning til delt strømforsyning — enkelt strømforsyningsfejl = tab af 2 GPU'er eller 2 GPU'er + bundkort
Banetopologi
ROMED8-2T eksponerer 7x PCIe 4.0 x16 direkte fra EPYC Milan. Fire slots er besat — tre fri til NIC/lagring/telemetri. RTX Pro 6000 er Gen5-kompatibelt silicium; kører Gen4 ved fuld x16 på denne platform — ingen båndbreddeflaskehals til inferens. Ingen PCIe-switch. Ingen NVLink.
Hvad du kan løbe
Med 384 GB samlet ECC VRAM på Blackwell fp8 native silicium kører denne server komfortabelt DeepSeek V3 / R1 på Q3 på et kort, Mistral Large 3 Q3, GLM-5 Q3, Qwen3-Coder-480B Q3 og Llama 3.3 70B bf16 resident på et enkelt kort (96 GB/kort).
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- DeepSeek V3 / V3-0324 / V3.1 / V3.2 / R1 / R1-0528 Q3 (~290 GB) komfortabelt på kortet (~30-40 tok/s enkelt, publiceret reference); fp8 native (~670 GB) med RAM-spild
- Qwen3-koder-480B-A35B Q3 (~350 GB begrænset med RAM-spild) — SOTA åben kodningsagent (~18-25 tok/s enkelt, publiceret reference)
- Qwen3-235B-A22B Q6/Q8 (~200-280 GB) med meget lang ctx og flerbrugerbatching
- GLM-5 / GLM-5.1 Q3 (~317 GB) — Kinesisk grænse, tæt på Claude Opus 4.6 om kodning
- Kimi-K2 1.58-bit UD (~240 GB) — agent med billioner parametre ved reel gennemløbshastighed
- Hunyuan-stor 389B/52B Q4 (~220 GB), fp8 native (~390 GB spill)
- ERNIE-4.5-424B-A47B 4. kvartal (~240 GB); MiniMax-M1 Q4 (~260 GB) 1M-ctx
- Lama 3.3 70B bf16 resident på et enkelt kort (96 GB/kort — ingen tensor-parallel nødvendig)
Vestgrænsen
- Mistral Large 3 (675B/41B MoE, Apache 2.0) Q3 (~317 GB) — åbne vægte i det vestlige frontierland (~20-30 tok/s enkelt, offentliggjort reference)
- Flame 4 Maverick (400B/17B) Q4 (~232 GB) med generøst KV-budget (~45-55 tok/s enkelt, offentliggjort reference)
- Llama-3.1-Nemotron Ultra 253B Q4-Q6 (~119-207 GB)
- gpt-oss-120b MXFP4 native (80 GB) med massiv samtidig flådekapacitet
- Pixtral Stor / Mistral Stor 2 bf16 (~248 GB); Devstral 2 123B bf16 — 256k øverste åben kodning
- Lama 3.3 70B bf16 på et enkelt kort; 4x samtidige 70B-implementeringer mulige
Vision-sprog modeller
Qwen3-VL-235B-A22B bf16 (~240 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16; Pixtral Large 124B bf16 (~248 GB); Qwen3-Omni-30B-A3B; Molmo 72B; ERNIE-4.5-VL; GLM-4.6V 106B bf16 på TP. Blackwell fp8 leverer ~2x gennemløbshastighed på Vision-Tower-inferens vs. Ada.
Billedgenerering
FLUX.1 [dev] / Kontext / Værktøjer ved fp8 native (~15-20 s pr. 1024x1024 billede på enkelt RTX Pro 6000, publiceret reference); SD 3.5 Large; HunyuanImage-2.1 (17B native 2K); HunyuanImage-3.0 80B/13B MoE; AuraFlow; OmniGen; 4x samtidige ComfyUI-workers.
Video generation
Wan 2.2 T2V-A14B / I2V-A14B dobbelt ekspert bf16; HunyuanVideo 13B bf16 begge eksperter; Open-Sora 2.0 (11B) bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo; Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro; Stabil lyd åben; XTTS v2; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen / AudioGen / Bark / SeamlessM4T
Multimodel-/multi-lejer-servering
- DeepSeek V3 Q3 + samtidig 70B + FLUX.1 + Whisper all resident
- 4-vejs tensor-parallel på 350-400B klasse ved Q4
- Isolering af lejere pr. kort — én 96 GB Llama 3.3 70B bf16 pr. kort, 4 uafhængige inferenssiloer
- Multi-model RAG: læser + reranger + vision + embedder, alt sammen på én vært
Målrettede arbejdsbyrder
- Frontier open-weight inference backend — DeepSeek V3 Q3, Qwen3-Coder-480B Q3, GLM-5 Q3
- Produktionsservice af Llama 4 Maverick Q4 multimodale agenter med generøst kontekstbudget
- Isolation af 4 lejere pr. kort — én Llama 3.3 70B bf16 pr. lejer, nul krydskontaminering
- fp8-native DeepSeek / R1 / Hunyuan serverer på Blackwell silicium
- Mistral Large 3 Q3 som Western Apache-2.0 frontier åbenvægtsalternativ
Publicerede præstationsreferencer
Eksterne referencer | Ikke målt på Kentino-hardware
| benchmark | Resultat |
|---|---|
| RTX Pro 6000 per-kort INT8 TOPS | 2 000 TOPPER |
| RTX Pro 6000 hukommelsesbåndbredde | ~1800 GB/s pr. kort |
| vLLM — DeepSeek V3 Q3 på 4x Blackwell PCIe (enkelt) | ~30-40 tok/s |
| vLLM — DeepSeek V3 Q3 på 4x Blackwell PCIe (batch-8) | ~200 tok/s samlet |
| SGLang — Llama 4 Maverick Q4 på 4x Blackwell (single) | ~45-55 tok/s |
| llama.cpp — Qwen3-Coder-480B Q3 på 4x Blackwell (enkelt) | ~18-25 tok/s |
| FLUX.1 [udvikling] fp8 på et enkelt RTX Pro 6000-kort | ~1.8 sekunder pr. 1024x1024 billede |
Kentino vil offentliggøre førstepartstal efter den indledende kundeudvikling.
Ikke ideel til
- Enkeltbrugerarbejdsbelastninger på op til 70B — 4x RTX 5090 er væsentligt billigere for en 128 GB pool, hvis ECC og passiv pålidelighed ikke er påkrævet.
- Stille installation i laboratoriet/ved siden af kontoret — passiv køler kræver korrekt luftgennemstrømning fra forsiden til bagsiden i datacentret. Vælg Max-Q turbofan-varianten (K-AI 384 Rome RTXPro6000MQ) til akustisk følsomme steder.
- Uddannelse på grænsen fra bunden (ingen NVLink)
- Fuld DeepSeek V3 Q4 på kort (~404 GB) — opgrader til 6x RTX Pro 6000 / 576 GB
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in, memtest og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- Opgrader RAM til 512 GB DDR4 (tilføj 2x 64 GB — 2 DIMM-pladser åbne) for RAM-spill headroom på Q3 frontier quants
- 4 TB NVMe Gen4 x4 til frontier-modelbibliotek (DeepSeek V3 Q3 alene har ~290 GB på disken)
- Fuld 24U rackskab med administreret PDU + online UPS
- Alternativ silhuet: Max-Q turbofan-variant (K-AI 384 Rome RTXPro6000MQ) — samme silicium, mere støjsvag blæserkøler, til laboratorieinstallationer
Del
