Kentino sro
K-AI 96 Rome RTXPro6000 2000TOPS — 96 GB Blackwell Workstation-server med enkelt kort
K-AI 96 Rome RTXPro6000 2000TOPS — 96 GB Blackwell Workstation-server med enkelt kort
Kunne ikke indlæse afhentningstilgængelighed
K-AI 96 Rome RTXPro6000 2000TOPS
96 GB ECC-arbejdsstationsserver med enkelt kort
1x RTX Pro 6000 Blackwell | EPYC Milan | 2.000 TOPS INT8
Et kort, 96 GB ECC VRAM, hele Blackwell tensor pipeline. 70B tæt bf16 på en enkelt GPU — ingen tensor-parallel overhead.
En 4U rackmonteret arbejdsstationsserver med et enkelt NVIDIA RTX Pro 6000 Blackwell Workstation-kort (96 GB ECC GDDR7), en AMD EPYC 7643 Milan CPU (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe boot og en 2 kW ATX PSU med 54 % headroom. Den enkleste softwareløsning, som Kentino leverer — ingen tensor-parallel konfiguration, ingen multi-GPU debugging. vLLM, SGLang, llama.cpp, ComfyUI kører på én enhed og fungerer bare.
Hardware
| Component | Detalje |
|---|---|
| GPU | 1x NVIDIA RTX Pro 6000 Blackwell Workstation 96 GB ECC GDDR7 (600 W, PCIe 5.0 x16) |
| VRAM | 96 GB ECC på et enkelt kort — ingen pooling, intet tensor-parallelt overhead |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | 1x 2 kW ATX strømforsyning |
| Chassis | 4U rackmontering (kapacitet på 4 slots, 1 besat — plads til udvidelse) |
| Køling | Arctic Freezer 4U-M SP3 tårn + 3x 120 mm frontindtag + 1x 120 mm bagudstødning |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 1 x 600 W = 600 W
- Systemtotal ved fuld belastning: ~925 W
- Strømforsyning i alt: 2.000 W — 53.8 % headroom
- Enkel strømforsyning, enkel kabelføring — generøs margen til opbygning med et enkelt kort
Banetopologi
PCIe Gen4 x16 ved GPU'en (kortet er Gen5 native; Rome-kortkapacitet ved Gen4). Direkte root-complex-forbindelse — ingen PCIe-switch. Ingen NVLink kræves — enkelt kort, ingen forbindelse mellem GPU'er overhovedet. Seks x16-slots forbliver åbne til NIC/lagerplads/udvidelse.
Hvad du kan løbe
Med 96 GB ECC VRAM på et enkelt Blackwell-kort håndterer denne server 70B tæt bf16 på én GPU, open-weight LLM'er, visionsmodeller, billed- og videogenerering, tale-AI og produktionsinferens – ingen tensor-parallel koordinering nødvendig.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-32B tæt bf16 (~65 GB) med generøs KV; Qwen3-72B Q6 (~58 GB, ~25-35 tok/s single-stream); Qwen3-30B-A3B MoE bf16; Qwen3-Coder-30B-A3B agentisk ved 256k ctx; Qwen3.5-122B-A10B Q4 (~70 GB) med tæt KV; QwQ-32B bf16-ræsonnement
- DeepSeek: DeepSeek-R2 32B sparse MoE bf16 (~64 GB, 92.7 % AIME 2025 enkeltkort); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B fuld præcision
- GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5 (60-70 GB); GLM-4.6V 106B Q4
- Tencent Hunyuan: Hunyuan-A13B 80B/13B MoE Q4-fp8 (~48-80 GB) med 256k ctx og dual-mode ræsonnement
- ByteDance Seed-OSS-36B bf16 (~72 GB begrænset) eller fp8 (~36 GB) med fuld 512k native kontekst
- Baidu ERNIE-4.5-47B-A3B Q4-fp8 med lang kontekst
Vestgrænsen
- Meta Lama: Llama 3.3 70B ved bf16 (~70 GB) på et enkelt kort med 8-16k ctx — hero-konfigurationen; Llama 3.3 70B Q6 (~58 GB, ~35-50 tok/s single-stream); Llama 3.1 8B bf16 (~80-120 tok/s); Llama 3.2 90B Vision Q4 (~52 GB); Llama 4 Scout 109B/17B MoE Q4 (~63 GB)
- Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) alle ved bf16 med 256k ctx; Mixtral 8x7B Q6; Codestral Mamba 7B; Pixtral 12B bf16
- OpenAI (åbne vægte): gpt-oss-20b MXFP4 native (16 GB); gpt-oss-120b MXFP4 native (80 GB) — enkeltkort, enkeltstrøm
- Google Gemma 3: 27B multimodal bf16 (~54 GB) med 128k ctx; 12B / 4B bf16
- Microsoft Phi-4 14B tæt bf16; Phi-4-ræsonnement; Phi-4-multimodal
- NVIDIA Nemotron: Llama-3.1-Nemotron-Super 49B Q6 (~40 GB); Nemotron-Nano 8B
- Andet: IBM Granite 4.0 H-Lille 32B/9B; OLMo 2 32B; Reka Flash 3 21B; Falcon H1R 7B; Command R 35B
Vision-sprog modeller
Qwen3-VL-8B / 32B bf16, Qwen3-VL-30B-A3B MoE bf16, Qwen3-Omni-30B-A3B; InternVL3 op til 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2 fuldt spektrum; Llama 3.2 11B Vision bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Molmo 72B Q4; Molmo 7B bf16; Gemma 3 12B / 27B multimodal; PaliGemma 2 28B; Phi-3.5-Vision; Aya Vision 8B / 32B; MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V.
Billedgenerering
FLUX.1 [dev] / [snel] bf16 (~24 GB) og kvantiseret (~15-25 s/billede ved fp8); FLUX.1 Kontext [dev] kontekstredigering; FLUX-værktøjer (Fill / Depth / Canny / Redux); SD 3.5 Large bf16 (~18 GB); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB) ved 2K native; HunyuanDiT 1.5B; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Video generation
Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 (~54 GB, begge eksperter bosiddende); Wan 2.2 TI2V-5B hurtig vej; HunyuanVideo 13B bf16 (~60-80 GB, tæt ved 720p); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 (11B) bf16; Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo (~50x realtid); NVIDIA Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stabil lyd åben; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi (200 ms fuld duplex); Step-Audio 2 mini; Step-Audio-R1 / R1.1; Qwen2.5-Omni-7B
- Musik / SFX: Meta MusicGen; AudioGen; Suno Bark; SeamlessM4T v2
Multimodel-/multi-lejer-servering
- Single-tenant streaming-kodningsassistent — 70B tæt bf16, lav latenstid, ingen TP-straf
- Blandet resident stak: Qwen3-32B bf16 + FLUX.1 fp8 + Whisper-turbo + Moshi på ét kort med partitioneret VRAM
- Finjustering: LoRA / QLoRA på 13-34B-modeller; fuld parameterindstilling på 7B
- Indlejringsservice: BGE-M3 / E5 / Jina-resident sammen med en generator LLM
Målrettede arbejdsbyrder
- Streaming-kodningsassistent til enkeltbrugere, der kører Llama 3.3 70B bf16 eller Qwen3-Coder-30B-A3B — ingen TP-koordineringsoverhead
- Udviklerarbejdsstation til en enkelt ingeniør eller et tæt team, der har brug for en 70B-klassemodel med 32-128k kontekst
- Video- eller billedgenereringslaboratorium — HunyuanVideo 13B, Wan 2.2 dual-expert, HunyuanImage-2.1 alle på bf16-niveau
- VLM/OCR-bænk — Qwen3-VL-32B bf16 eller InternVL3.5-38B med pipelines til lange dokumenter
- Ren enhed til en lille LLM API-gateway — én model, ét kort, nem drift
Målt ydeevne
Publicerede referencer | NVIDIA RTX Pro 6000 Blackwell datablad + community benchmarks
| benchmark | Resultat |
|---|---|
| INT8 TOPS pr. kort (NVIDIA-datablad) | 2 000 TOPPER |
| VRAM pr. kort | 96 GB ECC GDDR7 |
| Hukommelsesbåndbredde | ~1792 GB/s |
| Llama 3.3 70B Q6 single-GPU (fællesskab) | 40-55 tok/s enkeltstrøm |
| Llama 3.3 70B bf16 single-GPU (fællesskab) | 15-25 tok/s enkeltstrøm |
| Blackwell fp8 native | DeepSeek-V3 fp8, Hunyuan-A13B fp8 kører uden bf16 upcast |
Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.
Ikke ideel til
- Træning af store modeller fra bunden (enkelt GPU — ingen tensor/pipeline-parallelisme)
- Frontier 200B+ MoE ved reelle kvantiseringer (Qwen3-235B Q4, GLM-4.5/4.6 — brug K-AI 192 RTXPro6000 eller større)
- Høj samtidigheds-multi-tenant inferens (enkeltkortgrænser giver samlet gennemløb; 4x RTX 4090 eller 4x L40 skalerer bedre)
Garanti og leveringstid
NVIDIA OEM 3 års garanti på RTX Pro 6000 + Kentino integrationsgaranti. Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.
Anbefalede tilføjelser
- Opgrader RAM til 512 GB (tilføj 4x 64 GB DDR4 — fire DIMM-pladser er stadig ledige)
- 4 TB NVMe sekundært drev til modelbibliotek/datasætstaging
- 24U åbent kabinet til produktionsrackmontering
- For Gen5 x16 linkhastighed kan du overveje Genoa-platformvarianten på forespørgsel
Del
