Gå til produktinformation
1 of 7

Kentino sro

K-AI 96 Rome RTXPro6000 2000TOPS — 96 GB Blackwell Workstation-server med enkelt kort

K-AI 96 Rome RTXPro6000 2000TOPS — 96 GB Blackwell Workstation-server med enkelt kort

Regelmæssig pris € 15.847,00 EUR
Regelmæssig pris Udsalgspris € 15.847,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 96 Rome RTXPro6000 2000TOPS

96 GB ECC-arbejdsstationsserver med enkelt kort
1x RTX Pro 6000 Blackwell | EPYC Milan | 2.000 TOPS INT8

2 000
INT8 TOPPER
96 DK
ECC VRAM
enkelt
kort design
fp8
indfødte Blackwell

Et kort, 96 GB ECC VRAM, hele Blackwell tensor pipeline. 70B tæt bf16 på en enkelt GPU — ingen tensor-parallel overhead.

En 4U rackmonteret arbejdsstationsserver med et enkelt NVIDIA RTX Pro 6000 Blackwell Workstation-kort (96 GB ECC GDDR7), en AMD EPYC 7643 Milan CPU (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe boot og en 2 kW ATX PSU med 54 % headroom. Den enkleste softwareløsning, som Kentino leverer — ingen tensor-parallel konfiguration, ingen multi-GPU debugging. vLLM, SGLang, llama.cpp, ComfyUI kører på én enhed og fungerer bare.

Hardware

Component Detalje
GPU 1x NVIDIA RTX Pro 6000 Blackwell Workstation 96 GB ECC GDDR7 (600 W, PCIe 5.0 x16)
VRAM 96 GB ECC på et enkelt kort — ingen pooling, intet tensor-parallelt overhead
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning 1x 2 kW ATX strømforsyning
Chassis 4U rackmontering (kapacitet på 4 slots, 1 besat — plads til udvidelse)
Køling Arctic Freezer 4U-M SP3 tårn + 3x 120 mm frontindtag + 1x 120 mm bagudstødning
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 1 x 600 W = 600 W
  • Systemtotal ved fuld belastning: ~925 W
  • Strømforsyning i alt: 2.000 W — 53.8 % headroom
  • Enkel strømforsyning, enkel kabelføring — generøs margen til opbygning med et enkelt kort

Banetopologi

PCIe Gen4 x16 ved GPU'en (kortet er Gen5 native; Rome-kortkapacitet ved Gen4). Direkte root-complex-forbindelse — ingen PCIe-switch. Ingen NVLink kræves — enkelt kort, ingen forbindelse mellem GPU'er overhovedet. Seks x16-slots forbliver åbne til NIC/lagerplads/udvidelse.

Hvad du kan løbe

Med 96 GB ECC VRAM på et enkelt Blackwell-kort håndterer denne server 70B tæt bf16 på én GPU, open-weight LLM'er, visionsmodeller, billed- og videogenerering, tale-AI og produktionsinferens – ingen tensor-parallel koordinering nødvendig.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-32B tæt bf16 (~65 GB) med generøs KV; Qwen3-72B Q6 (~58 GB, ~25-35 tok/s single-stream); Qwen3-30B-A3B MoE bf16; Qwen3-Coder-30B-A3B agentisk ved 256k ctx; Qwen3.5-122B-A10B Q4 (~70 GB) med tæt KV; QwQ-32B bf16-ræsonnement
  • DeepSeek: DeepSeek-R2 32B sparse MoE bf16 (~64 GB, 92.7 % AIME 2025 enkeltkort); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B fuld præcision
  • GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5 (60-70 GB); GLM-4.6V 106B Q4
  • Tencent Hunyuan: Hunyuan-A13B 80B/13B MoE Q4-fp8 (~48-80 GB) med 256k ctx og dual-mode ræsonnement
  • ByteDance Seed-OSS-36B bf16 (~72 GB begrænset) eller fp8 (~36 GB) med fuld 512k native kontekst
  • Baidu ERNIE-4.5-47B-A3B Q4-fp8 med lang kontekst

Vestgrænsen

  • Meta Lama: Llama 3.3 70B ved bf16 (~70 GB) på et enkelt kort med 8-16k ctx — hero-konfigurationen; Llama 3.3 70B Q6 (~58 GB, ~35-50 tok/s single-stream); Llama 3.1 8B bf16 (~80-120 tok/s); Llama 3.2 90B Vision Q4 (~52 GB); Llama 4 Scout 109B/17B MoE Q4 (~63 GB)
  • Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) alle ved bf16 med 256k ctx; Mixtral 8x7B Q6; Codestral Mamba 7B; Pixtral 12B bf16
  • OpenAI (åbne vægte): gpt-oss-20b MXFP4 native (16 GB); gpt-oss-120b MXFP4 native (80 GB) — enkeltkort, enkeltstrøm
  • Google Gemma 3: 27B multimodal bf16 (~54 GB) med 128k ctx; 12B / 4B bf16
  • Microsoft Phi-4 14B tæt bf16; Phi-4-ræsonnement; Phi-4-multimodal
  • NVIDIA Nemotron: Llama-3.1-Nemotron-Super 49B Q6 (~40 GB); Nemotron-Nano 8B
  • Andet: IBM Granite 4.0 H-Lille 32B/9B; OLMo 2 32B; Reka Flash 3 21B; Falcon H1R 7B; Command R 35B

Vision-sprog modeller

Qwen3-VL-8B / 32B bf16, Qwen3-VL-30B-A3B MoE bf16, Qwen3-Omni-30B-A3B; InternVL3 op til 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2 fuldt spektrum; Llama 3.2 11B Vision bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Molmo 72B Q4; Molmo 7B bf16; Gemma 3 12B / 27B multimodal; PaliGemma 2 28B; Phi-3.5-Vision; Aya Vision 8B / 32B; MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V.

Billedgenerering

FLUX.1 [dev] / [snel] bf16 (~24 GB) og kvantiseret (~15-25 s/billede ved fp8); FLUX.1 Kontext [dev] kontekstredigering; FLUX-værktøjer (Fill / Depth / Canny / Redux); SD 3.5 Large bf16 (~18 GB); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB) ved 2K native; HunyuanDiT 1.5B; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 (~54 GB, begge eksperter bosiddende); Wan 2.2 TI2V-5B hurtig vej; HunyuanVideo 13B bf16 (~60-80 GB, tæt ved 720p); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 (11B) bf16; Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Lyd / Tale / TTS

  • ASR: Whisper v3 stor / turbo (~50x realtid); NVIDIA Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stabil lyd åben; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
  • Realtid / S2S: Kyutai Moshi (200 ms fuld duplex); Step-Audio 2 mini; Step-Audio-R1 / R1.1; Qwen2.5-Omni-7B
  • Musik / SFX: Meta MusicGen; AudioGen; Suno Bark; SeamlessM4T v2

Multimodel-/multi-lejer-servering

  • Single-tenant streaming-kodningsassistent — 70B tæt bf16, lav latenstid, ingen TP-straf
  • Blandet resident stak: Qwen3-32B bf16 + FLUX.1 fp8 + Whisper-turbo + Moshi på ét kort med partitioneret VRAM
  • Finjustering: LoRA / QLoRA på 13-34B-modeller; fuld parameterindstilling på 7B
  • Indlejringsservice: BGE-M3 / E5 / Jina-resident sammen med en generator LLM

Målrettede arbejdsbyrder

  • Streaming-kodningsassistent til enkeltbrugere, der kører Llama 3.3 70B bf16 eller Qwen3-Coder-30B-A3B — ingen TP-koordineringsoverhead
  • Udviklerarbejdsstation til en enkelt ingeniør eller et tæt team, der har brug for en 70B-klassemodel med 32-128k kontekst
  • Video- eller billedgenereringslaboratorium — HunyuanVideo 13B, Wan 2.2 dual-expert, HunyuanImage-2.1 alle på bf16-niveau
  • VLM/OCR-bænk — Qwen3-VL-32B bf16 eller InternVL3.5-38B med pipelines til lange dokumenter
  • Ren enhed til en lille LLM API-gateway — én model, ét kort, nem drift

Målt ydeevne

Publicerede referencer | NVIDIA RTX Pro 6000 Blackwell datablad + community benchmarks

benchmark Resultat
INT8 TOPS pr. kort (NVIDIA-datablad) 2 000 TOPPER
VRAM pr. kort 96 GB ECC GDDR7
Hukommelsesbåndbredde ~1792 GB/s
Llama 3.3 70B Q6 single-GPU (fællesskab) 40-55 tok/s enkeltstrøm
Llama 3.3 70B bf16 single-GPU (fællesskab) 15-25 tok/s enkeltstrøm
Blackwell fp8 native DeepSeek-V3 fp8, Hunyuan-A13B fp8 kører uden bf16 upcast

Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.

Ikke ideel til

  • Træning af store modeller fra bunden (enkelt GPU — ingen tensor/pipeline-parallelisme)
  • Frontier 200B+ MoE ved reelle kvantiseringer (Qwen3-235B Q4, GLM-4.5/4.6 — brug K-AI 192 RTXPro6000 eller større)
  • Høj samtidigheds-multi-tenant inferens (enkeltkortgrænser giver samlet gennemløb; 4x RTX 4090 eller 4x L40 skalerer bedre)

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

NVIDIA OEM 3 års garanti på RTX Pro 6000 + Kentino integrationsgaranti. Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.

Anbefalede tilføjelser

  • Opgrader RAM til 512 GB (tilføj 4x 64 GB DDR4 — fire DIMM-pladser er stadig ledige)
  • 4 TB NVMe sekundært drev til modelbibliotek/datasætstaging
  • 24U åbent kabinet til produktionsrackmontering
  • For Gen5 x16 linkhastighed kan du overveje Genoa-platformvarianten på forespørgsel
Se detaljer