Gå til produktinformation
1 of 7

Kentino sro

K-AI 96 Rom 4090 2644TOPS — 4× RTX 4090 AI-inferensserver

K-AI 96 Rom 4090 2644TOPS — 4× RTX 4090 AI-inferensserver

Regelmæssig pris € 18.491,00 EUR
Regelmæssig pris Udsalgspris € 18.491,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 96 Rom 4090 2644TOPS

96 GB VRAM-inferensserver
4x RTX 4090 | EPYC Rom | 2644 TOPS INT8

647
TFLOPS fp16
179
tok/s batch-32
96 DK
VRAM-pulje
24/7
klar til brug på stativ

Målt på Kentino-hardware. Llama 3.3 70B AWQ INT4 via vLLM 0.19.0.

En 4U rackmonteret inferensserver med fire GeForce RTX 4090 kombineret med 96 GB VRAM, én AMD EPYC 7542 Rome CPU (32C/64T), 256 GB DDR4 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2 kW ATX strømforsyning. Kører vLLM, SGLang, llama.cpp, ComfyUI og alle større åbne inferensstakke direkte fra kassen.

Hardware

Component Detalje
GPU'er 4x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16)
VRAM-pulje 96 GB i alt fordelt på 4 kort
CPU AMD EPYC 7542 Rome (32C/64T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Opbevaring 2 TB NVMe M.2 (PCIe 4.0 x4)
PSU Dobbelt 2 kW ATX med synkroniseringskabel
Chassis 4U rackmontering, luftstrøm rettet fra forsiden til bagsiden
Køling SP3 tårnkøler, 3x front + 1x bagpå 120 mm industrielle blæsere
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 4 x 450 W = 1800 W
  • System i alt: ~2 125 W
  • Strømforsyning i alt: 4.000 W (dobbelt 2 kW) — 46.9 % headroom
  • Delt strømforsyning — enkelt strømforsyningsfejl = tab af 2 GPU'er eller 2 GPU'er + bundkort

Banetopologi

128 PCIe Gen4-baner fra EPYC til syv x16-slots; fire befolket af GPU'er ved Gen4 x16. Ingen PCIe-switch. Ingen NVLink — peer-to-peer ved 19-22 GB/s (målt af Kentino).

Hvad du kan løbe

Med 96 GB samlet VRAM på tværs af 4 kort håndterer denne server open-weight LLM'er, visionsmodeller, billed- og videogenerering, tale-AI og servering med flere brugere.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3 / Qwen3.5: Qwen3-72B Q4 (~15-20 tok/s); Qwen3-32B Q6; Qwen3-30B-A3B MoE Q4-Q6; Qwen3-Coder-30B-A3B ved 256k; Qwen3.5-122B-A10B Q4; QwQ-32B
  • DeepSeek: DeepSeek-R2 32B Q4-Q6 (92.7% AIME 2025); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B
  • GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5; GLM-4.6V-Flash; GLM-Zero 9B
  • Hunyuan: Hunyuan-A13B Q4-Q6 (~48 GB) 256k ctx dual-mode ræsonnement
  • Andet: Frø-OSS-36B Q4 512k ctx; ERNIE-4.5-47B-A3B Q4; Yi-34B Q6; Baichuan-M2-32B; Trin-3.5-Flash

Vestgrænsen

  • Meta Lama: Llama 3.3 70B Q4_K_M (~20 tok/s llama.cpp, ~179 tok/s batch-32 vLLM — Kentino målt); Lama 3.1 8B bf16 (~80-120 tok/s); Lama 4 Scout Q4
  • Mistral: Lille 3 24B bf16; Magistral Lille 24B ræsonnement; Devstral Lille 2 24B 256k ctx; Mixtral 8x7B Q6
  • OpenAI: gpt-oss-20b MXFP4 (16 GB); gpt-oss-120b MXFP4 (80 GB lagring)
  • Andet: Gemma 3 27B Q6 128k; Phi-4 14B bf16; Nemotron-Super 49B Q4; Granit 4.0 H-Lille; OLMo 2 32B; Reka Flash 3; Kommando R 35B

Vision-sprog modeller

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B; InternVL3 op til 78B Q4; InternVL3.5-38B; DeepSeek-VL2; Lama 3.2 11B Vision; Pixtral 12B; Molmo 7B; Gemma 3 12B/27B; PaliGemma 2; MiniCPM-V 2.6 / MiniCPM-o 2.6.

Billedgenerering

FLUX.1 [udvikling]/[hastighed] fp8 (~15-25 s pr. 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Stor; SDXL; HunyuanImage-2.1 bf16 (~34 GB) 2K native; Kolors 2.0; AuraFlow; OmniGen v1.

Video generation

Wan 2.2 T2V-A14B/I2V-A14B MoE (~54 GB bf16); Wan 2.2 TI2V-5B 720p@24fps; HunyuanVideo 13B Q4-Q5; HunyuanVideo 1.5; CogVideoX-5B; Open-Sora 2.0; Mochi-1; LTX-Video; SVD/SV3D/SV4D; NVIDIA Cosmos Predict 2.

Lyd / Tale / TTS

  • ASR: Whisper v3 turbo (~50x realtid); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 3.0; Kokoro 82M; Stabil lyd åben; Step-Audio-EditX
  • Realtid: Kyutai Moshi (200 ms fuld duplex); Step-Audio 2 mini; Qwen2.5-Omni-7B
  • Musik: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2

Multi-model servering

  • 4-8 samtidige brugere på 32-72B LLM'er via vLLM / SGLang tensor-parallel
  • Blandet: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi med partitioneret VRAM
  • LoRA/QLoRA finjustering 32-72B; fuldparameter 7-14B
  • RAG med Command R+ eller Qwen3 + BGE-M3/E5/Jina

Målrettede arbejdsbyrder

  • Inferensgateway for organisation med 50-200 pladser (70B Q4-Q6, 4-8 samtidige sessioner)
  • Batchdiffusion/videopipeline (SDXL + FLUX.1 + Wan 2.2 natten over)
  • LoRA/QLoRA finjusteringslaboratorium for 7-34B domænetilpasninger
  • RAG-dokumentassistent (Qwen3-VL + BGE-M3 + Command R, 32k ctx)
  • Blandet enkeltboks: chat + billede + ASR + realtidsstemme på partitioneret VRAM

Målt ydeevne

Kentino-bænk | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T

benchmark Resultat
Vedvarende beregning (fp16) 647.7 TFLOPS
vLLM Llama 3.3 70B AWQ INT4 (enkelt) 8.0 tok/s
vLLM Llama 3.3 70B AWQ INT4 (batch-32) 179.3 tok/s samlet
llama.cpp Llama 3.3 70B Q4_K_M (enkelt) 20.3 tok/s
Hurtig evaluering 1.568 tok/s
GPU-hukommelsesbåndbredde 920 GB/s pr. kort
NVMe læse/skrive 4.589 / 4.213 MB/s
Peak termisk (GPU+CPU-forbrug) 73 C, 0.6% fald

vLLM brugte awq-kernen — 2-3 gange muligt med awq_marlin.

Ikke ideel til

  • Frontier 100B+ tæthed ved bf16 (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — kræver 256+ GB VRAM)
  • Træning fra bunden (forbruger RTX 4090 mangler NVLink)

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • Opgrader RAM til 512 GB (tilføj 4x 64 GB DDR4 — fire DIMM-pladser ledige)
  • 4 TB NVMe sekundært drev til datasæt/modelstaging
  • 24U åbent kabinet til implementering af flere servere
Se detaljer