Kentino sro
K-AI 96 Rom 4090 2644TOPS — 4× RTX 4090 AI-inferensserver
K-AI 96 Rom 4090 2644TOPS — 4× RTX 4090 AI-inferensserver
Kunne ikke indlæse afhentningstilgængelighed
K-AI 96 Rom 4090 2644TOPS
96 GB VRAM-inferensserver
4x RTX 4090 | EPYC Rom | 2644 TOPS INT8
Målt på Kentino-hardware. Llama 3.3 70B AWQ INT4 via vLLM 0.19.0.
En 4U rackmonteret inferensserver med fire GeForce RTX 4090 kombineret med 96 GB VRAM, én AMD EPYC 7542 Rome CPU (32C/64T), 256 GB DDR4 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2 kW ATX strømforsyning. Kører vLLM, SGLang, llama.cpp, ComfyUI og alle større åbne inferensstakke direkte fra kassen.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 4x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16) |
| VRAM-pulje | 96 GB i alt fordelt på 4 kort |
| CPU | AMD EPYC 7542 Rome (32C/64T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Opbevaring | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| PSU | Dobbelt 2 kW ATX med synkroniseringskabel |
| Chassis | 4U rackmontering, luftstrøm rettet fra forsiden til bagsiden |
| Køling | SP3 tårnkøler, 3x front + 1x bagpå 120 mm industrielle blæsere |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 4 x 450 W = 1800 W
- System i alt: ~2 125 W
- Strømforsyning i alt: 4.000 W (dobbelt 2 kW) — 46.9 % headroom
- Delt strømforsyning — enkelt strømforsyningsfejl = tab af 2 GPU'er eller 2 GPU'er + bundkort
Banetopologi
128 PCIe Gen4-baner fra EPYC til syv x16-slots; fire befolket af GPU'er ved Gen4 x16. Ingen PCIe-switch. Ingen NVLink — peer-to-peer ved 19-22 GB/s (målt af Kentino).
Hvad du kan løbe
Med 96 GB samlet VRAM på tværs af 4 kort håndterer denne server open-weight LLM'er, visionsmodeller, billed- og videogenerering, tale-AI og servering med flere brugere.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3 / Qwen3.5: Qwen3-72B Q4 (~15-20 tok/s); Qwen3-32B Q6; Qwen3-30B-A3B MoE Q4-Q6; Qwen3-Coder-30B-A3B ved 256k; Qwen3.5-122B-A10B Q4; QwQ-32B
- DeepSeek: DeepSeek-R2 32B Q4-Q6 (92.7% AIME 2025); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B
- GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5; GLM-4.6V-Flash; GLM-Zero 9B
- Hunyuan: Hunyuan-A13B Q4-Q6 (~48 GB) 256k ctx dual-mode ræsonnement
- Andet: Frø-OSS-36B Q4 512k ctx; ERNIE-4.5-47B-A3B Q4; Yi-34B Q6; Baichuan-M2-32B; Trin-3.5-Flash
Vestgrænsen
- Meta Lama: Llama 3.3 70B Q4_K_M (~20 tok/s llama.cpp, ~179 tok/s batch-32 vLLM — Kentino målt); Lama 3.1 8B bf16 (~80-120 tok/s); Lama 4 Scout Q4
- Mistral: Lille 3 24B bf16; Magistral Lille 24B ræsonnement; Devstral Lille 2 24B 256k ctx; Mixtral 8x7B Q6
- OpenAI: gpt-oss-20b MXFP4 (16 GB); gpt-oss-120b MXFP4 (80 GB lagring)
- Andet: Gemma 3 27B Q6 128k; Phi-4 14B bf16; Nemotron-Super 49B Q4; Granit 4.0 H-Lille; OLMo 2 32B; Reka Flash 3; Kommando R 35B
Vision-sprog modeller
Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B; InternVL3 op til 78B Q4; InternVL3.5-38B; DeepSeek-VL2; Lama 3.2 11B Vision; Pixtral 12B; Molmo 7B; Gemma 3 12B/27B; PaliGemma 2; MiniCPM-V 2.6 / MiniCPM-o 2.6.
Billedgenerering
FLUX.1 [udvikling]/[hastighed] fp8 (~15-25 s pr. 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Stor; SDXL; HunyuanImage-2.1 bf16 (~34 GB) 2K native; Kolors 2.0; AuraFlow; OmniGen v1.
Video generation
Wan 2.2 T2V-A14B/I2V-A14B MoE (~54 GB bf16); Wan 2.2 TI2V-5B 720p@24fps; HunyuanVideo 13B Q4-Q5; HunyuanVideo 1.5; CogVideoX-5B; Open-Sora 2.0; Mochi-1; LTX-Video; SVD/SV3D/SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 turbo (~50x realtid); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 3.0; Kokoro 82M; Stabil lyd åben; Step-Audio-EditX
- Realtid: Kyutai Moshi (200 ms fuld duplex); Step-Audio 2 mini; Qwen2.5-Omni-7B
- Musik: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2
Multi-model servering
- 4-8 samtidige brugere på 32-72B LLM'er via vLLM / SGLang tensor-parallel
- Blandet: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi med partitioneret VRAM
- LoRA/QLoRA finjustering 32-72B; fuldparameter 7-14B
- RAG med Command R+ eller Qwen3 + BGE-M3/E5/Jina
Målrettede arbejdsbyrder
- Inferensgateway for organisation med 50-200 pladser (70B Q4-Q6, 4-8 samtidige sessioner)
- Batchdiffusion/videopipeline (SDXL + FLUX.1 + Wan 2.2 natten over)
- LoRA/QLoRA finjusteringslaboratorium for 7-34B domænetilpasninger
- RAG-dokumentassistent (Qwen3-VL + BGE-M3 + Command R, 32k ctx)
- Blandet enkeltboks: chat + billede + ASR + realtidsstemme på partitioneret VRAM
Målt ydeevne
Kentino-bænk | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T
| benchmark | Resultat |
|---|---|
| Vedvarende beregning (fp16) | 647.7 TFLOPS |
| vLLM Llama 3.3 70B AWQ INT4 (enkelt) | 8.0 tok/s |
| vLLM Llama 3.3 70B AWQ INT4 (batch-32) | 179.3 tok/s samlet |
| llama.cpp Llama 3.3 70B Q4_K_M (enkelt) | 20.3 tok/s |
| Hurtig evaluering | 1.568 tok/s |
| GPU-hukommelsesbåndbredde | 920 GB/s pr. kort |
| NVMe læse/skrive | 4.589 / 4.213 MB/s |
| Peak termisk (GPU+CPU-forbrug) | 73 C, 0.6% fald |
vLLM brugte awq-kernen — 2-3 gange muligt med awq_marlin.
Ikke ideel til
- Frontier 100B+ tæthed ved bf16 (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — kræver 256+ GB VRAM)
- Træning fra bunden (forbruger RTX 4090 mangler NVLink)
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- Opgrader RAM til 512 GB (tilføj 4x 64 GB DDR4 — fire DIMM-pladser ledige)
- 4 TB NVMe sekundært drev til datasæt/modelstaging
- 24U åbent kabinet til implementering af flere servere
Del
