Kentino sro
K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Dual EPYC Milan
K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Dual EPYC Milan
Kunne ikke indlæse afhentningstilgængelighed
K-AI 192 RomeDual 4090 5288TOPS
192 GB VRAM 8-GPU Inferensserver
8x RTX 4090 | Dobbelt EPYC Milan | 5 288 TOPS INT8
Flagskibsboks med 8x gaming-GPU-inferens. 192 GB pulje hos Consumer-Card Economics på en EPYC Milan-platform med to sokkeler.
Et 7U 8-GPU-kabinet bygget op omkring to EPYC 7643 Milan CPU'er (96C/192T i alt), ASRock Ramp ROME2D32GM-NL dual-SP3 bundkort, 512 GB DDR4 ECC, 2 TB NVMe boot og et sæt af 5x 1200 W server strømforsyninger. Otte GeForce RTX 4090 tilsluttes via aktive PCIe Gen4 retimer risers ved fuld x16. Den billigste vej til 192 GB frontier MoE-inferens på Kentino-hardware.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 8x NVIDIA GeForce RTX 4090 24 GB GDDR6X (Ada Lovelace, 450 W, PCIe 4.0 x16) |
| VRAM-pulje | 192 GB i alt på tværs af 8 kort (ingen NVLink på forbruger-RTX 4090) |
| CPU | 2x AMD EPYC 7643 Milan (48C/96T hver — 96C/192T i alt, 225 W hver, 2x 128 PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROME2D32GM-NL (dobbelt SP3, PCIe 4.0, 32x DDR4 ECC DIMM-pladser) |
| System RAM | 512 GB DDR4-2666 ECC RDIMM (8x 64 GB — 4 pr. stik til 8-kanals balance) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | 5x 1200 W server strømforsyningssæt (HP-kompatibel, hot-swap) + komplet 12VHPWR adaptersæt |
| Chassis | 7U 8-GPU-kabinet (op til 10 PCIe-kort inklusive risers) |
| risers | 8x aktive PCIe Gen4 x16 retimer-risers (påkrævet over kabellængde) |
| Køling | 2x Arctic Freezer 4U-M SP3 tårnkølere + rackmonteret front-til-bag-luftstrøm (industrielle ventilatorer) |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 8 x 450 W = 1800 W
- CPU-forbrug: 2 x 225 W = 450 W
- Systemtotal ved fuld belastning: ~4080 W
- Strømforsyning i alt: 6.000 W fuldt aktiv (5 x 1200 W) — 30.0 % headroom
Banetopologi
ROME2D32GM-NL eksponerer 2x 128 PCIe Gen4-baner — én 128-baners pool pr. EPYC-socket — direkte til GPU-slots. Aktive Gen4 retimer-risers for signalintegritet. Ingen PCIe-switch. Ingen NVLink. Målt 19-22 GB/s inter-GPU peer-to-peer på 4-GPU-bænk.
Hvad du kan løbe
Med 192 GB fordelt på 8 kort håndterer denne server 200B+ frontier MoE ved Q4, 8-vejs tensor-parallel inferens, tenant-isoleret multi-model servering og høj batch-gennemstrømning ved forbrugerkortøkonomi.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) med long ctx — hero-konfigurationen (~15-25 tok/s single-stream på 8x RTX 4090); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB) multi-stream; Qwen3-32B tæt bf16 x flere samtidige
- DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB med 512 GB værtsspill); DeepSeek-R2 32B bf16 — op til 8 samtidige streams, én pr. kort (~30-40 tok/s pr. stream)
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB); GLM-4.5-Air fp8 eller bf16; GLM-4.6V 106B
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB); Hunyuan-A13B Q4/Q6 (RTX 4090 er Ada — fp8 upcasts til bf16, brug GGUF-kvanter)
- Andet: Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB); MiniMax-M1 Q3 (~180 GB)
Vestgrænsen
- Meta Lama: Llama 3.3 70B bf16 med massiv KV (~20 tok/s single-stream Q4, ~179 tok/s batch-32 vLLM — Kentino målt på 4-GPU-bænk); Llama 4 Scout bf16 (~218 GB tight); Llama 4 Maverick Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large 123B Q6 komfortabel eller bf16 (~248 GB spild); Mistral Small 3 multistream
- OpenAI (åbne vægte): gpt-oss-120b MXFP4 native (80 GB) med enorme KV
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16
- Andet: Cohere Command R+ 104B Q6 (~85 GB); Google Gemma 3 27B bf16 x flere streams
Vision-sprog modeller
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 multistrøm; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6; Molmo 72B bf16; GLM-4.6V 106B fp8/Q6; Gemma 3 27B multimodal x flere strømme.
Billedgenerering
FLUX.1 [dev] bf16 — op til 8 samtidige generationsstrømme (én pr. kort, ~15-25 s/billede ved fp8); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 x 8; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 samtidige; HunyuanImage-3.0 base (80B MoE, 13B aktiv) bf16; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Video generation
Wan 2.2 MoE dual-expert bf16 med fuld ctx — flere samtidige streams; Wan 2.2 TI2V-5B x 8 samtidige; HunyuanVideo 13B bf16 begge eksperter; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Genmo Mochi-1 bf16; LTX-Video x 8 samtidige; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo x 8 samtidige (~50x realtid pr. stream); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabil lyd åben
- Realtid / S2S: Kyutai Moshi 7B x 8 samtidige stemmestrømme; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2
Multimodel-/multi-lejer-servering
- 8-vejs tensor-parallel inferens af 200-250B MoE ved Q4 (Qwen3-235B, GLM-4.5/4.6/4.7)
- Lejerisoleret 8-stream-servering — én 24 GB Q4-model pr. kort (f.eks. 8x Qwen3-14B-agenter)
- Storbatch 70B — tensor-parallel vLLM / SGLang batch-64 aggregat
- Blandet flåde: 235B MoE på 4 kort (TP4) + FLUX + video + realtidsstemme på de resterende 4
- Finjusteringslaboratorium — 7-34B LoRA / QLoRA med stor batch
Målrettede arbejdsbyrder
- 8-GPU tensor-parallel inferens ved 192 GB-puljen — Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16
- Tæt 70B bf16 (Llama 3.3 70B) med massiv KV-højde til lang ctx og høj batch
- Gateway til batchinferens med høj kapacitet — vLLM / SGLang tensor-parallel ved stor batch
- Finjustering af 7-34B-klassemodeller med højbatch LoRA / QLoRA
- Wan 2.2 dual-expert / HunyuanImage-3.0 / FLUX.1 fuld arbejdsgang video-billedstudie
Målt ydeevne
Kentino-bænk (4-GPU-reference) | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + 512 GB DDR4 + ROMED8-2T
| benchmark | Resultat |
|---|---|
| Vedvarende beregning (fp16, 4-korts ref.) | 647 TFLOPS |
| vLLM — Llama 3.3 70B AWQ INT4 (enkelt) | 8.0 tok/s |
| vLLM — Llama 3.3 70B AWQ INT4 (batch-32) | 179 tok/s samlet |
| llama.cpp — Llama 3.3 70B Q4_K_M (enkelt) | 20.3 tok/s afkodning |
| 8-GPU aggregeret beregning (ekstrapolering) | ~1 294 TFLOPS fp16 forventet (næsten lineær) |
| 235B Q4 tensor-parallel 8-vejs (fællesskab) | 15-25 tok/s single-stream på 8x RTX 4090 |
4-kortsdata målt på Kentino-hardware. 8-GPU-ekstrapolering er offentliggjort som ekstern reference. Kentino vil offentliggøre førsteparts 8-GPU-tal efter den første kundeversion.
Ikke ideel til
- 5090-generations arbejdsbelastninger (Blackwell fp8 native + højere TOPS) — se K-AI 256 TurinDual 5090
- Træning fra bunden (ingen NVLink på forbruger RTX 4090)
- ECC-følsom 24/7-produktion — forbruger-RTX 4090 har ingen ECC; foretrækker 4x L40 eller 2x RTX Pro 6000 Server Edition
- Hunyuan / DeepSeek fp8 native — RTX 4090 er Ada, fp8 checkpoints opgraderet til bf16
Garanti og leveringstid
Byggeprocessen inkluderer samling, BIOS-konfiguration med NUMA-tuning til to sockets, driverinstallation, burn-in, memtest, fuld 8-GPU stresstest og opsætning af LLM-miljø. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- 4 TB ekstra NVMe til vægtstaging og MoE-offload-arbejdsbelastninger
- NVIDIA ConnectX-5 100 GbE til servering på flere noder
- RAM-opgradering til 1 TB (16x 64 GB) eller 2 TB (32x 64 GB) — kortet understøtter 32 DIMM-slots
- Fuld 24U rackskab + online UPS 5 kVA
Del
