Gå til produktinformation
1 of 7

Kentino sro

K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Dual EPYC Milan

K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Dual EPYC Milan

Regelmæssig pris € 32.280,00 EUR
Regelmæssig pris Udsalgspris € 32.280,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 192 RomeDual 4090 5288TOPS

192 GB VRAM 8-GPU Inferensserver
8x RTX 4090 | Dobbelt EPYC Milan | 5 288 TOPS INT8

5 288
INT8 TOPPER
192 DK
VRAM-pulje
8-GPU
parallel tensor
dobbelt
CPU 96C/192T

Flagskibsboks med 8x gaming-GPU-inferens. 192 GB pulje hos Consumer-Card Economics på en EPYC Milan-platform med to sokkeler.

Et 7U 8-GPU-kabinet bygget op omkring to EPYC 7643 Milan CPU'er (96C/192T i alt), ASRock Ramp ROME2D32GM-NL dual-SP3 bundkort, 512 GB DDR4 ECC, 2 TB NVMe boot og et sæt af 5x 1200 W server strømforsyninger. Otte GeForce RTX 4090 tilsluttes via aktive PCIe Gen4 retimer risers ved fuld x16. Den billigste vej til 192 GB frontier MoE-inferens på Kentino-hardware.

Hardware

Component Detalje
GPU'er 8x NVIDIA GeForce RTX 4090 24 GB GDDR6X (Ada Lovelace, 450 W, PCIe 4.0 x16)
VRAM-pulje 192 GB i alt på tværs af 8 kort (ingen NVLink på forbruger-RTX 4090)
CPU 2x AMD EPYC 7643 Milan (48C/96T hver — 96C/192T i alt, 225 W hver, 2x 128 PCIe 4.0-baner)
Bundkort ASRock Rack ROME2D32GM-NL (dobbelt SP3, PCIe 4.0, 32x DDR4 ECC DIMM-pladser)
System RAM 512 GB DDR4-2666 ECC RDIMM (8x 64 GB — 4 pr. stik til 8-kanals balance)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning 5x 1200 W server strømforsyningssæt (HP-kompatibel, hot-swap) + komplet 12VHPWR adaptersæt
Chassis 7U 8-GPU-kabinet (op til 10 PCIe-kort inklusive risers)
risers 8x aktive PCIe Gen4 x16 retimer-risers (påkrævet over kabellængde)
Køling 2x Arctic Freezer 4U-M SP3 tårnkølere + rackmonteret front-til-bag-luftstrøm (industrielle ventilatorer)
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 8 x 450 W = 1800 W
  • CPU-forbrug: 2 x 225 W = 450 W
  • Systemtotal ved fuld belastning: ~4080 W
  • Strømforsyning i alt: 6.000 W fuldt aktiv (5 x 1200 W) — 30.0 % headroom

Banetopologi

ROME2D32GM-NL eksponerer 2x 128 PCIe Gen4-baner — én 128-baners pool pr. EPYC-socket — direkte til GPU-slots. Aktive Gen4 retimer-risers for signalintegritet. Ingen PCIe-switch. Ingen NVLink. Målt 19-22 GB/s inter-GPU peer-to-peer på 4-GPU-bænk.

Hvad du kan løbe

Med 192 GB fordelt på 8 kort håndterer denne server 200B+ frontier MoE ved Q4, 8-vejs tensor-parallel inferens, tenant-isoleret multi-model servering og høj batch-gennemstrømning ved forbrugerkortøkonomi.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) med long ctx — hero-konfigurationen (~15-25 tok/s single-stream på 8x RTX 4090); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB) multi-stream; Qwen3-32B tæt bf16 x flere samtidige
  • DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB med 512 GB værtsspill); DeepSeek-R2 32B bf16 — op til 8 samtidige streams, én pr. kort (~30-40 tok/s pr. stream)
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB); GLM-4.5-Air fp8 eller bf16; GLM-4.6V 106B
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB); Hunyuan-A13B Q4/Q6 (RTX 4090 er Ada — fp8 upcasts til bf16, brug GGUF-kvanter)
  • Andet: Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB); MiniMax-M1 Q3 (~180 GB)

Vestgrænsen

  • Meta Lama: Llama 3.3 70B bf16 med massiv KV (~20 tok/s single-stream Q4, ~179 tok/s batch-32 vLLM — Kentino målt på 4-GPU-bænk); Llama 4 Scout bf16 (~218 GB tight); Llama 4 Maverick Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large 123B Q6 komfortabel eller bf16 (~248 GB spild); Mistral Small 3 multistream
  • OpenAI (åbne vægte): gpt-oss-120b MXFP4 native (80 GB) med enorme KV
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16
  • Andet: Cohere Command R+ 104B Q6 (~85 GB); Google Gemma 3 27B bf16 x flere streams

Vision-sprog modeller

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 multistrøm; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6; Molmo 72B bf16; GLM-4.6V 106B fp8/Q6; Gemma 3 27B multimodal x flere strømme.

Billedgenerering

FLUX.1 [dev] bf16 — op til 8 samtidige generationsstrømme (én pr. kort, ~15-25 s/billede ved fp8); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 x 8; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 samtidige; HunyuanImage-3.0 base (80B MoE, 13B aktiv) bf16; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Video generation

Wan 2.2 MoE dual-expert bf16 med fuld ctx — flere samtidige streams; Wan 2.2 TI2V-5B x 8 samtidige; HunyuanVideo 13B bf16 begge eksperter; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Genmo Mochi-1 bf16; LTX-Video x 8 samtidige; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.

Lyd / Tale / TTS

  • ASR: Whisper v3 stor / turbo x 8 samtidige (~50x realtid pr. stream); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabil lyd åben
  • Realtid / S2S: Kyutai Moshi 7B x 8 samtidige stemmestrømme; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2

Multimodel-/multi-lejer-servering

  • 8-vejs tensor-parallel inferens af 200-250B MoE ved Q4 (Qwen3-235B, GLM-4.5/4.6/4.7)
  • Lejerisoleret 8-stream-servering — én 24 GB Q4-model pr. kort (f.eks. 8x Qwen3-14B-agenter)
  • Storbatch 70B — tensor-parallel vLLM / SGLang batch-64 aggregat
  • Blandet flåde: 235B MoE på 4 kort (TP4) + FLUX + video + realtidsstemme på de resterende 4
  • Finjusteringslaboratorium — 7-34B LoRA / QLoRA med stor batch

Målrettede arbejdsbyrder

  • 8-GPU tensor-parallel inferens ved 192 GB-puljen — Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16
  • Tæt 70B bf16 (Llama 3.3 70B) med massiv KV-højde til lang ctx og høj batch
  • Gateway til batchinferens med høj kapacitet — vLLM / SGLang tensor-parallel ved stor batch
  • Finjustering af 7-34B-klassemodeller med højbatch LoRA / QLoRA
  • Wan 2.2 dual-expert / HunyuanImage-3.0 / FLUX.1 fuld arbejdsgang video-billedstudie

Målt ydeevne

Kentino-bænk (4-GPU-reference) | 2026-04-10 | 4x RTX 4090 + EPYC 7542 + 512 GB DDR4 + ROMED8-2T

benchmark Resultat
Vedvarende beregning (fp16, 4-korts ref.) 647 TFLOPS
vLLM — Llama 3.3 70B AWQ INT4 (enkelt) 8.0 tok/s
vLLM — Llama 3.3 70B AWQ INT4 (batch-32) 179 tok/s samlet
llama.cpp — Llama 3.3 70B Q4_K_M (enkelt) 20.3 tok/s afkodning
8-GPU aggregeret beregning (ekstrapolering) ~1 294 TFLOPS fp16 forventet (næsten lineær)
235B Q4 tensor-parallel 8-vejs (fællesskab) 15-25 tok/s single-stream på 8x RTX 4090

4-kortsdata målt på Kentino-hardware. 8-GPU-ekstrapolering er offentliggjort som ekstern reference. Kentino vil offentliggøre førsteparts 8-GPU-tal efter den første kundeversion.

Ikke ideel til

  • 5090-generations arbejdsbelastninger (Blackwell fp8 native + højere TOPS) — se K-AI 256 TurinDual 5090
  • Træning fra bunden (ingen NVLink på forbruger RTX 4090)
  • ECC-følsom 24/7-produktion — forbruger-RTX 4090 har ingen ECC; foretrækker 4x L40 eller 2x RTX Pro 6000 Server Edition
  • Hunyuan / DeepSeek fp8 native — RTX 4090 er Ada, fp8 checkpoints opgraderet til bf16

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen inkluderer samling, BIOS-konfiguration med NUMA-tuning til to sockets, driverinstallation, burn-in, memtest, fuld 8-GPU stresstest og opsætning af LLM-miljø. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • 4 TB ekstra NVMe til vægtstaging og MoE-offload-arbejdsbelastninger
  • NVIDIA ConnectX-5 100 GbE til servering på flere noder
  • RAM-opgradering til 1 TB (16x 64 GB) eller 2 TB (32x 64 GB) — kortet understøtter 32 DIMM-slots
  • Fuld 24U rackskab + online UPS 5 kVA
Se detaljer