Kentino sro
K-AI 64 Rome 5090 3352TOPS — 2x RTX 5090 Entry Blackwell AI-server
K-AI 64 Rome 5090 3352TOPS — 2x RTX 5090 Entry Blackwell AI-server
Kunne ikke indlæse afhentningstilgængelighed
K-AI 64 Rom 5090 3352TOPS
Blackwell 2-GPU-server til indgang
2x RTX 5090 | EPYC Milano | 6704 TOPS INT8
Blackwell 2-GPU-server til basismodellen — 64 GB samlet VRAM, 3 x 352 INT8 TOPS, native fp8. Ada-til-Blackwell-opgraderingen fra 2x4090.
En Blackwell AI-server med to GPU'er bygget på ROMED8-2T / EPYC Milan. To RTX 5090 leverer en samlet VRAM-envelope på 64 GB med native fp8-tensormatematik - omtrent dobbelt så meget som den rå TOPS for 2x RTX 4090 i samme chassis-fodaftryk, og det første 2-GPU-lag, der komfortabelt kører Llama 3.3 70B Q4, Qwen3.5-122B-A10B Q4 og HunyuanVideo ved bf16 / fp8 med headroom.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 2x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell) |
| VRAM-pulje | 64 DK |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Opbevaring / bagagerum | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | Enkelt 2 kW ATX strømforsyning |
| Chassis | 4U rackmonterede, passive Gen4 x16 risers |
| Køling | SP3 tårnkøler, 3x 120 mm frontindtag + 1x 120 mm bagudstødning (industrielle ventilatorer) |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) + IPMI |
Power kuvert
- GPU-forbrug: 2 x 575 W = 1800 W
- Systemtotal ved fuld belastning: ~4080 W
- Strømforsyning i alt: 2.000 W (enkelt 2 kW ATX) — 26.25 % headroom
- Brugbar margin til én strømforsyning; opgradering til to strømforsyninger mulig for ekstra headroom
Banetopologi
ROMED8-2T spreder 2x16 Gen4 fra CPU-rodkomplekset. 5090 er Gen5-silicium, der kører Gen4 x16 uden båndbreddestraf for inferens. Ingen PCIe-switch. Ingen NVLink på GeForce 5090 — tensor-parallel 2-vejs P2P bruger PCIe.
Hvad du kan løbe
Med 64 GB samlet GDDR7 VRAM på tværs af 2 Blackwell-kort håndterer denne server 70B Q4 tensor-parallel, MoE-flagskibe, native fp8-billedgenerering, video-AI og samtidig servering af flere modeller.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3-32B Q8 / bf16 (næsten fp16-kvalitet) (~40-55 tok/s single-stream på Blackwell fp8, publiceret reference)
- QwQ-32B bf16; Qwen3-30B-A3B / Coder-30B-A3B bf16 (passer til ~60 GB)
- Qwen3.5-122B-A10B 4. kvartal (~70-75 GB med RAM-spild) — MoE-flagskibet passer til 4. kvartal
- Hunyuan-A13B fp8 (~80 GB kompakt) eller Q6 (~36 GB komfortabelt)
- Frø-OSS-36B bf16 (~72 GB kompakt — foretrækker fp8 ~36 GB)
- DeepSeek-R2 32B sparsom MoE bf16
- GLM-4.5-Air 106B/12B Q4_K_M (~60 GB) — MoE med headroom
- ERNIE-4.5-47B-A3B Q6-Q8
Vestgrænsen
- Lama 3.3 70B Q4_K_M (~43 GB) — den overordnede arbejdsbyrde for dette niveau (~20-28 tok/s single-stream på 2x 5090, offentliggjort reference)
- Hermes 3 70B / Tulu 3 70B Q4 — åben efteruddannelse af Llama-derivater
- Mistral Lille 3 / Magistral / Devstral Lille 2 24B bf16; Mixtral 8x7B bf16
- Gemma 3 27B multimodal bf16 + ræsonnementskapacitet
- Phi-4 14B bf16; Nemotron-Super 49B Q6-Q8
- gpt-oss-20b MXFP4 (16 GB) + gpt-oss-120b MXFP4 (80 GB — passer stramt med short ctx)
- OLMo 2 32B / OLMo 3.1-32B-Tænk bf16
Vision-Sprog
Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B bf16; InternVL3.5-38B bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Pixtral Large 124B Q3 (~58 GB tæt); Gemma 3 27B multimodal bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB).
Billedgenerering
5090 native fp8 er hastighedshistorien — FLUX.1 / SD 3.5 / HunyuanImage kører væsentligt hurtigere end på Ada: FLUX.1 [dev] / [schnell] fp8 native (~12 GB) med 2x parallelle tværkort (~8-12 sekunder pr. 1024x1024 billede på Blackwell, publiceret reference); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16 eller 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB); HunyuanImage-3.0 NF4; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.
Video generation
Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 GB i alt) — MoE to-eksperter med fuld præcision; Wan 2.2 TI2V-5B bf16 pr. kort, 2 parallelle lejere; HunyuanVideo 13B Q4-Q5 (~30 GB), fp8 tight; HunyuanVideo 1.5 (8.3B) bf16 pr. kort; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB passer); LTX-Video 2B; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
Samme fulde kinesiske + vestlige talestak som 4090-niveauet, men med mere headroom: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2 + MMS. På fp8-native 5090 afkoder Whisper / Parakeet med en væsentligt højere realtidsfaktor. Whisper v3 turbo kører med ~75x realtid på Blackwell (offentliggjort reference).
Multimodel / multi-lejer
- Resident stak: Llama 3.3 70B Q4 (~43 GB tensor-parallel 2-vejs) + FLUX.1 fp8 (~12 GB) + Whisper-turbo + Moshi
- 2-4 samtidige lejere på 32B-klassen ved Q6-Q8 pr. kort
- LoRA/QLoRA finjustering af 7-14B komfortabel, 24-32B stram
Målrettede arbejdsbyrder
- Udviklerarbejdsstation til små teams med 70B Q4-serverhøjde
- Blackwell-opgradering fra en 2x RTX 4090-boks — samme kabinet, ~2.5x TOPS, fp8 native
- Billed-/videogenereringsarbejdsstation med FLUX native fp8 speedup
- Multi-model samtidig boks: 70B Q4 + FLUX + Whisper + Moshi resident samtidigt
- 4-8 samtidige brugerinferensslutpunkter for 32B-klasse LLM'er
Publicerede præstationsreferencer
Udgivet reference | 2x RTX 5090 sammenlignelig hardware
| benchmark | Resultat |
|---|---|
| Llama 3.3 70B Q4_K_M llama.cpp afkodning | ~20-28 tok/s enkeltstrøm |
| Qwen3-32B Q8 vLLM enkeltstrøms | ~45-60 tok/s afkodning ved fp8 |
| FLUX.1 [udvikling] fp8 native Blackwell | ~1.5-1.9 sek. pr. 1024x1024 ved 20 trin |
| HunyuanVideo 13B Q5 TP-2 | 5 sekunder 720p på ~5-7 min |
Udgivet, ikke målt på Kentino-hardware. Kentino målte som reference på 4x RTX 4090: 647 TFLOPS fp16, 179 tok/s batch-32 aggregat.
Ikke ideel til
- 100B+ kompakte modeller ved bf16 (DeepSeek-V3, Kimi K2, Mistral Large 3 — kræver 256+ GB pool)
- Frontier-videogenerering ved bf16 langformat i fuld opløsning
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Opgrader boot-drevet til 2 TB NVMe — eller 4 TB
- Opgrader RAM til 256 GB (4x 64 GB) — MoE KV cache headroom / samtidig servering af flere modeller
- Rack PDU (C13/C19 målt) og 3 kVA online UPS
Del
