Gå til produktinformation
1 of 14

Kentino sro

K-AI 64 Rome 5090 3352TOPS — 2x RTX 5090 Entry Blackwell AI-server

K-AI 64 Rome 5090 3352TOPS — 2x RTX 5090 Entry Blackwell AI-server

Regelmæssig pris € 11.653,00 EUR
Regelmæssig pris Udsalgspris € 11.653,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 64 Rom 5090 3352TOPS

Blackwell 2-GPU-server til indgang
2x RTX 5090 | EPYC Milano | 6704 TOPS INT8

3 352
TOPS INT8
64 DK
VRAM GDDR7
fp8
oprindelig tensor
rack
klar

Blackwell 2-GPU-server til basismodellen — 64 GB samlet VRAM, 3 x 352 INT8 TOPS, native fp8. Ada-til-Blackwell-opgraderingen fra 2x4090.

En Blackwell AI-server med to GPU'er bygget på ROMED8-2T / EPYC Milan. To RTX 5090 leverer en samlet VRAM-envelope på 64 GB med native fp8-tensormatematik - omtrent dobbelt så meget som den rå TOPS for 2x RTX 4090 i samme chassis-fodaftryk, og det første 2-GPU-lag, der komfortabelt kører Llama 3.3 70B Q4, Qwen3.5-122B-A10B Q4 og HunyuanVideo ved bf16 / fp8 med headroom.

Hardware

Component Detalje
GPU'er 2x NVIDIA GeForce RTX 5090 32 GB GDDR7 (575 W, PCIe 5.0 x16, Blackwell)
VRAM-pulje 64 DK
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Opbevaring / bagagerum 1 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning Enkelt 2 kW ATX strømforsyning
Chassis 4U rackmonterede, passive Gen4 x16 risers
Køling SP3 tårnkøler, 3x 120 mm frontindtag + 1x 120 mm bagudstødning (industrielle ventilatorer)
Netværk Indbygget dobbelt 10 GbE (Intel X550) + IPMI

Power kuvert

  • GPU-forbrug: 2 x 575 W = 1800 W
  • Systemtotal ved fuld belastning: ~4080 W
  • Strømforsyning i alt: 2.000 W (enkelt 2 kW ATX) — 26.25 % headroom
  • Brugbar margin til én strømforsyning; opgradering til to strømforsyninger mulig for ekstra headroom

Banetopologi

ROMED8-2T spreder 2x16 Gen4 fra CPU-rodkomplekset. 5090 er Gen5-silicium, der kører Gen4 x16 uden båndbreddestraf for inferens. Ingen PCIe-switch. Ingen NVLink på GeForce 5090 — tensor-parallel 2-vejs P2P bruger PCIe.

Hvad du kan løbe

Med 64 GB samlet GDDR7 VRAM på tværs af 2 Blackwell-kort håndterer denne server 70B Q4 tensor-parallel, MoE-flagskibe, native fp8-billedgenerering, video-AI og samtidig servering af flere modeller.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3-32B Q8 / bf16 (næsten fp16-kvalitet) (~40-55 tok/s single-stream på Blackwell fp8, publiceret reference)
  • QwQ-32B bf16; Qwen3-30B-A3B / Coder-30B-A3B bf16 (passer til ~60 GB)
  • Qwen3.5-122B-A10B 4. kvartal (~70-75 GB med RAM-spild) — MoE-flagskibet passer til 4. kvartal
  • Hunyuan-A13B fp8 (~80 GB kompakt) eller Q6 (~36 GB komfortabelt)
  • Frø-OSS-36B bf16 (~72 GB kompakt — foretrækker fp8 ~36 GB)
  • DeepSeek-R2 32B sparsom MoE bf16
  • GLM-4.5-Air 106B/12B Q4_K_M (~60 GB) — MoE med headroom
  • ERNIE-4.5-47B-A3B Q6-Q8

Vestgrænsen

  • Lama 3.3 70B Q4_K_M (~43 GB) — den overordnede arbejdsbyrde for dette niveau (~20-28 tok/s single-stream på 2x 5090, offentliggjort reference)
  • Hermes 3 70B / Tulu 3 70B Q4 — åben efteruddannelse af Llama-derivater
  • Mistral Lille 3 / Magistral / Devstral Lille 2 24B bf16; Mixtral 8x7B bf16
  • Gemma 3 27B multimodal bf16 + ræsonnementskapacitet
  • Phi-4 14B bf16; Nemotron-Super 49B Q6-Q8
  • gpt-oss-20b MXFP4 (16 GB) + gpt-oss-120b MXFP4 (80 GB — passer stramt med short ctx)
  • OLMo 2 32B / OLMo 3.1-32B-Tænk bf16

Vision-Sprog

Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B bf16; InternVL3.5-38B bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Pixtral Large 124B Q3 ​​(~58 GB tæt); Gemma 3 27B multimodal bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB).

Billedgenerering

5090 native fp8 er hastighedshistorien — FLUX.1 / SD 3.5 / HunyuanImage kører væsentligt hurtigere end på Ada: FLUX.1 [dev] / [schnell] fp8 native (~12 GB) med 2x parallelle tværkort (~8-12 sekunder pr. 1024x1024 billede på Blackwell, publiceret reference); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16 eller 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB); HunyuanImage-3.0 NF4; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 GB i alt) — MoE to-eksperter med fuld præcision; Wan 2.2 TI2V-5B bf16 pr. kort, 2 parallelle lejere; HunyuanVideo 13B Q4-Q5 (~30 GB), fp8 tight; HunyuanVideo 1.5 (8.3B) bf16 pr. kort; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB passer); LTX-Video 2B; NVIDIA Cosmos Predict 2.

Lyd / Tale / TTS

Samme fulde kinesiske + vestlige talestak som 4090-niveauet, men med mere headroom: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2 + MMS. På fp8-native 5090 afkoder Whisper / Parakeet med en væsentligt højere realtidsfaktor. Whisper v3 turbo kører med ~75x realtid på Blackwell (offentliggjort reference).

Multimodel / multi-lejer

  • Resident stak: Llama 3.3 70B Q4 (~43 GB tensor-parallel 2-vejs) + FLUX.1 fp8 (~12 GB) + Whisper-turbo + Moshi
  • 2-4 samtidige lejere på 32B-klassen ved Q6-Q8 pr. kort
  • LoRA/QLoRA finjustering af 7-14B komfortabel, 24-32B stram

Målrettede arbejdsbyrder

  • Udviklerarbejdsstation til små teams med 70B Q4-serverhøjde
  • Blackwell-opgradering fra en 2x RTX 4090-boks — samme kabinet, ~2.5x TOPS, fp8 native
  • Billed-/videogenereringsarbejdsstation med FLUX native fp8 speedup
  • Multi-model samtidig boks: 70B Q4 + FLUX + Whisper + Moshi resident samtidigt
  • 4-8 samtidige brugerinferensslutpunkter for 32B-klasse LLM'er

Publicerede præstationsreferencer

Udgivet reference | 2x RTX 5090 sammenlignelig hardware

benchmark Resultat
Llama 3.3 70B Q4_K_M llama.cpp afkodning ~20-28 tok/s enkeltstrøm
Qwen3-32B Q8 vLLM enkeltstrøms ~45-60 tok/s afkodning ved fp8
FLUX.1 [udvikling] fp8 native Blackwell ~1.5-1.9 sek. pr. 1024x1024 ved 20 trin
HunyuanVideo 13B Q5 TP-2 5 sekunder 720p på ~5-7 min

Udgivet, ikke målt på Kentino-hardware. Kentino målte som reference på 4x RTX 4090: 647 TFLOPS fp16, 179 tok/s batch-32 aggregat.

Ikke ideel til

  • 100B+ kompakte modeller ved bf16 (DeepSeek-V3, Kimi K2, Mistral Large 3 — kræver 256+ GB pool)
  • Frontier-videogenerering ved bf16 langformat i fuld opløsning

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Opgrader boot-drevet til 2 TB NVMe — eller 4 TB
  • Opgrader RAM til 256 GB (4x 64 GB) — MoE KV cache headroom / samtidig servering af flere modeller
  • Rack PDU (C13/C19 målt) og 3 kVA online UPS
Se detaljer