Gå til produktinformation
1 of 14

Kentino sro

K-AI 48 Rom 4090 1322TOPS — 2x RTX 4090 Entry AI-server

K-AI 48 Rom 4090 1322TOPS — 2x RTX 4090 Entry AI-server

Regelmæssig pris € 11.434,00 EUR
Regelmæssig pris Udsalgspris € 11.434,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 48 Rom 4090 1322TOPS

48 GB VRAM Entry 2-GPU-server
2x RTX 4090 | EPYC Rom | 2644 TOPS INT8

1 322
TOPS INT8
48 DK
VRAM-pulje
2 GPU
parallel tensor
rack
klar

48 GB VRAM-pulje på tværs af to RTX 4090 — omkostningsgulvet for tensor-parallel inferens i 32B-klassen.

En to-GPU Ada-arbejdsstationsklasse AI-server bygget på ROMED8-2T / EPYC Rome. To RTX 4090 giver en samlet VRAM-envelope på 48 GB, der komfortabelt kører 32B dense Q6-Q8, Hunyuan-A13B ved Q6, Wan 2.1 14B video og Pixtral 12B Vision - det bedste allround-modeludvalg pr. euro, som Kentino-serien tilbyder, før de opgraderer til Blackwell.

Hardware

Component Detalje
GPU'er 2x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16)
VRAM-pulje 48 GB (ingen NVLink — tensor-parallel over PCIe)
CPU AMD EPYC 7542 Rome (32C/64T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Opbevaring / bagagerum 1 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning Enkelt 2 kW ATX strømforsyning
Chassis 4U rackmonterede, passive Gen4 x16 risers
Køling SP3 tårnkøler, 3x 120 mm frontindtag + 1x 120 mm bagudstødning
Netværk Indbygget dobbelt 10 GbE (Intel X550) + IPMI

Power kuvert

  • GPU-forbrug: 2 x 450 W = 900 W
  • Systemtotal ved fuld belastning: ~4080 W
  • Strømforsyning i alt: 2.000 W (enkelt 2 kW ATX) — 38.75 % headroom
  • Komfortabel margin på én strømforsyning

Banetopologi

ROMED8-2T spreder 2x16 direkte fra CPU-rodkomplekset — ingen PLX-switch. Consumer 4090 har ingen NVLink; tensor-parallel kommunikation via PCIe. PCIe Gen4 x16 på begge GPU'er.

Hvad du kan løbe

Med 48 GB samlet VRAM på tværs af 2 kort håndterer denne server tætte LLM'er i 32B-klassen i Q6-Q8, MoE-flagskibe, billed- og videogenerering, tale-AI og multi-tenant-servering.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3-32B tæt Q6-Q8 (~25-35 tok/s enkeltstrøm på 2x 4090, publiceret reference); QwQ-32B Q6; Qwen3.5-27B Q6-Q8
  • Qwen3-30B-A3B / Qwen3-koder-30B-A3B bf16 (~60 GB begrænset; brug Q6)
  • Hunyuan-A13B Q6 eller fp8 (~48 GB) — 80B/13B MoE, 256k ctx
  • Frø-OSS-36B Q6 — 512k native ctx
  • DeepSeek-R2 32B sparse MoE bf16 (~64 GB tight — foretrækker Q6 ~45 GB) (~30-40 tok/s single-stream ved Q4, offentliggjort reference)
  • ERNIE-4.5-47B-A3B Q4 (~28 GB med headroom) / Q6 (~42 GB)

Vestgrænsen

  • Lama 3.3 70B Q4_K_M (~43 GB) tensor-parallel 2-vejs — det optimale punkt i denne klasse (~14-17 tok/s single-stream på 2x 4090, publiceret reference)
  • Flamme 4 spejder 109B/17B MoE Q3_K (~51 GB begrænset)
  • Mistral Lille 3 / Magistral Lille / Devstral Lille 2 (24B) bf16
  • Mixtral 8x7B Q6
  • Gemma 3 27B bf16; Phi-4 14B bf16
  • Nemotron-Super 49B 4. kvartal (~28 GB)
  • Andet: OLMo 2 32B; Reka Flash 3 21B bf16; Falcon H1R 7B

Vision-Sprog

Qwen3-VL-32B / Qwen3-VL-30B-A3B MoE / Qwen3-Omni-30B-A3B; InternVL3-38B Q4-Q5; InternVL3.5-38B; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 27B multimodal; PaliGemma 2 28B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6.

Billedgenerering

FLUX.1 [dev] / [schnell] fp16 (24 GB) eller fp8 (~12 GB) med generøs batch (~15-25 sekunder pr. 1024x1024 billede ved fp8 pr. kort, publiceret reference); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB passer i poolen); AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.

Video generation

Wan 2.1 14B T2V/I2V Q6/fp8; Wan 2.2 TI2V-5B bf16 enkeltkort; Wan 2.2 T2V-A14B / I2V-A14B Q4 (~32 GB); HunyuanVideo 13B Q4-Q5 (~30 GB); HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) Q8; CogVideoX-5B / 1.5 bf16; Mochi-1 Q4-Q8; LTX-Video 2B; Pyramid Flow 2B.

Lyd / Tale / TTS

Fuld 24 GB tier-stak passer med plads til samtidig brug: Whisper v3 large + Parakeet-TDT + Canary 1B + Moshi + Step-Audio 2 mini + CosyVoice 3.0 + Kokoro 82M + Stable Audio. Åbn alle enheder samtidigt. Whisper v3 turbo kører ~50x realtid på et enkelt kort (offentliggjort reference).

Multimodel / multi-lejer

  • 2-4 samtidige brugere på 32B Q6 klasse LLM'er via vLLM tensor-parallel
  • Blandet arbejdsbyrde: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB) + Whisper-turbo (1.6 GB) + Moshi (8 GB) resident på tværs af 2 kort
  • LoRA/QLoRA finjustering af 7-14B modeller komfortabelt, 24-32B stramt

Målrettede arbejdsbyrder

  • AI-arbejdsstation med to operatører og blandede LLM- + billede- + lydstakke
  • 32B-klasse serverendepunkt til udviklermiljø med små teams (4-8 samtidige brugere på Qwen3-32B / Gemma 3 27B)
  • Billedgenereringspipeline (FLUX.1 + SD 3.5 + ControlNet) batchproduktion
  • Videogenerationsudviklingsboks (Wan 2.1 / Wan 2.2 TI2V / HunyuanVideo 1.5)
  • LoRA/QLoRA finjustering af forskningsboks til 7-34B kinesiske + vestlige vægte

Publicerede præstationsreferencer

Udgivet reference | 2x RTX 4090 sammenlignelig hardware

benchmark Resultat
Llama 3.3 70B Q4_K_M llama.cpp afkodning ~14-17 tok/s enkeltstrøm
Qwen3-32B Q6 vLLM enkeltstrøms ~35-45 tok/s afkodning
FLUX.1 [udvikling] fp8 ~2.5-3.0 sek. pr. 1024x1024 ved 20 trin
vLLM batch-32 aggregat (ekstrapoleret fra 4x4090) ~90 tok/s samlet

Publicerede referencepunkter fra sammenlignelig 2x4090 hardware. Ikke målt på Kentino hardware.

Ikke ideel til

  • 70B tæthed ved Q6+ (kræver 96 GB pool — opgrader til 4x RTX 4090 eller 4x RTX 5090)
  • Frontier 100B+ MoE ved bf16 (GLM-4.5, Kimi K2, Mistral Large 3)

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Opgrader boot-drevet til 2 TB NVMe
  • Opgrader RAM til 256 GB (4x 64 GB) — mere KV-cache-kapacitet til long-ctx MoE
  • Rack PDU (C13/C19 målt) og 2 kVA online UPS
Se detaljer