Kentino sro
K-AI 48 Rom 4090 1322TOPS — 2x RTX 4090 Entry AI-server
K-AI 48 Rom 4090 1322TOPS — 2x RTX 4090 Entry AI-server
Kunne ikke indlæse afhentningstilgængelighed
K-AI 48 Rom 4090 1322TOPS
48 GB VRAM Entry 2-GPU-server
2x RTX 4090 | EPYC Rom | 2644 TOPS INT8
48 GB VRAM-pulje på tværs af to RTX 4090 — omkostningsgulvet for tensor-parallel inferens i 32B-klassen.
En to-GPU Ada-arbejdsstationsklasse AI-server bygget på ROMED8-2T / EPYC Rome. To RTX 4090 giver en samlet VRAM-envelope på 48 GB, der komfortabelt kører 32B dense Q6-Q8, Hunyuan-A13B ved Q6, Wan 2.1 14B video og Pixtral 12B Vision - det bedste allround-modeludvalg pr. euro, som Kentino-serien tilbyder, før de opgraderer til Blackwell.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 2x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16) |
| VRAM-pulje | 48 GB (ingen NVLink — tensor-parallel over PCIe) |
| CPU | AMD EPYC 7542 Rome (32C/64T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Opbevaring / bagagerum | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | Enkelt 2 kW ATX strømforsyning |
| Chassis | 4U rackmonterede, passive Gen4 x16 risers |
| Køling | SP3 tårnkøler, 3x 120 mm frontindtag + 1x 120 mm bagudstødning |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) + IPMI |
Power kuvert
- GPU-forbrug: 2 x 450 W = 900 W
- Systemtotal ved fuld belastning: ~4080 W
- Strømforsyning i alt: 2.000 W (enkelt 2 kW ATX) — 38.75 % headroom
- Komfortabel margin på én strømforsyning
Banetopologi
ROMED8-2T spreder 2x16 direkte fra CPU-rodkomplekset — ingen PLX-switch. Consumer 4090 har ingen NVLink; tensor-parallel kommunikation via PCIe. PCIe Gen4 x16 på begge GPU'er.
Hvad du kan løbe
Med 48 GB samlet VRAM på tværs af 2 kort håndterer denne server tætte LLM'er i 32B-klassen i Q6-Q8, MoE-flagskibe, billed- og videogenerering, tale-AI og multi-tenant-servering.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3-32B tæt Q6-Q8 (~25-35 tok/s enkeltstrøm på 2x 4090, publiceret reference); QwQ-32B Q6; Qwen3.5-27B Q6-Q8
- Qwen3-30B-A3B / Qwen3-koder-30B-A3B bf16 (~60 GB begrænset; brug Q6)
- Hunyuan-A13B Q6 eller fp8 (~48 GB) — 80B/13B MoE, 256k ctx
- Frø-OSS-36B Q6 — 512k native ctx
- DeepSeek-R2 32B sparse MoE bf16 (~64 GB tight — foretrækker Q6 ~45 GB) (~30-40 tok/s single-stream ved Q4, offentliggjort reference)
- ERNIE-4.5-47B-A3B Q4 (~28 GB med headroom) / Q6 (~42 GB)
Vestgrænsen
- Lama 3.3 70B Q4_K_M (~43 GB) tensor-parallel 2-vejs — det optimale punkt i denne klasse (~14-17 tok/s single-stream på 2x 4090, publiceret reference)
- Flamme 4 spejder 109B/17B MoE Q3_K (~51 GB begrænset)
- Mistral Lille 3 / Magistral Lille / Devstral Lille 2 (24B) bf16
- Mixtral 8x7B Q6
- Gemma 3 27B bf16; Phi-4 14B bf16
- Nemotron-Super 49B 4. kvartal (~28 GB)
- Andet: OLMo 2 32B; Reka Flash 3 21B bf16; Falcon H1R 7B
Vision-Sprog
Qwen3-VL-32B / Qwen3-VL-30B-A3B MoE / Qwen3-Omni-30B-A3B; InternVL3-38B Q4-Q5; InternVL3.5-38B; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 27B multimodal; PaliGemma 2 28B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6.
Billedgenerering
FLUX.1 [dev] / [schnell] fp16 (24 GB) eller fp8 (~12 GB) med generøs batch (~15-25 sekunder pr. 1024x1024 billede ved fp8 pr. kort, publiceret reference); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB passer i poolen); AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.
Video generation
Wan 2.1 14B T2V/I2V Q6/fp8; Wan 2.2 TI2V-5B bf16 enkeltkort; Wan 2.2 T2V-A14B / I2V-A14B Q4 (~32 GB); HunyuanVideo 13B Q4-Q5 (~30 GB); HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) Q8; CogVideoX-5B / 1.5 bf16; Mochi-1 Q4-Q8; LTX-Video 2B; Pyramid Flow 2B.
Lyd / Tale / TTS
Fuld 24 GB tier-stak passer med plads til samtidig brug: Whisper v3 large + Parakeet-TDT + Canary 1B + Moshi + Step-Audio 2 mini + CosyVoice 3.0 + Kokoro 82M + Stable Audio. Åbn alle enheder samtidigt. Whisper v3 turbo kører ~50x realtid på et enkelt kort (offentliggjort reference).
Multimodel / multi-lejer
- 2-4 samtidige brugere på 32B Q6 klasse LLM'er via vLLM tensor-parallel
- Blandet arbejdsbyrde: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB) + Whisper-turbo (1.6 GB) + Moshi (8 GB) resident på tværs af 2 kort
- LoRA/QLoRA finjustering af 7-14B modeller komfortabelt, 24-32B stramt
Målrettede arbejdsbyrder
- AI-arbejdsstation med to operatører og blandede LLM- + billede- + lydstakke
- 32B-klasse serverendepunkt til udviklermiljø med små teams (4-8 samtidige brugere på Qwen3-32B / Gemma 3 27B)
- Billedgenereringspipeline (FLUX.1 + SD 3.5 + ControlNet) batchproduktion
- Videogenerationsudviklingsboks (Wan 2.1 / Wan 2.2 TI2V / HunyuanVideo 1.5)
- LoRA/QLoRA finjustering af forskningsboks til 7-34B kinesiske + vestlige vægte
Publicerede præstationsreferencer
Udgivet reference | 2x RTX 4090 sammenlignelig hardware
| benchmark | Resultat |
|---|---|
| Llama 3.3 70B Q4_K_M llama.cpp afkodning | ~14-17 tok/s enkeltstrøm |
| Qwen3-32B Q6 vLLM enkeltstrøms | ~35-45 tok/s afkodning |
| FLUX.1 [udvikling] fp8 | ~2.5-3.0 sek. pr. 1024x1024 ved 20 trin |
| vLLM batch-32 aggregat (ekstrapoleret fra 4x4090) | ~90 tok/s samlet |
Publicerede referencepunkter fra sammenlignelig 2x4090 hardware. Ikke målt på Kentino hardware.
Ikke ideel til
- 70B tæthed ved Q6+ (kræver 96 GB pool — opgrader til 4x RTX 4090 eller 4x RTX 5090)
- Frontier 100B+ MoE ved bf16 (GLM-4.5, Kimi K2, Mistral Large 3)
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Opgrader boot-drevet til 2 TB NVMe
- Opgrader RAM til 256 GB (4x 64 GB) — mere KV-cache-kapacitet til long-ctx MoE
- Rack PDU (C13/C19 målt) og 2 kVA online UPS
Del
