Kentino sro
K-AI 96 Rome L40 724TOPS — 2x NVIDIA L40 ECC Produktionsinferensserver
K-AI 96 Rome L40 724TOPS — 2x NVIDIA L40 ECC Produktionsinferensserver
Kunne ikke indlæse afhentningstilgængelighed
K-AI 96 Rom L40 724TOPS
2x L40 ECC-produktionsserver
96 GB ECC VRAM | EPYC Milan | 724 TOPS INT8
Entry Enterprise ECC 24/7-boks — 2x L40 passiv, 96 GB ECC VRAM-pulje, datacenterklasse-alternativ til 4090-niveauet til regulerede implementeringer.
En inferensserver i produktionsklassen med to GPU'er bygget på ROMED8-2T / EPYC Milan med to passive NVIDIA L40-kort. 96 GB ECC GDDR6-pool på samme VRAM-envelope som 4x RTX 4090-arbejdshesten, men med fuld datacentercertificering, ECC-hukommelse på hvert kort og et termisk design bygget til 24/7 duty cycle. Det rette valg, hvor RTX 4090 ville give anledning til bekymringer om garanti, pålidelighed eller overholdelse af specifikationer - finans, sundhedspleje, formel verifikation og enhver form for vedvarende produktions-LLM/VLM-servering.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 2x NVIDIA L40 48 GB GDDR6 ECC (Ada Lovelace, passiv, 300 W, dobbelt slot, PCIe 4.0 x16) |
| VRAM-pulje | 96 GB ECC (ingen NVLink) |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Opbevaring / bagagerum | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | Enkelt 2 kW ATX strømforsyning |
| Chassis | 4U rackmonterede, passive Gen4 x16 risers |
| Køling | SP3 tårnkøler (Arctic Freezer 4U-M), 3x 120 mm frontindtag + 1x 120 mm bagudstødning |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) + IPMI |
Power kuvert
- GPU-forbrug: 2 x 300 W = 600 W
- Systemtotal ved fuld belastning: ~925 W
- Strømforsyning i alt: 2.000 W — 53.8 % headroom
- Komfortabel margin på én strømforsyning, stille drift
Banetopologi
PCIe Gen4 x16 på begge GPU'er (L40 er native Gen4 x16). 16 baner direkte fra CPU-rodkomplekset — ingen PCIe-switch. NVLink ikke til stede på L40 — kommunikation mellem GPU'er via PCIe P2P. 864 GB/s hukommelsesbåndbredde pr. kort.
Hvad du kan løbe
Med 96 GB ECC VRAM på tværs af 2 passive L40-kort håndterer denne server LLM-servering døgnet rundt i virksomheder, regulerede implementeringer, generering af billeder og video samt multi-tenant-inferens, hvor ECC-pålidelighed og datacentergaranti er vigtige.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3-32B bf16 single-GPU på én L40 med 32k ctx headroom (~18-22 tok/s single-stream på L40, publiceret reference)
- Qwen3.5-27B bf16; Qwen3-30B-A3B / Qwen3-koder-30B-A3B bf16 (~60 GB) 256k ctx
- Qwen3.5-122B-A10B 4. kvartal (~70 GB) — MoE-flagskib, lang ctx
- QwQ-32B bf16; Hunyuan-A13B 6. kvartal (~48 GB)
- DeepSeek-R2 32B sparse MoE bf16 — kompatibel med én GPU, to parallelle strømme
- GLM-4.5-Air 106B/12B Q4-Q5 (60-70 GB komfortabelt)
- Frø-OSS-36B bf16 — 512k native ctx; ERNIE-4.5-47B-A3B Q6-Q8
- Baichuan-M2-32B bf16 (medicinsk begrundelse — ECC-fordel her)
Vestgrænsen
- Lama 3.3 70B Q6 (~58 GB) med KV headroom; Q4_K_M (~43 GB) meget lang ctx (~15-18 tok/s single-stream på 2x L40, publiceret reference)
- Hermes 3 70B / Tulu 3 70B Q4-Q6; Flamme 4 spejder 109B/17B MoE Q4 (~63 GB)
- Mistral Lille 3 / Magistral Lille 1.2 / Devstral Lille 2 (24B) bf16; Mixtral 8x22B Q3-Q4
- gpt-oss-120b MXFP4 (~80 GB) med KV-plads
- Gemma 3 27B multimodal bf16 med 128k ctx
- Phi-4 14B / Phi-4-ræsonnement / Phi-4-multimodal bf16
- Nemotron-Super 49B Q6-Q8; IBM Granite 4.0 H-Lille 32B/9B — virksomhedsoverholdelse
- Reka Flash 3 21B bf16; OLMo 2 32B / OLMo 3.1-32B-Tænk bf16
Vision-sprog modeller
Qwen3-VL-8B / 32B, Qwen3-VL-30B-A3B MoE, Qwen3-Omni-30B-A3B; InternVL3 op til 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 12B / 27B multimodal; PaliGemma 2 (3/10/28B); MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V-Flash; Molmo 72B Q4; Aya Vision 32B.
Billedgenerering
L40 har Ada tensorkerner og 864 GB/s hukommelsesbåndbredde pr. kort — solidt til produktionsbilledpipelines: FLUX.1 [dev] / [schnell] fp16 (~24 GB) eller fp8 (~12 GB) (~15-25 sekunder pr. 1024x1024 billede ved fp8, publiceret reference); FLUX.1 Kontext [dev]; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB); Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Video generation
HunyuanVideo 13B bf16 passer til én L40 ved 720p kort klip; Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 GB) tensor-parallel 2-vejs; Wan 2.2 TI2V-5B bf16 pr. kort; Wan 2.1 14B fp8 / bf16; HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB); LTX-Video 2B; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 large / turbo (~50x realtid på enkelt GPU, publiceret reference); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stabil lyd åben; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi (200 ms latenstid fuld duplex); Step-Audio 2 mini / R1 / R1.1; Qwen2.5-Omni-7B
- Musik / SFX / oversættelse: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2; MMS
Multimodel-/multi-lejer-servering
- 4-8 samtidige brugere på 32-70B klasse LLM'er via vLLM tensor-parallel eller per-card partition
- Blandet stak: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi-resident med partitioneret VRAM
- LoRA-inferens + let finjustering af 7-14B; fuld parameter mulig på mindre modeller
- RAG-pipelines med Command R / Qwen3 + BGE-M3 / E5 / Jina-indlejringer
Målrettede arbejdsbyrder
- Enterprise 24/7 LLM-betjening — 70B Q4-Q6, Qwen3-32B bf16, Mistral Small 3 bf16
- Reguleret implementering, der kræver ECC-hukommelse (finans, sundhedspleje, formel verifikation)
- Langkontekstvisning — Seed-OSS-36B 512k ctx passer komfortabelt til 96 GB-puljen
- Mellemklasse MoE-servering — Hunyuan-A13B Q6, GLM-4.5-Air Q4, Qwen3-30B-A3B bf16
- VLM dokumentbehandling — InternVL3.5-38B, Pixtral 12B bf16, Qwen3-VL-32B
Publicerede præstationsreferencer
Udgivet reference | 2x NVIDIA L40-sammenlignelig hardware
| benchmark | Resultat |
|---|---|
| Llama 3.3 70B Q4_K_M på tværs af 2x L40 tensor-split | ~15-18 tok/s enkeltstrøm |
| Qwen3-32B bf16 enkelt GPU på én L40 | ~18-22 tok/s enkeltstrøm |
| vLLM Hunyuan-A13B Q6 på 2x L40 pool | ~28-34 tok/s enkeltstrøm |
| HunyuanVideo 13B bf16 på en L40 | 720p kort klips — plads til 48 GB |
| Metrikker pr. kort | 362 TOPS INT8, 864 GB/s, 300 W TDP |
Udgivet, ikke målt på Kentino-hardware.
Ikke ideel til
- Optimering af omkostning pr. TFLOPS — 4x RTX 4090 giver 2.644 samlede TOPS til ~40 % af komponentprisen (uden ECC/datacentergaranti)
- Frontier 200B+ kompakte modeller — 96 GB poolloft gælder (kræver 192+ GB SKU)
- Videogenerering ved bf16 langformat i fuld opløsning (Wan 2.2 MoE to-ekspert ønsker mere VRAM)
- Træning fra bunden — L40 er inferenscertificeret; brug RTX Pro 6000 / arbejdsstation Blackwell til træning
Garanti og leveringstid
NVIDIA OEM 3 års datacentergaranti på L40 + Kentino-integrationsgaranti (2 år på dele, 1 år på arbejdskraft). Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation.
Anbefalede tilføjelser
- Opgrader til 4x L40 (K-AI 192 Rome L40 1448TOPS) for 192 GB ECC-pulje og servering på frontier-tier
- Opgrader RAM til 512 GB (tilføj 4x 64 GB DDR4) for større embedding/reranker-stacks
- Opgrader NVMe til 4 TB for modelbibliotek + datasætstaging
- Redundant strømforsyningsupsælg (dobbelt 2 kW synkroniseret) tilgængelig på forespørgsel
- Rack PDU + 3 kVA online UPS til produktionsfarve
Del
