Gå til produktinformation
1 of 7

Kentino sro

K-AI 96 Rome L40 724TOPS — 2x NVIDIA L40 ECC Produktionsinferensserver

K-AI 96 Rome L40 724TOPS — 2x NVIDIA L40 ECC Produktionsinferensserver

Regelmæssig pris € 23.144,00 EUR
Regelmæssig pris Udsalgspris € 23.144,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 96 Rom L40 724TOPS

2x L40 ECC-produktionsserver
96 GB ECC VRAM | EPYC Milan | 724 TOPS INT8

724
TOPS INT8
96 DK
ECC VRAM
ECC
datacenterkvalitet
24/7
produktion

Entry Enterprise ECC 24/7-boks — 2x L40 passiv, 96 GB ECC VRAM-pulje, datacenterklasse-alternativ til 4090-niveauet til regulerede implementeringer.

En inferensserver i produktionsklassen med to GPU'er bygget på ROMED8-2T / EPYC Milan med to passive NVIDIA L40-kort. 96 GB ECC GDDR6-pool på samme VRAM-envelope som 4x RTX 4090-arbejdshesten, men med fuld datacentercertificering, ECC-hukommelse på hvert kort og et termisk design bygget til 24/7 duty cycle. Det rette valg, hvor RTX 4090 ville give anledning til bekymringer om garanti, pålidelighed eller overholdelse af specifikationer - finans, sundhedspleje, formel verifikation og enhver form for vedvarende produktions-LLM/VLM-servering.

Hardware

Component Detalje
GPU'er 2x NVIDIA L40 48 GB GDDR6 ECC (Ada Lovelace, passiv, 300 W, dobbelt slot, PCIe 4.0 x16)
VRAM-pulje 96 GB ECC (ingen NVLink)
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Opbevaring / bagagerum 1 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning Enkelt 2 kW ATX strømforsyning
Chassis 4U rackmonterede, passive Gen4 x16 risers
Køling SP3 tårnkøler (Arctic Freezer 4U-M), 3x 120 mm frontindtag + 1x 120 mm bagudstødning
Netværk Indbygget dobbelt 10 GbE (Intel X550) + IPMI

Power kuvert

  • GPU-forbrug: 2 x 300 W = 600 W
  • Systemtotal ved fuld belastning: ~925 W
  • Strømforsyning i alt: 2.000 W — 53.8 % headroom
  • Komfortabel margin på én strømforsyning, stille drift

Banetopologi

PCIe Gen4 x16 på begge GPU'er (L40 er native Gen4 x16). 16 baner direkte fra CPU-rodkomplekset — ingen PCIe-switch. NVLink ikke til stede på L40 — kommunikation mellem GPU'er via PCIe P2P. 864 GB/s hukommelsesbåndbredde pr. kort.

Hvad du kan løbe

Med 96 GB ECC VRAM på tværs af 2 passive L40-kort håndterer denne server LLM-servering døgnet rundt i virksomheder, regulerede implementeringer, generering af billeder og video samt multi-tenant-inferens, hvor ECC-pålidelighed og datacentergaranti er vigtige.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3-32B bf16 single-GPU på én L40 med 32k ctx headroom (~18-22 tok/s single-stream på L40, publiceret reference)
  • Qwen3.5-27B bf16; Qwen3-30B-A3B / Qwen3-koder-30B-A3B bf16 (~60 GB) 256k ctx
  • Qwen3.5-122B-A10B 4. kvartal (~70 GB) — MoE-flagskib, lang ctx
  • QwQ-32B bf16; Hunyuan-A13B 6. kvartal (~48 GB)
  • DeepSeek-R2 32B sparse MoE bf16 — kompatibel med én GPU, to parallelle strømme
  • GLM-4.5-Air 106B/12B Q4-Q5 (60-70 GB komfortabelt)
  • Frø-OSS-36B bf16 — 512k native ctx; ERNIE-4.5-47B-A3B Q6-Q8
  • Baichuan-M2-32B bf16 (medicinsk begrundelse — ECC-fordel her)

Vestgrænsen

  • Lama 3.3 70B Q6 (~58 GB) med KV headroom; Q4_K_M (~43 GB) meget lang ctx (~15-18 tok/s single-stream på 2x L40, publiceret reference)
  • Hermes 3 70B / Tulu 3 70B Q4-Q6; Flamme 4 spejder 109B/17B MoE Q4 (~63 GB)
  • Mistral Lille 3 / Magistral Lille 1.2 / Devstral Lille 2 (24B) bf16; Mixtral 8x22B Q3-Q4
  • gpt-oss-120b MXFP4 (~80 GB) med KV-plads
  • Gemma 3 27B multimodal bf16 med 128k ctx
  • Phi-4 14B / Phi-4-ræsonnement / Phi-4-multimodal bf16
  • Nemotron-Super 49B Q6-Q8; IBM Granite 4.0 H-Lille 32B/9B — virksomhedsoverholdelse
  • Reka Flash 3 21B bf16; OLMo 2 32B / OLMo 3.1-32B-Tænk bf16

Vision-sprog modeller

Qwen3-VL-8B / 32B, Qwen3-VL-30B-A3B MoE, Qwen3-Omni-30B-A3B; InternVL3 op til 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 12B / 27B multimodal; PaliGemma 2 (3/10/28B); MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V-Flash; Molmo 72B Q4; Aya Vision 32B.

Billedgenerering

L40 har Ada tensorkerner og 864 GB/s hukommelsesbåndbredde pr. kort — solidt til produktionsbilledpipelines: FLUX.1 [dev] / [schnell] fp16 (~24 GB) eller fp8 (~12 GB) (~15-25 sekunder pr. 1024x1024 billede ved fp8, publiceret reference); FLUX.1 Kontext [dev]; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB); Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Video generation

HunyuanVideo 13B bf16 passer til én L40 ved 720p kort klip; Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 GB) tensor-parallel 2-vejs; Wan 2.2 TI2V-5B bf16 pr. kort; Wan 2.1 14B fp8 / bf16; HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB); LTX-Video 2B; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Lyd / Tale / TTS

  • ASR: Whisper v3 large / turbo (~50x realtid på enkelt GPU, publiceret reference); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stabil lyd åben; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
  • Realtid / S2S: Kyutai Moshi (200 ms latenstid fuld duplex); Step-Audio 2 mini / R1 / R1.1; Qwen2.5-Omni-7B
  • Musik / SFX / oversættelse: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2; MMS

Multimodel-/multi-lejer-servering

  • 4-8 samtidige brugere på 32-70B klasse LLM'er via vLLM tensor-parallel eller per-card partition
  • Blandet stak: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi-resident med partitioneret VRAM
  • LoRA-inferens + let finjustering af 7-14B; fuld parameter mulig på mindre modeller
  • RAG-pipelines med Command R / Qwen3 + BGE-M3 / E5 / Jina-indlejringer

Målrettede arbejdsbyrder

  • Enterprise 24/7 LLM-betjening — 70B Q4-Q6, Qwen3-32B bf16, Mistral Small 3 bf16
  • Reguleret implementering, der kræver ECC-hukommelse (finans, sundhedspleje, formel verifikation)
  • Langkontekstvisning — Seed-OSS-36B 512k ctx passer komfortabelt til 96 GB-puljen
  • Mellemklasse MoE-servering — Hunyuan-A13B Q6, GLM-4.5-Air Q4, Qwen3-30B-A3B bf16
  • VLM dokumentbehandling — InternVL3.5-38B, Pixtral 12B bf16, Qwen3-VL-32B

Publicerede præstationsreferencer

Udgivet reference | 2x NVIDIA L40-sammenlignelig hardware

benchmark Resultat
Llama 3.3 70B Q4_K_M på tværs af 2x L40 tensor-split ~15-18 tok/s enkeltstrøm
Qwen3-32B bf16 enkelt GPU på én L40 ~18-22 tok/s enkeltstrøm
vLLM Hunyuan-A13B Q6 på 2x L40 pool ~28-34 tok/s enkeltstrøm
HunyuanVideo 13B bf16 på en L40 720p kort klips — plads til 48 GB
Metrikker pr. kort 362 TOPS INT8, 864 GB/s, 300 W TDP

Udgivet, ikke målt på Kentino-hardware.

Ikke ideel til

  • Optimering af omkostning pr. TFLOPS — 4x RTX 4090 giver 2.644 samlede TOPS til ~40 % af komponentprisen (uden ECC/datacentergaranti)
  • Frontier 200B+ kompakte modeller — 96 GB poolloft gælder (kræver 192+ GB SKU)
  • Videogenerering ved bf16 langformat i fuld opløsning (Wan 2.2 MoE to-ekspert ønsker mere VRAM)
  • Træning fra bunden — L40 er inferenscertificeret; brug RTX Pro 6000 / arbejdsstation Blackwell til træning

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

NVIDIA OEM 3 års datacentergaranti på L40 + Kentino-integrationsgaranti (2 år på dele, 1 år på arbejdskraft). Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation.

Anbefalede tilføjelser

  • Opgrader til 4x L40 (K-AI 192 Rome L40 1448TOPS) for 192 GB ECC-pulje og servering på frontier-tier
  • Opgrader RAM til 512 GB (tilføj 4x 64 GB DDR4) for større embedding/reranker-stacks
  • Opgrader NVMe til 4 TB for modelbibliotek + datasætstaging
  • Redundant strømforsyningsupsælg (dobbelt 2 kW synkroniseret) tilgængelig på forespørgsel
  • Rack PDU + 3 kVA online UPS til produktionsfarve
Se detaljer