Gå til produktinformation
1 of 7

Kentino sro

K-AI 192 Rom L40 1448TOPS — 4× NVIDIA L40 — EPYC Milano

K-AI 192 Rom L40 1448TOPS — 4× NVIDIA L40 — EPYC Milano

Regelmæssig pris € 40.798,00 EUR
Regelmæssig pris Udsalgspris € 40.798,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 192 Rom L40 1448TOPS

192 GB ECC Enterprise Inference Server
4x NVIDIA L40 Passiv | EPYC Milan | 1 448 TOPS INT8

1 448
INT8 TOPPER
192 DK
ECC VRAM
ECC
datacenterkvalitet
24/7
passiv afkølet

Fire passive L40-datacenterkort med ECC-hukommelse. Samme 192 GB-pulje som 8x RTX 4090 — men i datacenterkvalitet, ECC-beskyttet og med OEM-garanti.

En 4U rackmonteret inferensserver med fire passive NVIDIA L40-kort samlet i 192 GB ECC VRAM, én AMD EPYC 7643 Milan CPU (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2 kW ATX PSU. L40 er datacentersøsteren til RTX 4090 — passivt kølet, ECC-udstyret, NVENC/NVDEC hardwareencodere on-die og NVIDIA OEM 3-års garanti. Kører vLLM, SGLang, llama.cpp, Triton, TensorRT-LLM lige fra starten.

Hardware

Component Detalje
GPU'er 4x NVIDIA L40 48 GB ECC GDDR6 (Ada Lovelace, passiv, 300 W, dobbelt slot, PCIe 4.0 x16)
VRAM-pulje 192 GB ECC på tværs af 4 kort (ingen NVLink på L40)
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning Dobbelt 2 kW ATX strømforsyning med synkroniseringskabel
Chassis 4U rackmontering med rettet luftstrøm fra forsiden til bagsiden
Køling Arctic Freezer 4U-M SP3 tårn + 3x 120 mm frontindtag + 1x 120 mm bagudstødning
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 4 x 300 W = 1800 W
  • Systemtotal ved fuld belastning: ~4080 W
  • Strømforsyning i alt: 4.000 W (dobbelt 2 kW synkroniseret) — 61.9 % headroom
  • Dobbelt strømforsyning til delt strømforsyning og N+1-kapacitet

Banetopologi

PCIe Gen4 x16 pr. kort (L40 er Gen4 native). Direkte root-complex forbindelse fra en enkelt EPYC — ingen PCIe switch. Ingen NVLink — inter-GPU trafik kører PCIe peer-to-peer. Tre x16 slots er tilbage til NIC/lagerudvidelse.

Hvad du kan løbe

Med 192 GB ECC VRAM på tværs af 4 datacenterkort håndterer denne server 200B+ frontier MoE i 4. kvartal, multi-tenant-servering til virksomheder med strenge SLA'er og 24/7 produktionsinferens uden ECC-relateret bit-flip-drift.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) med lang kontekst — hero-konfigurationen (~12-18 tok/s single-stream på tværs af 4x L40); Qwen3-Coder-480B-A35B Q2 (~160 GB, tæt); Qwen3.5-122B-A10B fp8 (~75 GB) med enorm KV; Qwen3-32B tæt bf16 flere samtidige streams
  • DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 Q2 (~215 GB med mindre RAM-spild); DeepSeek-R2 32B — 4x samtidige streams, én pr. kort
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — det bedste valg for dette niveau; GLM-4.5-Air 106B/12B fp8 eller bf16
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE med 256k ctx; Hunyuan-A13B fp8 (~80 GB) med enorm KV
  • Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB)

Vestgrænsen

  • Meta Lama: Llama 3.3 70B bf16 med massiv KV (~15-18 tok/s single-stream på 4x L40); Llama 4 Scout bf16 (~218 GB) tæt; Llama 4 Maverick 400B/17B Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~102 GB) komfortabel; Mistral Small 3 multistream
  • OpenAI (åbne vægte): gpt-oss-120b MXFP4 (80 GB) med generøs KV
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 flere streams
  • Google Gemma 3: 27B multimodal bf16 — flere beboerstrømme
  • Andet: Cohere Command R+ 104B Q6 (~85 GB); OLMo 3.1 32B; Reka Flash 3 21B; IBM Granite 4.0 H-Lille

Vision-sprog modeller

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6-bf16; Molmo 72B bf16; GLM-4.6V 106B fp8; Gemma 3 27B multimodale flere streams; InternVL3 78B bf16; DeepSeek-VL2 fuldt område.

Billedgenerering

FLUX.1 [dev] / [snel] bf16 med samtidig generering (~3-4 s pr. 1024x1024 billede på L40); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Stor bf16 x 2-3 samtidige; HunyuanImage-2.1 bf16 (~34 GB) multi-stream; HunyuanImage-3.0 base (80B MoE, 13B aktiv) bf16 (~80 GB); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 dual-expert fuld kontekst; Wan 2.2 TI2V-5B fast path; HunyuanVideo 13B bf16 begge eksperter; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB) multistream; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Lyd / Tale / TTS

  • ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabil lyd åben; Step-Audio-EditX
  • Realtid / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2

Multimodel-/multi-lejer-servering

  • LLM-gateway til virksomhedsproduktion — Qwen3-235B Q4 eller GLM-4.5/4.6 Q4, der betjener 16-32 samtidige brugere med streng SLA
  • Blandet resident stak: 235B MoE + FLUX.1 + Whisper-turbo + Moshi med partitioneret VRAM og ECC-beskyttelse
  • Livevideo + AI-pipeline — NVENC/NVDEC-hardwarekodere streamer 6-8 parallelle pipelines for undertekster + moderering
  • Multi-tenant RAG — forespørgselssidet embedder + 70B læser + reranger med P99-latens på under et sekund

Målrettede arbejdsbyrder

  • 24/7 produktions-LLM-inferens ved 192 GB-pulje (Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16)
  • Enterprise multi-tenant-service med streng SLA — ECC-pålidelighed over lange kørsler
  • RAG + vektordatabase, der serveres med samtidige hentningsmodeller af høj kvalitet
  • Medie-/video-AI-pipelines — NVENC/NVDEC-hardwaresti, VFX-rendering, transkribering/oversættelse
  • Implementering af lydløs drift i datacentre — passive kort, lav akustisk profil nær kontorlokaler

Målt ydeevne

Publicerede referencer | NVIDIA L40 datablad + community benchmarks

benchmark Resultat
INT8 TOPS pr. kort (NVIDIA-datablad) 362 TOPS
Samlede INT8 TOPS (4 kort) 1 448 TOPPER
VRAM pr. kort 48 GB ECC GDDR6, 864 GB/s båndbredde
Llama 3.3 70B Q6 via vLLM (fællesskab) 30-50 tok/s enkeltstrøm, 150+ tok/s batch-16
FLUX.1 [udvikling] bf16 på L40 (fællesskab) ~3-4 sekunder pr. 1024x1024 billede
NVENC / NVDEC Gen-8 hardware-encodere on-die (video AI-pipeline)

Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.

Ikke ideel til

  • Træning af store modeller fra bunden (ingen NVLink, begrænset FP8 tensorberegning)
  • Budgetinferens for enkeltbrugere (4x L4 eller 2x L40 er væsentligt billigere)
  • Tæt bf16 70B ved meget lang kontekst på én model — foretrækker 2x RTX Pro 6000 Server Edition (samme 192 GB pool, mindre TP overhead)

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

NVIDIA OEM 3 års garanti på L40 + Kentino integrationsgaranti. Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.

Anbefalede tilføjelser

  • Opgrader RAM til 512 GB (tilføj 4x 64 GB DDR4 — fire DIMM-pladser er stadig ledige)
  • 4 TB NVMe til modelbibliotekstaging
  • Fuld 24U rackskab med administreret PDU + online UPS 5 kVA
Se detaljer