Kentino sro
K-AI 192 Rom L40 1448TOPS — 4× NVIDIA L40 — EPYC Milano
K-AI 192 Rom L40 1448TOPS — 4× NVIDIA L40 — EPYC Milano
Kunne ikke indlæse afhentningstilgængelighed
K-AI 192 Rom L40 1448TOPS
192 GB ECC Enterprise Inference Server
4x NVIDIA L40 Passiv | EPYC Milan | 1 448 TOPS INT8
Fire passive L40-datacenterkort med ECC-hukommelse. Samme 192 GB-pulje som 8x RTX 4090 — men i datacenterkvalitet, ECC-beskyttet og med OEM-garanti.
En 4U rackmonteret inferensserver med fire passive NVIDIA L40-kort samlet i 192 GB ECC VRAM, én AMD EPYC 7643 Milan CPU (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2 kW ATX PSU. L40 er datacentersøsteren til RTX 4090 — passivt kølet, ECC-udstyret, NVENC/NVDEC hardwareencodere on-die og NVIDIA OEM 3-års garanti. Kører vLLM, SGLang, llama.cpp, Triton, TensorRT-LLM lige fra starten.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 4x NVIDIA L40 48 GB ECC GDDR6 (Ada Lovelace, passiv, 300 W, dobbelt slot, PCIe 4.0 x16) |
| VRAM-pulje | 192 GB ECC på tværs af 4 kort (ingen NVLink på L40) |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | Dobbelt 2 kW ATX strømforsyning med synkroniseringskabel |
| Chassis | 4U rackmontering med rettet luftstrøm fra forsiden til bagsiden |
| Køling | Arctic Freezer 4U-M SP3 tårn + 3x 120 mm frontindtag + 1x 120 mm bagudstødning |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 4 x 300 W = 1800 W
- Systemtotal ved fuld belastning: ~4080 W
- Strømforsyning i alt: 4.000 W (dobbelt 2 kW synkroniseret) — 61.9 % headroom
- Dobbelt strømforsyning til delt strømforsyning og N+1-kapacitet
Banetopologi
PCIe Gen4 x16 pr. kort (L40 er Gen4 native). Direkte root-complex forbindelse fra en enkelt EPYC — ingen PCIe switch. Ingen NVLink — inter-GPU trafik kører PCIe peer-to-peer. Tre x16 slots er tilbage til NIC/lagerudvidelse.
Hvad du kan løbe
Med 192 GB ECC VRAM på tværs af 4 datacenterkort håndterer denne server 200B+ frontier MoE i 4. kvartal, multi-tenant-servering til virksomheder med strenge SLA'er og 24/7 produktionsinferens uden ECC-relateret bit-flip-drift.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) med lang kontekst — hero-konfigurationen (~12-18 tok/s single-stream på tværs af 4x L40); Qwen3-Coder-480B-A35B Q2 (~160 GB, tæt); Qwen3.5-122B-A10B fp8 (~75 GB) med enorm KV; Qwen3-32B tæt bf16 flere samtidige streams
- DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 Q2 (~215 GB med mindre RAM-spild); DeepSeek-R2 32B — 4x samtidige streams, én pr. kort
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — det bedste valg for dette niveau; GLM-4.5-Air 106B/12B fp8 eller bf16
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE med 256k ctx; Hunyuan-A13B fp8 (~80 GB) med enorm KV
- Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB)
Vestgrænsen
- Meta Lama: Llama 3.3 70B bf16 med massiv KV (~15-18 tok/s single-stream på 4x L40); Llama 4 Scout bf16 (~218 GB) tæt; Llama 4 Maverick 400B/17B Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~102 GB) komfortabel; Mistral Small 3 multistream
- OpenAI (åbne vægte): gpt-oss-120b MXFP4 (80 GB) med generøs KV
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 flere streams
- Google Gemma 3: 27B multimodal bf16 — flere beboerstrømme
- Andet: Cohere Command R+ 104B Q6 (~85 GB); OLMo 3.1 32B; Reka Flash 3 21B; IBM Granite 4.0 H-Lille
Vision-sprog modeller
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6-bf16; Molmo 72B bf16; GLM-4.6V 106B fp8; Gemma 3 27B multimodale flere streams; InternVL3 78B bf16; DeepSeek-VL2 fuldt område.
Billedgenerering
FLUX.1 [dev] / [snel] bf16 med samtidig generering (~3-4 s pr. 1024x1024 billede på L40); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Stor bf16 x 2-3 samtidige; HunyuanImage-2.1 bf16 (~34 GB) multi-stream; HunyuanImage-3.0 base (80B MoE, 13B aktiv) bf16 (~80 GB); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Video generation
Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 dual-expert fuld kontekst; Wan 2.2 TI2V-5B fast path; HunyuanVideo 13B bf16 begge eksperter; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB) multistream; LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabil lyd åben; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2
Multimodel-/multi-lejer-servering
- LLM-gateway til virksomhedsproduktion — Qwen3-235B Q4 eller GLM-4.5/4.6 Q4, der betjener 16-32 samtidige brugere med streng SLA
- Blandet resident stak: 235B MoE + FLUX.1 + Whisper-turbo + Moshi med partitioneret VRAM og ECC-beskyttelse
- Livevideo + AI-pipeline — NVENC/NVDEC-hardwarekodere streamer 6-8 parallelle pipelines for undertekster + moderering
- Multi-tenant RAG — forespørgselssidet embedder + 70B læser + reranger med P99-latens på under et sekund
Målrettede arbejdsbyrder
- 24/7 produktions-LLM-inferens ved 192 GB-pulje (Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16)
- Enterprise multi-tenant-service med streng SLA — ECC-pålidelighed over lange kørsler
- RAG + vektordatabase, der serveres med samtidige hentningsmodeller af høj kvalitet
- Medie-/video-AI-pipelines — NVENC/NVDEC-hardwaresti, VFX-rendering, transkribering/oversættelse
- Implementering af lydløs drift i datacentre — passive kort, lav akustisk profil nær kontorlokaler
Målt ydeevne
Publicerede referencer | NVIDIA L40 datablad + community benchmarks
| benchmark | Resultat |
|---|---|
| INT8 TOPS pr. kort (NVIDIA-datablad) | 362 TOPS |
| Samlede INT8 TOPS (4 kort) | 1 448 TOPPER |
| VRAM pr. kort | 48 GB ECC GDDR6, 864 GB/s båndbredde |
| Llama 3.3 70B Q6 via vLLM (fællesskab) | 30-50 tok/s enkeltstrøm, 150+ tok/s batch-16 |
| FLUX.1 [udvikling] bf16 på L40 (fællesskab) | ~3-4 sekunder pr. 1024x1024 billede |
| NVENC / NVDEC | Gen-8 hardware-encodere on-die (video AI-pipeline) |
Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.
Ikke ideel til
- Træning af store modeller fra bunden (ingen NVLink, begrænset FP8 tensorberegning)
- Budgetinferens for enkeltbrugere (4x L4 eller 2x L40 er væsentligt billigere)
- Tæt bf16 70B ved meget lang kontekst på én model — foretrækker 2x RTX Pro 6000 Server Edition (samme 192 GB pool, mindre TP overhead)
Garanti og leveringstid
NVIDIA OEM 3 års garanti på L40 + Kentino integrationsgaranti. Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.
Anbefalede tilføjelser
- Opgrader RAM til 512 GB (tilføj 4x 64 GB DDR4 — fire DIMM-pladser er stadig ledige)
- 4 TB NVMe til modelbibliotekstaging
- Fuld 24U rackskab med administreret PDU + online UPS 5 kVA
Del
