Gå til produktinformation
1 of 7

Kentino sro

K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)

K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)

Regelmæssig pris € 59.490,00 EUR
Regelmæssig pris Udsalgspris € 59.490,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 288 Rom L40 2172TOPS

288 GB ECC VRAM Enterprise Server
6x NVIDIA L40 Passiv | EPYC Milan | 2 172 TOPS INT8

2 172
TOPS INT8
288 DK
ECC VRAM-pulje
ECC
ende til ende
24/7
produktionsklassificeret

Publicerede eksterne referencer. Ikke målt på Kentino-hardware.

En 4U rackmonteret enterprise-inferensserver med seks NVIDIA L40 Ada Lovelace passive datacenterkort (48 GB ECC hver) samlet i 288 GB ECC VRAM, én AMD EPYC 7643 Milan CPU (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2.5 kW ATX strømforsyning. ECC end-to-end, specialbygget til 24/7 virksomhedsproduktion, hvor bitniveauintegritet og brugbare fejldomæner er vigtige.

Hardware

Component Detalje
GPU'er 6x NVIDIA L40 48 GB ECC (Ada Lovelace, passivt datacenter, 300 W, PCIe 4.0 x16, dobbelt slot, 362 INT8 TOPS/kort)
VRAM-pulje 288 GB samlet ECC på tværs af 6 kort (ingen NVLink på L40 PCIe SKU)
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 DIMM-pladser åbne til opgradering til 512 GB)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning 2x 2.5 kW ATX med dobbelt strømforsyningssynkroniseringskabel (5 kW samlet)
Chassis 4U rackmontering (layout med 6 slots)
Køling SP3 tårnkøler (Arctic Freezer 4U-M klasse) + rettet luftstrøm fra forsiden til bagsiden (industrielle ventilatorer)
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 6 x 300 W = 1800 W
  • Systemtotal under fuld belastning: ~2 175 W
  • Strømforsyning i alt: 5.000 W (dobbelt 2.5 kW synkroniseret) — 56.5 % headroom
  • Dobbelt strømforsyning til delt strømforsyning — enkelt strømforsyningsfejl = tab af 2 GPU'er eller 2 GPU'er + bundkort

Banetopologi

ROMED8-2T eksponerer 7x PCIe 4.0 x16 direkte fra EPYC Milan. Seks slots besat med passive Gen4 x16 risers — et ledigt slot til NIC/lagring. Ingen PCIe-switch nødvendig. L40 native link er PCIe 4.0 x16 — intet båndbreddetab. Ingen NVLink; inter-GPU trafik kører PCIe peer-to-peer.

Hvad du kan løbe

Med 288 GB samlet ECC VRAM på tværs af 6 passive L40-kort håndterer denne server frontier open-weight LLM'er ved Q4, samtidig servering af flere modeller, video-/mediepipelines og 24/7 enterprise production inference. Bemærk: L40 er Ada Lovelace, ikke Blackwell — fp8 upcasts til bf16. Brug GGUF Q4/Q5 eller AWQ/GPTQ int4 for maksimal VRAM-effektivitet.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3-235B-A22B Q4 (~132 GB) med meget lang kontekst + generøst KV-budget (~15-20 tok/s enkelt, publiceret reference)
  • GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) komfortabel på 6-vejs TP (~12-18 tok/s single, publiceret reference)
  • Hunyuan-stor 389B/52B Q3 (~160 GB); ERNIE-4.5-424B-A47B 3. kvartal (~180 GB)
  • Qwen3-koder-480B-A35B Q2 (~160 GB) flagskibs-kodningsagent
  • MiniMax-M1 / Tekst-01 Q3 (~180 GB) 1M-ctx Lightning-opmærksomhed
  • Qwen3-30B-A3B / QwQ-32B / Qwen3-32B — enkeltkort med 6 parallelle strømme
  • DeepSeek-R2 32B sparse MoE — enkelt kort pr. stream, 6 samtidige sessioner

Vestgrænsen

  • Lama 3.3 70B bf16 (~142 GB) multi-tenant-visning (~17 tok/s enkelt, publiceret reference) eller Q4 (~43 GB) med 6 samtidige kopier
  • Flamme 4 spejder 109B/17B bf16 (~218 GB stram) eller Q4 (~63 GB) komfortabel
  • Mistral Lille 3 / Magistral / Devstral Lille (24B) bf16 (~40-50 tok/s enkelt, publiceret reference)
  • Pixtral Stor / Mistral Stor 2 Q6-Q8 (~90-140 GB)
  • Llama-3.1-Nemotron Ultra 253B 4. kvartal (~119 GB)
  • gpt-oss-120b MXFP4 (~80 GB via GGUF på Ada — bemærk Ada upcast-advarsel)
  • Cohere Command R+ 104B Q4 RAG-stak

Vision-sprog modeller

Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B; InternVL3.5-78B / 241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16 (~180 GB); Pixtral 12B; Molmo 72B; Gemma 3 12B/27B multimodal; GLM-4.6V full (106B bf16); MiniCPM-o 2.6. L40's NVENC/NVDEC er særligt nyttig til VLM-dokument-/videopipelines med høj kapacitet.

Billedgenerering

FLUX.1 [dev] / Kontext / Værktøjer på tværs af flere arbejdere samtidigt (~3.5 s pr. 1024x1024 billede på enkelt L40 fp8, publiceret reference) — 6x ComfyUI-arbejderfarm mulig; SD 3.5 Large; HunyuanImage-2.1 (17B) bf16; HunyuanDiT; Kolors 2.0; AuraFlow; OmniGen.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B dual-expert bf16 (~54 GB, ~20-30 s pr. 4s klip ved 720p, publiceret reference); HunyuanVideo 13B bf16 begge eksperter; Open-Sora 2.0 bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; NVIDIA Cosmos Predict 2. L40's hardware NVENC/NVDEC håndterer undertekster/moderering/transkodning i stor skala sideløbende med generationen.

Lyd / Tale / TTS

  • ASR: Whisper v3 stor / turbo; Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; Stabil lyd åben; XTTS v2; Step-Audio-EditX
  • Realtid / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B

Multimodel-/multi-lejer-servering

  • Multimodel-residens — Qwen3-235B Q4 + FLUX.1 + HunyuanVideo + Whisper-turbo + Moshi + embedder, alt resident
  • 6 samtidige 48 GB-klasse arbejdsbelastninger (én pr. kort): 6x Qwen3-VL-32B, eller 6x FLUX.1-workers, eller 6x ASR-streams
  • 6-vejs tensor-parallel for 200B+ MoE ved 4. kvartal med reel kontekst
  • RAG-pipelines — Command R+ / Qwen3 + reranker + embedder + billedanalyse på samme vært

Målrettede arbejdsbyrder

  • 24/7 produktions-LLM-inferensbackend — 100+ samtidige brugere på 200B+ MoE i 4. kvartal, ECC-beskyttet
  • Medie-AI-pipeline på virksomhedsniveau — billedtekst + moderering + miniaturebillede + transkodning på 6 parallelle streams via NVENC/NVDEC
  • SaaS med flere lejere, hvor isolering pr. lejer på tværs af fysiske kort er vigtig
  • RAG-backend med Command R+ læser + reranker + embedder + vision fuldt resident
  • Pålidelighed-først-par, der erstatter 12x L40 Legacy — to K-AI 288-servere = 576 GB samlet med uafhængige fejldomæner

Publicerede præstationsreferencer

Eksterne referencer | Ikke målt på Kentino-hardware

benchmark Resultat
L40 pr. kort INT8 TOPS 362 TOPS
L40 hukommelsesbåndbredde 864 GB/s pr. kort
vLLM — Llama 3.3 70B AWQ INT4 på 2x L40 TP (enkelt) ~25-35 tok/s
vLLM — Llama 3.3 70B AWQ INT4 på 2x L40 TP (batch-16) ~150-200 tok/s samlet
llama.cpp — GLM-4.6 Q4 på 6x L40 (enkelt) ~12-18 tok/s
FLUX.1 [udvikling] på enkelt L40 fp8 ~3.5 sekunder pr. 1024x1024 billede

Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.

Ikke ideel til

  • fp8-native inferens ved fuld hastighed — Ada upcaster til bf16; brug GGUF Q4/Q5 eller AWQ/GPTQ int4 i stedet. For fp8 native se K-AI 384 Rome RTXPro6000 (Blackwell)
  • Træning af store modeller fra bunden (ingen NVLink)
  • Budgetvenlig enkeltbruger-inferens — 4x L4 eller 4x 5080 er væsentligt billigere til små arbejdsbyrder
  • Frontier 600B+ tæthed ved Q4+ (kræver 576 GB+ pulje — se 6x RTX Pro 6000)

Garanti og leveringstid

3 år
NVIDIA OEM GPU-garanti
2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in, memtest og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.

Anbefalede tilføjelser

  • Opgrader RAM til 512 GB DDR4 (tilføj 2x 64 GB — 2 DIMM-pladser åbne) for et større KV-budget
  • 4 TB NVMe Gen4 x4 til modelbibliotekstaging
  • Fuld 24U rackkabinet med administreret PDU + online UPS (afgørende for 24/7 ECC-arbejdsbelastninger)
  • Parret anden K-AI 288-enhed — erstatter 12x L40 Legacy-konvolutten med to uafhængige fejldomæner
Se detaljer