Kentino sro
K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)
K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 GB ECC VRAM)
Kunne ikke indlæse afhentningstilgængelighed
K-AI 288 Rom L40 2172TOPS
288 GB ECC VRAM Enterprise Server
6x NVIDIA L40 Passiv | EPYC Milan | 2 172 TOPS INT8
Publicerede eksterne referencer. Ikke målt på Kentino-hardware.
En 4U rackmonteret enterprise-inferensserver med seks NVIDIA L40 Ada Lovelace passive datacenterkort (48 GB ECC hver) samlet i 288 GB ECC VRAM, én AMD EPYC 7643 Milan CPU (48C/96T), 384 GB DDR4-2666 ECC, 2 TB NVMe boot og dobbelt synkroniseret 2.5 kW ATX strømforsyning. ECC end-to-end, specialbygget til 24/7 virksomhedsproduktion, hvor bitniveauintegritet og brugbare fejldomæner er vigtige.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 6x NVIDIA L40 48 GB ECC (Ada Lovelace, passivt datacenter, 300 W, PCIe 4.0 x16, dobbelt slot, 362 INT8 TOPS/kort) |
| VRAM-pulje | 288 GB samlet ECC på tværs af 6 kort (ingen NVLink på L40 PCIe SKU) |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 384 GB DDR4-2666 ECC RDIMM (6x 64 GB — 2 DIMM-pladser åbne til opgradering til 512 GB) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | 2x 2.5 kW ATX med dobbelt strømforsyningssynkroniseringskabel (5 kW samlet) |
| Chassis | 4U rackmontering (layout med 6 slots) |
| Køling | SP3 tårnkøler (Arctic Freezer 4U-M klasse) + rettet luftstrøm fra forsiden til bagsiden (industrielle ventilatorer) |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 6 x 300 W = 1800 W
- Systemtotal under fuld belastning: ~2 175 W
- Strømforsyning i alt: 5.000 W (dobbelt 2.5 kW synkroniseret) — 56.5 % headroom
- Dobbelt strømforsyning til delt strømforsyning — enkelt strømforsyningsfejl = tab af 2 GPU'er eller 2 GPU'er + bundkort
Banetopologi
ROMED8-2T eksponerer 7x PCIe 4.0 x16 direkte fra EPYC Milan. Seks slots besat med passive Gen4 x16 risers — et ledigt slot til NIC/lagring. Ingen PCIe-switch nødvendig. L40 native link er PCIe 4.0 x16 — intet båndbreddetab. Ingen NVLink; inter-GPU trafik kører PCIe peer-to-peer.
Hvad du kan løbe
Med 288 GB samlet ECC VRAM på tværs af 6 passive L40-kort håndterer denne server frontier open-weight LLM'er ved Q4, samtidig servering af flere modeller, video-/mediepipelines og 24/7 enterprise production inference. Bemærk: L40 er Ada Lovelace, ikke Blackwell — fp8 upcasts til bf16. Brug GGUF Q4/Q5 eller AWQ/GPTQ int4 for maksimal VRAM-effektivitet.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3-235B-A22B Q4 (~132 GB) med meget lang kontekst + generøst KV-budget (~15-20 tok/s enkelt, publiceret reference)
- GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) komfortabel på 6-vejs TP (~12-18 tok/s single, publiceret reference)
- Hunyuan-stor 389B/52B Q3 (~160 GB); ERNIE-4.5-424B-A47B 3. kvartal (~180 GB)
- Qwen3-koder-480B-A35B Q2 (~160 GB) flagskibs-kodningsagent
- MiniMax-M1 / Tekst-01 Q3 (~180 GB) 1M-ctx Lightning-opmærksomhed
- Qwen3-30B-A3B / QwQ-32B / Qwen3-32B — enkeltkort med 6 parallelle strømme
- DeepSeek-R2 32B sparse MoE — enkelt kort pr. stream, 6 samtidige sessioner
Vestgrænsen
- Lama 3.3 70B bf16 (~142 GB) multi-tenant-visning (~17 tok/s enkelt, publiceret reference) eller Q4 (~43 GB) med 6 samtidige kopier
- Flamme 4 spejder 109B/17B bf16 (~218 GB stram) eller Q4 (~63 GB) komfortabel
- Mistral Lille 3 / Magistral / Devstral Lille (24B) bf16 (~40-50 tok/s enkelt, publiceret reference)
- Pixtral Stor / Mistral Stor 2 Q6-Q8 (~90-140 GB)
- Llama-3.1-Nemotron Ultra 253B 4. kvartal (~119 GB)
- gpt-oss-120b MXFP4 (~80 GB via GGUF på Ada — bemærk Ada upcast-advarsel)
- Cohere Command R+ 104B Q4 RAG-stak
Vision-sprog modeller
Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B; InternVL3.5-78B / 241B-A28B Q4 (~135 GB); Llama 3.2 90B Vision bf16 (~180 GB); Pixtral 12B; Molmo 72B; Gemma 3 12B/27B multimodal; GLM-4.6V full (106B bf16); MiniCPM-o 2.6. L40's NVENC/NVDEC er særligt nyttig til VLM-dokument-/videopipelines med høj kapacitet.
Billedgenerering
FLUX.1 [dev] / Kontext / Værktøjer på tværs af flere arbejdere samtidigt (~3.5 s pr. 1024x1024 billede på enkelt L40 fp8, publiceret reference) — 6x ComfyUI-arbejderfarm mulig; SD 3.5 Large; HunyuanImage-2.1 (17B) bf16; HunyuanDiT; Kolors 2.0; AuraFlow; OmniGen.
Video generation
Wan 2.2 T2V-A14B / I2V-A14B dual-expert bf16 (~54 GB, ~20-30 s pr. 4s klip ved 720p, publiceret reference); HunyuanVideo 13B bf16 begge eksperter; Open-Sora 2.0 bf16; CogVideoX-5B; Mochi-1; LTX-Video; Pyramid Flow; NVIDIA Cosmos Predict 2. L40's hardware NVENC/NVDEC håndterer undertekster/moderering/transkodning i stor skala sideløbende med generationen.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo; Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; Stabil lyd åben; XTTS v2; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi; Step-Audio 2 mini / R1; Qwen2.5-Omni-7B
Multimodel-/multi-lejer-servering
- Multimodel-residens — Qwen3-235B Q4 + FLUX.1 + HunyuanVideo + Whisper-turbo + Moshi + embedder, alt resident
- 6 samtidige 48 GB-klasse arbejdsbelastninger (én pr. kort): 6x Qwen3-VL-32B, eller 6x FLUX.1-workers, eller 6x ASR-streams
- 6-vejs tensor-parallel for 200B+ MoE ved 4. kvartal med reel kontekst
- RAG-pipelines — Command R+ / Qwen3 + reranker + embedder + billedanalyse på samme vært
Målrettede arbejdsbyrder
- 24/7 produktions-LLM-inferensbackend — 100+ samtidige brugere på 200B+ MoE i 4. kvartal, ECC-beskyttet
- Medie-AI-pipeline på virksomhedsniveau — billedtekst + moderering + miniaturebillede + transkodning på 6 parallelle streams via NVENC/NVDEC
- SaaS med flere lejere, hvor isolering pr. lejer på tværs af fysiske kort er vigtig
- RAG-backend med Command R+ læser + reranker + embedder + vision fuldt resident
- Pålidelighed-først-par, der erstatter 12x L40 Legacy — to K-AI 288-servere = 576 GB samlet med uafhængige fejldomæner
Publicerede præstationsreferencer
Eksterne referencer | Ikke målt på Kentino-hardware
| benchmark | Resultat |
|---|---|
| L40 pr. kort INT8 TOPS | 362 TOPS |
| L40 hukommelsesbåndbredde | 864 GB/s pr. kort |
| vLLM — Llama 3.3 70B AWQ INT4 på 2x L40 TP (enkelt) | ~25-35 tok/s |
| vLLM — Llama 3.3 70B AWQ INT4 på 2x L40 TP (batch-16) | ~150-200 tok/s samlet |
| llama.cpp — GLM-4.6 Q4 på 6x L40 (enkelt) | ~12-18 tok/s |
| FLUX.1 [udvikling] på enkelt L40 fp8 | ~3.5 sekunder pr. 1024x1024 billede |
Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.
Ikke ideel til
- fp8-native inferens ved fuld hastighed — Ada upcaster til bf16; brug GGUF Q4/Q5 eller AWQ/GPTQ int4 i stedet. For fp8 native se K-AI 384 Rome RTXPro6000 (Blackwell)
- Træning af store modeller fra bunden (ingen NVLink)
- Budgetvenlig enkeltbruger-inferens — 4x L4 eller 4x 5080 er væsentligt billigere til små arbejdsbyrder
- Frontier 600B+ tæthed ved Q4+ (kræver 576 GB+ pulje — se 6x RTX Pro 6000)
Garanti og leveringstid
Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in, memtest og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, hvilket bekræftes ved bestilling.
Anbefalede tilføjelser
- Opgrader RAM til 512 GB DDR4 (tilføj 2x 64 GB — 2 DIMM-pladser åbne) for et større KV-budget
- 4 TB NVMe Gen4 x4 til modelbibliotekstaging
- Fuld 24U rackkabinet med administreret PDU + online UPS (afgørende for 24/7 ECC-arbejdsbelastninger)
- Parret anden K-AI 288-enhed — erstatter 12x L40 Legacy-konvolutten med to uafhængige fejldomæner
Del
