Kentino sro
K-AI 144 Rom L4 1452TOPS — 6× NVIDIA L4 — EPYC Milano
K-AI 144 Rom L4 1452TOPS — 6× NVIDIA L4 — EPYC Milano
Kunne ikke indlæse afhentningstilgængelighed
K-AI 144 Rom L4 1452TOPS
144 GB VRAM Silent Edge Inference Server
6x NVIDIA L4 Passiv | EPYC Milan | 1 452 TOPS INT8
Seks passive L4-datacenterkort. Den mest støjsvage AI-server i Kentinos sortiment — acceptabel til implementering i kontorlandskabet.
En 4U single-socket inferensserver med seks passive NVIDIA L4-kort (24 GB hver, 144 GB pool), én AMD EPYC 7643 Milan CPU (48C/96T), 384 GB DDR4 ECC, 2 TB NVMe boot og en enkelt 2 kW ATX PSU med 62 % headroom. Density-edge inferens-arbejdshest til integration af flåder, multi-tenant små/mellemstore LLM-servere og watt-per-forespørgsel-implementeringer nær kontorlokaler.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 6x NVIDIA L4 24 GB (Ada Lovelace, passiv, 72 W, single-slot LP, PCIe Gen4 x8) |
| VRAM-pulje | 144 GB samlet på tværs af 6 kort |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 384 GB DDR4-2666 ECC RDIMM (6x 64 GB) |
| Opbevaring / bagagerum | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | 1x 2 kW ATX strømforsyning |
| Chassis | 4U rackmontering (6-korts layout) |
| Køling | SP3 tårnkøler + rettet luftstrøm fra forsiden til bagsiden (industrielle ventilatorer) |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) |
Power kuvert
- GPU-forbrug: 6 x 72 W = 432 W
- Systemtotal ved fuld belastning: ~757 W
- Strømforsyning i alt: 2.000 W — 62 % headroom
- Lydløs drift, massiv termisk margin
Banetopologi
L4 er PCIe Gen4 x8 native — intet båndbreddetab vs. vært. ROMED8-2T leverer 7x x16 slots; ét slot er frit til NIC-upsell. Ingen PCIe-switch nødvendig. Intet NVLink.
Hvad du kan løbe
Med 144 GB samlet set på tværs af 6 fysiske kort er det optimale punkt samtidig multi-model-servering: kør en 70B density ved Q4, en 30B MoE, en 14B coder, en VLM og en embedding-model samtidigt og stadig have KV headroom.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-30B-A3B Q4-Q6; QwQ-32B Q6; Qwen3-32B tæt Q6; Qwen3.5-122B-A10B Q4-Q5 (~75 GB komfortabel); Qwen3-235B-A22B Q3 (~112 GB) tæt, kort ctx
- DeepSeek: DeepSeek-R2 32B sparse MoE Q4-Q6 (kompatibel med enkelt kort, 6x samtidige streams, ~15-20 tok/s pr. stream); Seed-OSS-36B Q4-Q6 med 512k native kontekst
- GLM / Z.ai: GLM-4.5-Air Q4-Q5 (60-70 GB komfortabel); Hunyuan-A13B Q4-Q6 (~48 GB)
- Baidu ERNIE-4.5-47B-A3B Q4; Trin-3.5 - Flash Q3-Q4 med noget RAM-spild
Vestgrænsen
- Meta Lama: Llama 3.3 70B Q4-Q6 (43-58 GB) med generøs KV (~10-17 tok/s single-stream på tværs af 6x L4 tensor-parallel); Llama 4 Scout 109B/17B MoE Q4 (~63 GB) komfortabel
- Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) ved bf16 (~50-65 tok/s pr. L4-kort); Mixtral 8x22B Q4
- OpenAI (åbne vægte): gpt-oss-120b MXFP4 native (~80 GB) med plads tilovers; gpt-oss-20b MXFP4
- Google Gemma 3: 27B bf16; Phi-4 14B bf16
- NVIDIA Nemotron: Llama-3.1-Nemotron Super 49B Q4-Q6; Pixtral 12B / Pixtral Large Q4 (~72 GB)
Vision-sprog modeller
Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B MoE, InternVL3 op til 78B Q4 (~48 GB), InternVL3.5-38B, DeepSeek-VL2, Llama 3.2 11B Vision bf16, Llama 3.2 90B Vision Q4 (~52 GB), Molmo 72B Q4, Gemma 3 12B/27B multimodal, MiniCPM-V 2.6 / MiniCPM-o 2.6, GLM-4.6V-Flash.
Billedgenerering
FLUX.1 [dev] / [snel] fp8 (~20-35 s/billede på enkelt L4 ved fp8); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 (~34 GB bf16); HunyuanDiT; Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Video generation
Wan 2.2 T2V-A14B / I2V-A14B MoE (tæt ved bf16 ~54 GB); Wan 2.2 TI2V-5B hurtig vej; HunyuanVideo 13B Q4-Q8 (~30 GB); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 Q8 (~16 GB); Mochi-1 Q4 (~18 GB); LTX-Video; Pyramid flow; SVD / SV3D / SV4D; NVIDIA Cosmos.
Lyd / Tale / TTS
- ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; Stabil lyd åben; XTTS v2; StyleTTS 2; Step-Audio-EditX
- Realtid / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2
Multimodel-/multi-lejer-servering
- 6 samtidige streams af en 24 GB Q4-model (én pr. kort): f.eks. 6x Qwen3-14B Q4-agenter
- Blandet flåde: Llama 3.3 70B Q4 (tensor-parallel over 2 kort) + FLUX.1 (1 kort) + Whisper-turbo (1 kort) + Moshi (1 kort) + BGE-M3 embedder (1 kort)
- Indlejringstjeneste ved høj QPS — 6x parallelle indlejringsstrømme af BGE-M3 / E5 / Nomic / Cohere Embed
- Videotranscode-farm — 6x parallelle NVENC/NVDEC-streams
Målrettede arbejdsbyrder
- SaaS multi-tenant LLM API — betjener 20-40 samtidige brugere på tværs af en 24B/32B-model med plads til image og ASR sideløbende
- RAG-backend — forespørgselssidet embedder + 70B Q4-læser + reranker, latenstid på under et sekund, 50 QPS
- Video-AI-pipeline — live transcode + undertekster + moderering på 6 parallelle streams
- Edge AI-apparat nær kontoret — lav akustisk profil, nul datacenterafhængighed
- Mellemklasse-model R&D-bænk — hurtig iteration på 30-70 milliarder finjusteringer, ét kort pr. eksperiment
Målt ydeevne
Publicerede referencer | NVIDIA L4 datablad + community benchmarks
| benchmark | Resultat |
|---|---|
| INT8 TOPS pr. kort (NVIDIA-datablad) | 242 TOPS |
| Samlede INT8 TOPS (6 kort) | 1 452 TOPPER |
| Llama 3.1 8B Q4 på enkelt L4 (fællesskab) | ~35-45 tok/s enkeltstrøm |
| BGE-M3 integrerer QPS på L4 (fællesskab) | ~800 QPS ved 512-token input |
| Whisper v3 turbo realtidsfaktor | ~1.5-2x realtid pr. kort |
Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.
Ikke ideel til
- Frontier 200B+ MoE ved Q4+ med lang kontekst — 4x L40 eller 8x RTX 4090 (192 GB pool, sammenhængende TP) er det rigtige valg.
- Træningsbelastninger — L4 mangler FP8 og båndbredde til effektiv træning
- Peak-gennemstrømning ved enkelt arbejdsbelastning — beregning pr. kort er beskeden vs. L40 / RTX Pro 6000
Garanti og leveringstid
NVIDIA OEM 3 års garanti på L4 + Kentino integrationsgaranti. Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.
Anbefalede tilføjelser
- 4 TB NVMe-opgradering til modelbibliotekstaging
- 24U åbent rackskab med administreret PDU
Del
