Gå til produktinformation
1 of 7

Kentino sro

K-AI 144 Rom L4 1452TOPS — 6× NVIDIA L4 — EPYC Milano

K-AI 144 Rom L4 1452TOPS — 6× NVIDIA L4 — EPYC Milano

Regelmæssig pris € 28.681,00 EUR
Regelmæssig pris Udsalgspris € 28.681,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 144 Rom L4 1452TOPS

144 GB VRAM Silent Edge Inference Server
6x NVIDIA L4 Passiv | EPYC Milan | 1 452 TOPS INT8

1 452
INT8 TOPPER
144 DK
VRAM-pulje
432 W
GPU-konvolut
tavs
passive GPU'er

Seks passive L4-datacenterkort. Den mest støjsvage AI-server i Kentinos sortiment — acceptabel til implementering i kontorlandskabet.

En 4U single-socket inferensserver med seks passive NVIDIA L4-kort (24 GB hver, 144 GB pool), én AMD EPYC 7643 Milan CPU (48C/96T), 384 GB DDR4 ECC, 2 TB NVMe boot og en enkelt 2 kW ATX PSU med 62 % headroom. Density-edge inferens-arbejdshest til integration af flåder, multi-tenant små/mellemstore LLM-servere og watt-per-forespørgsel-implementeringer nær kontorlokaler.

Hardware

Component Detalje
GPU'er 6x NVIDIA L4 24 GB (Ada Lovelace, passiv, 72 W, single-slot LP, PCIe Gen4 x8)
VRAM-pulje 144 GB samlet på tværs af 6 kort
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 384 GB DDR4-2666 ECC RDIMM (6x 64 GB)
Opbevaring / bagagerum 2 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning 1x 2 kW ATX strømforsyning
Chassis 4U rackmontering (6-korts layout)
Køling SP3 tårnkøler + rettet luftstrøm fra forsiden til bagsiden (industrielle ventilatorer)
Netværk Indbygget dobbelt 10 GbE (Intel X550)

Power kuvert

  • GPU-forbrug: 6 x 72 W = 432 W
  • Systemtotal ved fuld belastning: ~757 W
  • Strømforsyning i alt: 2.000 W — 62 % headroom
  • Lydløs drift, massiv termisk margin

Banetopologi

L4 er PCIe Gen4 x8 native — intet båndbreddetab vs. vært. ROMED8-2T leverer 7x x16 slots; ét slot er frit til NIC-upsell. Ingen PCIe-switch nødvendig. Intet NVLink.

Hvad du kan løbe

Med 144 GB samlet set på tværs af 6 fysiske kort er det optimale punkt samtidig multi-model-servering: kør en 70B density ved Q4, en 30B MoE, en 14B coder, en VLM og en embedding-model samtidigt og stadig have KV headroom.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-30B-A3B Q4-Q6; QwQ-32B Q6; Qwen3-32B tæt Q6; Qwen3.5-122B-A10B Q4-Q5 (~75 GB komfortabel); Qwen3-235B-A22B Q3 (~112 GB) tæt, kort ctx
  • DeepSeek: DeepSeek-R2 32B sparse MoE Q4-Q6 (kompatibel med enkelt kort, 6x samtidige streams, ~15-20 tok/s pr. stream); Seed-OSS-36B Q4-Q6 med 512k native kontekst
  • GLM / Z.ai: GLM-4.5-Air Q4-Q5 (60-70 GB komfortabel); Hunyuan-A13B Q4-Q6 (~48 GB)
  • Baidu ERNIE-4.5-47B-A3B Q4; Trin-3.5 - Flash Q3-Q4 med noget RAM-spild

Vestgrænsen

  • Meta Lama: Llama 3.3 70B Q4-Q6 (43-58 GB) med generøs KV (~10-17 tok/s single-stream på tværs af 6x L4 tensor-parallel); Llama 4 Scout 109B/17B MoE Q4 (~63 GB) komfortabel
  • Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) ved bf16 (~50-65 tok/s pr. L4-kort); Mixtral 8x22B Q4
  • OpenAI (åbne vægte): gpt-oss-120b MXFP4 native (~80 GB) med plads tilovers; gpt-oss-20b MXFP4
  • Google Gemma 3: 27B bf16; Phi-4 14B bf16
  • NVIDIA Nemotron: Llama-3.1-Nemotron Super 49B Q4-Q6; Pixtral 12B / Pixtral Large Q4 (~72 GB)

Vision-sprog modeller

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B MoE, InternVL3 op til 78B Q4 (~48 GB), InternVL3.5-38B, DeepSeek-VL2, Llama 3.2 11B Vision bf16, Llama 3.2 90B Vision Q4 (~52 GB), Molmo 72B Q4, Gemma 3 12B/27B multimodal, MiniCPM-V 2.6 / MiniCPM-o 2.6, GLM-4.6V-Flash.

Billedgenerering

FLUX.1 [dev] / [snel] fp8 (~20-35 s/billede på enkelt L4 ved fp8); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 (~34 GB bf16); HunyuanDiT; Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Video generation

Wan 2.2 T2V-A14B / I2V-A14B MoE (tæt ved bf16 ~54 GB); Wan 2.2 TI2V-5B hurtig vej; HunyuanVideo 13B Q4-Q8 (~30 GB); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 Q8 (~16 GB); Mochi-1 Q4 (~18 GB); LTX-Video; Pyramid flow; SVD / SV3D / SV4D; NVIDIA Cosmos.

Lyd / Tale / TTS

  • ASR: Whisper v3 stor / turbo (~50x realtid); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; Stabil lyd åben; XTTS v2; StyleTTS 2; Step-Audio-EditX
  • Realtid / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Musik / SFX: MusicGen / AudioGen / Bark; SeamlessM4T v2

Multimodel-/multi-lejer-servering

  • 6 samtidige streams af en 24 GB Q4-model (én pr. kort): f.eks. 6x Qwen3-14B Q4-agenter
  • Blandet flåde: Llama 3.3 70B Q4 (tensor-parallel over 2 kort) + FLUX.1 (1 kort) + Whisper-turbo (1 kort) + Moshi (1 kort) + BGE-M3 embedder (1 kort)
  • Indlejringstjeneste ved høj QPS — 6x parallelle indlejringsstrømme af BGE-M3 / E5 / Nomic / Cohere Embed
  • Videotranscode-farm — 6x parallelle NVENC/NVDEC-streams

Målrettede arbejdsbyrder

  • SaaS multi-tenant LLM API — betjener 20-40 samtidige brugere på tværs af en 24B/32B-model med plads til image og ASR sideløbende
  • RAG-backend — forespørgselssidet embedder + 70B Q4-læser + reranker, latenstid på under et sekund, 50 QPS
  • Video-AI-pipeline — live transcode + undertekster + moderering på 6 parallelle streams
  • Edge AI-apparat nær kontoret — lav akustisk profil, nul datacenterafhængighed
  • Mellemklasse-model R&D-bænk — hurtig iteration på 30-70 milliarder finjusteringer, ét kort pr. eksperiment

Målt ydeevne

Publicerede referencer | NVIDIA L4 datablad + community benchmarks

benchmark Resultat
INT8 TOPS pr. kort (NVIDIA-datablad) 242 TOPS
Samlede INT8 TOPS (6 kort) 1 452 TOPPER
Llama 3.1 8B Q4 på enkelt L4 (fællesskab) ~35-45 tok/s enkeltstrøm
BGE-M3 integrerer QPS på L4 (fællesskab) ~800 QPS ved 512-token input
Whisper v3 turbo realtidsfaktor ~1.5-2x realtid pr. kort

Offentliggjorte eksterne referencer, ikke målt på Kentino-hardware. Kentino vil offentliggøre førstepartstal efter den første kundeudvikling.

Ikke ideel til

  • Frontier 200B+ MoE ved Q4+ med lang kontekst — 4x L40 eller 8x RTX 4090 (192 GB pool, sammenhængende TP) er det rigtige valg.
  • Træningsbelastninger — L4 mangler FP8 og båndbredde til effektiv træning
  • Peak-gennemstrømning ved enkelt arbejdsbelastning — beregning pr. kort er beskeden vs. L40 / RTX Pro 6000

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

NVIDIA OEM 3 års garanti på L4 + Kentino integrationsgaranti. Byggeprocessen inkluderer samling, BIOS-konfiguration, driverinstallation, burn-in test og funktionel verifikation. Leveringstiden afhænger af komponenttilgængelighed, bekræftes ved bestilling.

Anbefalede tilføjelser

  • 4 TB NVMe-opgradering til modelbibliotekstaging
  • 24U åbent rackskab med administreret PDU
Se detaljer