Kentino sro
K-AI 48 Rome L4 484TOPS — 2x NVIDIA L4 Passive Edge AI-server
K-AI 48 Rome L4 484TOPS — 2x NVIDIA L4 Passive Edge AI-server
Kunne ikke indlæse afhentningstilgængelighed
K-AI 48 Rom L4 484TOPS
Lydløs 2x L4 Passive Edge-server
48 GB ECC VRAM | EPYC Milan | 484 TOPS INT8
Lydløs 2x L4 passiv inferensboks — garantisti i datacenterklassen, 72 W pr. kort, 48 GB ECC VRAM til always-on edge-implementering.
En 2-GPU edge inference-server bygget omkring passive NVIDIA L4-kort – den lydløse løsning i datacenterklassen i Kentino-serien. 48 GB samlet ECC VRAM, 144 W samlet GPU-forbrug, enkeltslot-kortfodaftryk og luftstrøm drevet udelukkende af kabinettet. Til filialer, broadcastfaciliteter, altid-på-transkription og enhver implementering, hvor en akustisk profil og en datacentergaranti er vigtigere end rå tensor-gennemstrømning.
Hardware
| Component | Detalje |
|---|---|
| GPU'er | 2x NVIDIA L4 24 GB GDDR6 passiv (72 W, PCIe 4.0 x16, Ada Lovelace, ECC) |
| VRAM-pulje | 48 GB ECC |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner) |
| Bundkort | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| System RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Opbevaring / bagagerum | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Strømforsyning | Enkelt 2 kW ATX strømforsyning |
| Chassis | 4U rackmonterede, passive Gen4 x16 risers |
| Køling | SP3 towerkøler, 3x 120 mm frontindtag + 1x 120 mm bagudstødning (lav-RPM PWM) |
| Netværk | Indbygget dobbelt 10 GbE (Intel X550) + IPMI |
Power kuvert
- GPU-forbrug: 2 x 72 W = 144 W
- Systemtotal ved fuld belastning: ~469 W
- Strømforsyning i alt: 2.000 W — 76.55 % headroom
- Driver ventilatorer ved lave omdrejninger i tomgang (~35 dBA i tomgang, <45 dBA vedvarende inferens)
Banetopologi
PCIe Gen4 x16 på begge GPU'er. L4 er native Gen4 x16; ROMED8-2T udsender 2x16 direkte fra CPU'en. Ingen switch, intet NVLink. 55-65 C GPU-temperatur vedligeholdt — passive kort er udelukkende afhængige af kabinettets luftstrøm.
Hvad du kan løbe
Med 48 GB ECC VRAM på tværs af 2 passive L4-kort håndterer denne server altid-på LLM-inferens, 24/7 ASR + TTS-pipelines, VLM-dokumentbehandling og edge-implementeringer, hvor stilhed og datacentergaranti er vigtige.
LLM'er — tekst / ræsonnement / kodning
den kinesiske grænse
- Qwen3-32B tæt Q6 med 32k ctx (~15-20 tok/s single-stream på L4, publiceret reference)
- Qwen3-30B-A3B / Qwen3-koder-30B-A3B Q4-Q6 (MoE, 256k ctx)
- QwQ-32B Q6; DeepSeek-R2 32B sparsom MoE Q4-Q6 (~18-24 tok/s enkeltstrøm ved Q4 på L4, publiceret reference)
- Hunyuan-A13B Q6 eller fp8 (~48 GB) — 80B/13B MoE, 256k ctx
- Frø-OSS-36B Q4-Q6 — 512k native ctx
- ERNIE-4.5-47B-A3B Q4-Q6 (~28-42 GB)
Vestgrænsen
- Lama 3.3 70B Q4_K_M (~43 GB) tensor-parallel 2-vejs (~8-12 tok/s single-stream på 2x L4, publiceret reference)
- Mistral Lille 3 / Magistral / Devstral Lille 2 (24B) bf16
- Gemma 3 27B multimodal bf16
- Phi-4 14B / Phi-4-ræsonnement bf16
- Nemotron-Super 49B 4. kvartal (~28 GB)
- OLMo 2 32B / OLMo 3.1-32B-Tænk — fuldt åben ræsonnementforskning
Vision-Sprog
Qwen3-VL-8B / 32B Q4-Q6; InternVL3.5-38B Q4; Pixtral 12B bf16 (24 GB); Llama 3.2 11B Vision bf16; Gemma 3 12B / 27B multimodal; MiniCPM-V 2.6 / MiniCPM-o 2.6; Aya Vision 8B / 32B til 23-sproget VLM.
Billedgenerering
L4 er inferensjusteret — kan bruges til steady-state-billedpipelines, ikke batchgenerering: FLUX.1 [dev] fp8 / Q4 — enkelt billede på 8-12 s; SD 3.5 Large fp8 / SDXL 1.0 / SD 3.5 Medium; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8.
Video generation
Anbefales ikke til nye videoprojekter på L4 — foretrækker en 4090/5090-build. Til lette T2V-pipelines: Wan 2.2 TI2V-5B ved bf16 — 5 s 720p på ~6-10 minutter; HunyuanVideo 1.5 (8.3B) Wan2GP-optimeringssti.
Lyd / Tale / TTS
L4's virkelige styrke — 24/7 ASR + TTS + realtids-stemmestyring.
- ASR: Whisper v3 large / turbo (~30x realtid på L4, publiceret reference); NVIDIA Parakeet-TDT 1.1B; Canary 1B
- TTS: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabil lyd åben
- Realtid / S2S: Kyutai Moshi (7B, 200 ms latenstid fuld duplex); Step-Audio 2 mini / R1
- Oversættelse: Meta SeamlessM4T v2 (~100 sprog)
Multimodel / multi-lejer
- Whisper v3 + Kokoro + Moshi + Qwen3-14B Q6 alle beboere på kort 1 (~18-20 GB); kort 2 reserveret til en anden lejer eller en VLM
- 8-16 samtidige ASR-sessioner på et enkelt L4 ved Whisper-turbo i realtid
- RAG-slutpunkt: Qwen3-14B / Llama 3.1 8B (~48-72 tok/s single-stream på L4, publiceret reference) + BGE-M3-indlejringer + reranger
Målrettede arbejdsbyrder
- Lydløs inferensboks til filialkontor eller udsendelsesfacilitet
- Altid aktiv ASR + oversættelsespipeline (callcentre, transskription af forelæsninger, undertekster til medier)
- Edge RAG-slutpunkt over virksomhedsdokumenter med datacentergarantisti
- 24/7 multimodal assistent (Qwen3-VL-8B + MiniCPM-o 2.6) til et lille kontor
- Udviklingsstagingboks til implementeringer i datacenterklassen — samme L4-silicium som hyperscale edge
Publicerede præstationsreferencer
Udgivet reference | 2x NVIDIA L4-sammenlignelig hardware
| benchmark | Resultat |
|---|---|
| Llama 3.1 8B Q4_K_M llama.cpp afkodning | ~30-40 tok/s enkeltstrøm |
| Qwen3-14B Q6 vLLM-afkodning | ~20-28 tok/s |
| Whisper v3 stor realtidsfaktor | ~15-20 gange pr. L4 |
| Parakeet-TDT 1.1B Engelsk ASR | ~40-60x realtid |
| Moshi 7B fuld-duplex stemme | 200 ms latenstid, passer til enkelt L4 |
Udgivet, ikke målt på Kentino-hardware.
Ikke ideel til
- 70B tæthed ved Q6+ (selv en 48 GB-pulje er trang — brug 4x4090 eller 2x5090)
- Billed-/videogenereringsbatcharbejde i stor skala (L4-tensorgennemløb er inferensjusteret)
- LoRA / finjustering af arbejdsgange — brug i stedet 4090/5090-builds
Garanti og leveringstid
L4 har NVIDIAs datacentergaranti – en betydelig fordel i forhold til forbrugerkort til 24/7 SLA-implementering. Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation.
Anbefalede tilføjelser
- Opgrader til K-AI 96 Rome L4 968TOPS (4x L4, 96 GB pool) for fordoblet gennemløbshastighed
- Opgrader boot-drevet til 2 TB NVMe
- Opgrader RAM til 256 GB (4x 64 GB) for samtidig servering af flere modeller
- Rack PDU + 2 kVA online UPS til filialinstallation
Del
