Gå til produktinformation
1 of 7

Kentino sro

K-AI 48 Rome L4 484TOPS — 2x NVIDIA L4 Passive Edge AI-server

K-AI 48 Rome L4 484TOPS — 2x NVIDIA L4 Passive Edge AI-server

Regelmæssig pris € 11.374,00 EUR
Regelmæssig pris Udsalgspris € 11.374,00 EUR
Udsalg Udsolgt
Skatter inkluderet. Levering beregnet ved kassen.

K-AI 48 Rom L4 484TOPS

Lydløs 2x L4 Passive Edge-server
48 GB ECC VRAM | EPYC Milan | 484 TOPS INT8

484
TOPS INT8
48 DK
ECC VRAM
144 W
GPU-total
24/7
datacenter

Lydløs 2x L4 passiv inferensboks — garantisti i datacenterklassen, 72 W pr. kort, 48 GB ECC VRAM til always-on edge-implementering.

En 2-GPU edge inference-server bygget omkring passive NVIDIA L4-kort – den lydløse løsning i datacenterklassen i Kentino-serien. 48 GB samlet ECC VRAM, 144 W samlet GPU-forbrug, enkeltslot-kortfodaftryk og luftstrøm drevet udelukkende af kabinettet. Til filialer, broadcastfaciliteter, altid-på-transkription og enhver implementering, hvor en akustisk profil og en datacentergaranti er vigtigere end rå tensor-gennemstrømning.

Hardware

Component Detalje
GPU'er 2x NVIDIA L4 24 GB GDDR6 passiv (72 W, PCIe 4.0 x16, Ada Lovelace, ECC)
VRAM-pulje 48 GB ECC
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128x PCIe 4.0-baner)
Bundkort ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
System RAM 128 GB DDR4-2666 ECC RDIMM (2x 64 GB)
Opbevaring / bagagerum 1 TB NVMe M.2 (PCIe 4.0 x4)
Strømforsyning Enkelt 2 kW ATX strømforsyning
Chassis 4U rackmonterede, passive Gen4 x16 risers
Køling SP3 towerkøler, 3x 120 mm frontindtag + 1x 120 mm bagudstødning (lav-RPM PWM)
Netværk Indbygget dobbelt 10 GbE (Intel X550) + IPMI

Power kuvert

  • GPU-forbrug: 2 x 72 W = 144 W
  • Systemtotal ved fuld belastning: ~469 W
  • Strømforsyning i alt: 2.000 W — 76.55 % headroom
  • Driver ventilatorer ved lave omdrejninger i tomgang (~35 dBA i tomgang, <45 dBA vedvarende inferens)

Banetopologi

PCIe Gen4 x16 på begge GPU'er. L4 er native Gen4 x16; ROMED8-2T udsender 2x16 direkte fra CPU'en. Ingen switch, intet NVLink. 55-65 C GPU-temperatur vedligeholdt — passive kort er udelukkende afhængige af kabinettets luftstrøm.

Hvad du kan løbe

Med 48 GB ECC VRAM på tværs af 2 passive L4-kort håndterer denne server altid-på LLM-inferens, 24/7 ASR + TTS-pipelines, VLM-dokumentbehandling og edge-implementeringer, hvor stilhed og datacentergaranti er vigtige.

LLM'er — tekst / ræsonnement / kodning

den kinesiske grænse

  • Qwen3-32B tæt Q6 med 32k ctx (~15-20 tok/s single-stream på L4, publiceret reference)
  • Qwen3-30B-A3B / Qwen3-koder-30B-A3B Q4-Q6 (MoE, 256k ctx)
  • QwQ-32B Q6; DeepSeek-R2 32B sparsom MoE Q4-Q6 (~18-24 tok/s enkeltstrøm ved Q4 på L4, publiceret reference)
  • Hunyuan-A13B Q6 eller fp8 (~48 GB) — 80B/13B MoE, 256k ctx
  • Frø-OSS-36B Q4-Q6 — 512k native ctx
  • ERNIE-4.5-47B-A3B Q4-Q6 (~28-42 GB)

Vestgrænsen

  • Lama 3.3 70B Q4_K_M (~43 GB) tensor-parallel 2-vejs (~8-12 tok/s single-stream på 2x L4, publiceret reference)
  • Mistral Lille 3 / Magistral / Devstral Lille 2 (24B) bf16
  • Gemma 3 27B multimodal bf16
  • Phi-4 14B / Phi-4-ræsonnement bf16
  • Nemotron-Super 49B 4. kvartal (~28 GB)
  • OLMo 2 32B / OLMo 3.1-32B-Tænk — fuldt åben ræsonnementforskning

Vision-Sprog

Qwen3-VL-8B / 32B Q4-Q6; InternVL3.5-38B Q4; Pixtral 12B bf16 (24 GB); Llama 3.2 11B Vision bf16; Gemma 3 12B / 27B multimodal; MiniCPM-V 2.6 / MiniCPM-o 2.6; Aya Vision 8B / 32B til 23-sproget VLM.

Billedgenerering

L4 er inferensjusteret — kan bruges til steady-state-billedpipelines, ikke batchgenerering: FLUX.1 [dev] fp8 / Q4 — enkelt billede på 8-12 s; SD 3.5 Large fp8 / SDXL 1.0 / SD 3.5 Medium; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8.

Video generation

Anbefales ikke til nye videoprojekter på L4 — foretrækker en 4090/5090-build. Til lette T2V-pipelines: Wan 2.2 TI2V-5B ved bf16 — 5 s 720p på ~6-10 minutter; HunyuanVideo 1.5 (8.3B) Wan2GP-optimeringssti.

Lyd / Tale / TTS

L4's virkelige styrke — 24/7 ASR + TTS + realtids-stemmestyring.

  • ASR: Whisper v3 large / turbo (~30x realtid på L4, publiceret reference); NVIDIA Parakeet-TDT 1.1B; Canary 1B
  • TTS: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabil lyd åben
  • Realtid / S2S: Kyutai Moshi (7B, 200 ms latenstid fuld duplex); Step-Audio 2 mini / R1
  • Oversættelse: Meta SeamlessM4T v2 (~100 sprog)

Multimodel / multi-lejer

  • Whisper v3 + Kokoro + Moshi + Qwen3-14B Q6 alle beboere på kort 1 (~18-20 GB); kort 2 reserveret til en anden lejer eller en VLM
  • 8-16 samtidige ASR-sessioner på et enkelt L4 ved Whisper-turbo i realtid
  • RAG-slutpunkt: Qwen3-14B / Llama 3.1 8B (~48-72 tok/s single-stream på L4, publiceret reference) + BGE-M3-indlejringer + reranger

Målrettede arbejdsbyrder

  • Lydløs inferensboks til filialkontor eller udsendelsesfacilitet
  • Altid aktiv ASR + oversættelsespipeline (callcentre, transskription af forelæsninger, undertekster til medier)
  • Edge RAG-slutpunkt over virksomhedsdokumenter med datacentergarantisti
  • 24/7 multimodal assistent (Qwen3-VL-8B + MiniCPM-o 2.6) til et lille kontor
  • Udviklingsstagingboks til implementeringer i datacenterklassen — samme L4-silicium som hyperscale edge

Publicerede præstationsreferencer

Udgivet reference | 2x NVIDIA L4-sammenlignelig hardware

benchmark Resultat
Llama 3.1 8B Q4_K_M llama.cpp afkodning ~30-40 tok/s enkeltstrøm
Qwen3-14B Q6 vLLM-afkodning ~20-28 tok/s
Whisper v3 stor realtidsfaktor ~15-20 gange pr. L4
Parakeet-TDT 1.1B Engelsk ASR ~40-60x realtid
Moshi 7B fuld-duplex stemme 200 ms latenstid, passer til enkelt L4

Udgivet, ikke målt på Kentino-hardware.

Ikke ideel til

  • 70B tæthed ved Q6+ (selv en 48 GB-pulje er trang — brug 4x4090 eller 2x5090)
  • Billed-/videogenereringsbatcharbejde i stor skala (L4-tensorgennemløb er inferensjusteret)
  • LoRA / finjustering af arbejdsgange — brug i stedet 4090/5090-builds

Garanti og leveringstid

2 år
reservedelsgaranti
1 år
arbejdsgaranti
10-28 dage
Ledetid

L4 har NVIDIAs datacentergaranti – en betydelig fordel i forhold til forbrugerkort til 24/7 SLA-implementering. Byggeprocessen omfatter samling, BIOS-konfiguration, driverinstallation, burn-in-test og funktionel verifikation.

Anbefalede tilføjelser

  • Opgrader til K-AI 96 Rome L4 968TOPS (4x L4, 96 GB pool) for fordoblet gennemløbshastighed
  • Opgrader boot-drevet til 2 TB NVMe
  • Opgrader RAM til 256 GB (4x 64 GB) for samtidig servering af flere modeller
  • Rack PDU + 2 kVA online UPS til filialinstallation
Se detaljer