hyperrealistisk billede af siliciummatricen med ekstra dybde og en levende lilla nuance

AI Model VRAM-krav på tværs af forskellige GPU-konfigurationer

AI Model VRAM-krav på tværs af forskellige GPU-konfigurationer

Denne tabel giver et overblik over omtrentlige modelstørrelser (i milliarder af parametre), der kan køres på forskellige VRAM-konfigurationer, sammen med eksempler på kendte modeller. Bemærk, at disse er estimater og kan variere baseret på specifikke implementeringer, arkitekturer og optimeringer.

VRAM (GB) FP32 FP16/BF16 INT8 INT4 INT2 Eksempler på modeller
16 3-4B 6-8B 12-16B 24-32B 48-64B GPT-2 (1.5B), BERT-Large (340M)
24 5-6B 10-12B 20-24B 40-48B 80-96B GPT-J (6B), BLOOM-7B1
48 10-12B 20-24B 40-48B 80-96B 160-192B T5-11B, BLOOM-7B1 (FP32)
80 18-20B 36-40B 72-80B 144-160B 288-320B GPT-NeoX-20B, BLOOM-176B2
96 22-24B 44-48B 88-96B 176-192B 352-384B BLOOM-176B2, Jurassic-1 Jumbo (178B)2
128 30-32B 60-64B 120-128B 240-256B 480-512B GPT-3 175B2, PaLM 540B2
160 38-40B 76-80B 152-160B 304-320B 608-640B PaLM 540B2, Megatron-Turing NLG 530B2
192 46-48B 92-96B 184-192B 368-384B 736-768B BLOOM-176B (FP16)
256 62-64B 124-128B 248-256B 496-512B 992-1024B GPT-3 175B (INT8), LLaMA 2 70B (FP32)
320 78-80B 156-160B 312-320B 624-640B 1248-1280B Chinchilla 70B (FP32)
384 94-96B 188-192B 376-384B 752-768B 1504-1536B PALM 540B (INT8)
512 126-128B 252-256B 504-512B 1008-1024B 2016-2048B GPT-3 175B (FP16), BLOOM-176B (FP32)

Bemærkninger:

  1. Kan køre i fuld præcision (FP32)
  2. Kræver kvantisering eller andre optimeringsteknikker

Yderligere overvejelser:

  • Disse estimater antager, at hele VRAM er tilgængelig for modellen, hvilket ofte ikke er tilfældet i praksis på grund af hukommelse, der bruges af rammeværket, operativsystemet og andre processer.
  • Modelparallelisme og andre avancerede teknikker kan tillade at køre endnu større modeller ved at distribuere dem på tværs af flere GPU'er.
  • Inferens kræver typisk mindre hukommelse end træning, så større modeller kan ofte køres for inferens på mindre VRAM-konfigurationer.
  • De nøjagtige størrelser kan variere baseret på modelarkitektur, implementeringsdetaljer og specifikke anvendte optimeringer.

Nøgle Informationer:

  1. 16-24 GB VRAM: Velegnet til de fleste AI-opgaver i forbrugerkvalitet og mindre forskningsmodeller.
  2. 48-96 GB VRAM: Muliggør arbejde med mellemstore til store modeller, der ofte bruges i professionelle og forskningsmæssige omgivelser.
  3. 128-256 GB VRAM: Giver mulighed for at køre nogle af de største offentligt tilgængelige modeller med forskellige optimeringer.
  4. 320-512 GB VRAM: Giver kapacitet til de største nuværende modeller og fremtidige udviklinger, ofte opnået gennem multi-GPU-opsætninger.

Denne tabel viser den betydelige indvirkning af kvantisering og andre optimeringsteknikker for at gøre det muligt for større modeller at køre på begrænset VRAM. Efterhånden som AI fortsætter med at udvikle sig, kan vi forvente yderligere innovationer inden for modelkomprimering og hukommelseseffektive arkitekturer for at flytte disse grænser endnu længere.

Og hold fast... Det ender ikke med transformere...

Tillbaka til bloggen