AI Model VRAM-krav på tværs af forskellige GPU-konfigurationer
Del
Denne tabel giver et overblik over omtrentlige modelstørrelser (i milliarder af parametre), der kan køres på forskellige VRAM-konfigurationer, sammen med eksempler på kendte modeller. Bemærk, at disse er estimater og kan variere baseret på specifikke implementeringer, arkitekturer og optimeringer.
| VRAM (GB) | FP32 | FP16/BF16 | INT8 | INT4 | INT2 | Eksempler på modeller |
|---|---|---|---|---|---|---|
| 16 | 3-4B | 6-8B | 12-16B | 24-32B | 48-64B | GPT-2 (1.5B), BERT-Large (340M) |
| 24 | 5-6B | 10-12B | 20-24B | 40-48B | 80-96B | GPT-J (6B), BLOOM-7B1 |
| 48 | 10-12B | 20-24B | 40-48B | 80-96B | 160-192B | T5-11B, BLOOM-7B1 (FP32) |
| 80 | 18-20B | 36-40B | 72-80B | 144-160B | 288-320B | GPT-NeoX-20B, BLOOM-176B2 |
| 96 | 22-24B | 44-48B | 88-96B | 176-192B | 352-384B | BLOOM-176B2, Jurassic-1 Jumbo (178B)2 |
| 128 | 30-32B | 60-64B | 120-128B | 240-256B | 480-512B | GPT-3 175B2, PaLM 540B2 |
| 160 | 38-40B | 76-80B | 152-160B | 304-320B | 608-640B | PaLM 540B2, Megatron-Turing NLG 530B2 |
| 192 | 46-48B | 92-96B | 184-192B | 368-384B | 736-768B | BLOOM-176B (FP16) |
| 256 | 62-64B | 124-128B | 248-256B | 496-512B | 992-1024B | GPT-3 175B (INT8), LLaMA 2 70B (FP32) |
| 320 | 78-80B | 156-160B | 312-320B | 624-640B | 1248-1280B | Chinchilla 70B (FP32) |
| 384 | 94-96B | 188-192B | 376-384B | 752-768B | 1504-1536B | PALM 540B (INT8) |
| 512 | 126-128B | 252-256B | 504-512B | 1008-1024B | 2016-2048B | GPT-3 175B (FP16), BLOOM-176B (FP32) |
Bemærkninger:
- Kan køre i fuld præcision (FP32)
- Kræver kvantisering eller andre optimeringsteknikker
Yderligere overvejelser:
- Disse estimater antager, at hele VRAM er tilgængelig for modellen, hvilket ofte ikke er tilfældet i praksis på grund af hukommelse, der bruges af rammeværket, operativsystemet og andre processer.
- Modelparallelisme og andre avancerede teknikker kan tillade at køre endnu større modeller ved at distribuere dem på tværs af flere GPU'er.
- Inferens kræver typisk mindre hukommelse end træning, så større modeller kan ofte køres for inferens på mindre VRAM-konfigurationer.
- De nøjagtige størrelser kan variere baseret på modelarkitektur, implementeringsdetaljer og specifikke anvendte optimeringer.
Nøgle Informationer:
- 16-24 GB VRAM: Velegnet til de fleste AI-opgaver i forbrugerkvalitet og mindre forskningsmodeller.
- 48-96 GB VRAM: Muliggør arbejde med mellemstore til store modeller, der ofte bruges i professionelle og forskningsmæssige omgivelser.
- 128-256 GB VRAM: Giver mulighed for at køre nogle af de største offentligt tilgængelige modeller med forskellige optimeringer.
- 320-512 GB VRAM: Giver kapacitet til de største nuværende modeller og fremtidige udviklinger, ofte opnået gennem multi-GPU-opsætninger.
Denne tabel viser den betydelige indvirkning af kvantisering og andre optimeringsteknikker for at gøre det muligt for større modeller at køre på begrænset VRAM. Efterhånden som AI fortsætter med at udvikle sig, kan vi forvente yderligere innovationer inden for modelkomprimering og hukommelseseffektive arkitekturer for at flytte disse grænser endnu længere.
Og hold fast... Det ender ikke med transformere...