Berechnung des VRAM-Bedarfs für LLMs, Vision-Modelle und Training: Eine praktische Anleitung.
Die Faustregel
Für Inference: ~2 GB VRAM pro 1B Parameter (FP16) oder ~0.5 GB pro 1B Parameter (4-Bit). Für Training: ~4x den Inference-Bedarf (Optimizer-States, Gradienten, Aktivierungen). Beispiel: Llama 3.1 8B braucht ca. 16 GB für Inference (FP16) oder 4 GB (4-Bit).
VRAM-Tabelle für populäre Modelle
Llama 3.1 8B: 4 GB (4-bit) / 16 GB (FP16) — passt auf RTX 4000 SFF. Mistral 7B: 4 GB (4-bit) / 14 GB (FP16) — passt auf RTX 4000 SFF. Llama 3.1 70B: 35 GB (4-bit) / 140 GB (FP16) — braucht RTX PRO 6000. Mixtral 8x7B: 24 GB (4-bit) — passt auf RTX PRO 6000.
Training: Der VRAM-Multiplikator
Full Fine-Tuning: 4x Inference-VRAM (Modell + Optimizer + Gradienten + Aktivierungen). LoRA: 1.2x Inference-VRAM (nur kleine Adapter). QLoRA: 0.5x Inference-VRAM (quantisiertes Basismodell + LoRA-Adapter in FP16).
VRAM sparen: Praktische Techniken
Quantisierung: AWQ oder GPTQ auf 4-Bit reduziert VRAM um 75%. Flash Attention: Spart 50-80% VRAM bei langen Kontexten. Gradient Checkpointing: Tauscht VRAM gegen Rechenzeit beim Training. Model Parallelism: Verteilt das Modell auf mehrere GPUs.
Empfehlung nach Budget
Bis 500€/Monat: RTX 4000 SFF (20 GB) — Modelle bis 13B (quantisiert: bis 26B). Bis 2.000€/Monat: RTX PRO 6000 (96 GB) — Modelle bis 70B, Training möglich. Ab 3.000€/Monat: Multi-GPU — für 70B+ Training oder parallele Inference.
Interesse geweckt?
Lassen Sie uns gemeinsam herausfinden, wie wir Ihnen helfen können.
