La plupart des problèmes d'inférence sont des problèmes de mémoire déguisés. Si le modèle et son cache sont compatibles avec la marge de manœuvre, vous pouvez traiter les demandes par lots et maintenir une latence stable. Si la mémoire est serrée, tout ralentit. Commencez par la VRAM, puis pensez à la vitesse et au prix.
L'architecture GPU sous-jacente joue un rôle crucial dans la détermination des performances d'inférence et de l'adéquation du matériel au déploiement de LLM, car les différences architecturales ont un impact sur l'efficacité et l'évolutivité des grands modèles.
Sur Calculer, vous pouvez lancer un serveur vLLM sur Compute sur des préréglages à un ou plusieurs processeurs graphiques, y compris les options de classe 4090 et de classe 5090, le cas échéant. Les plateformes cloud telles que Compute sont de plus en plus utilisées pour le déploiement de LLM en raison de l'accès flexible aux GPU hautes performances. Choisissez la France ou les Émirats arabes unis pour garder les terminaux à proximité des utilisateurs.
Un chemin de décision rapide
- Choisissez le plus petit modèle qui permet de résoudre la tâche. Essayez 7B avant 13B. Utilisez des valeurs, pas des vibrations.
- Estimez honnêtement le contexte et les résultats. Les longues conversations et les grandes invites mangent la mémoire.
- Concurrence cible. Combien d'utilisateurs à la fois avec un TTFT/TPS acceptable ?
- Choisissez VRAM pour adapter le modèle + le cache + le lot. Tenez compte de la quantité de mémoire GPU et de la quantité de mémoire requise pour la taille spécifique de votre modèle et les exigences en matière de lots : les modèles plus grands et les lots de plus grande taille nécessitent plus de mémoire. Si la limite est proche, passez à un niveau supérieur, utilisez la quantification ou envisagez des formats de moindre précision (tels que FP8 ou int8) comme compromis pour optimiser l'utilisation de la mémoire et le débit.
- Optez pour un processeur unique ou un processeur multiprocesseur. Passez à plusieurs cartes lorsqu'une seule carte ne peut pas répondre aux besoins de mémoire ou de débit. L'optimisation des configurations multi-GPU peut améliorer les performances, mais il existe des compromis entre les configurations à un et plusieurs GPU, tels qu'une complexité et un coût accrus.
- Placez le terminal à proximité des utilisateurs. La latence régionale est plus importante que les micro-optimisations.
Aide-mémoire Model‑to‑VRAM (approximatif)
Il s'agit de fourchettes approximatives pour poids uniquement. Vous avez toujours besoin d'une marge de manœuvre pour KV-Cache et mise en lots.
- 7E ET 16E SÉANCE : ~14 À 16 GO
- 7B, int8 : ~7 À 9 GO
- 7B, int4 : ~4 À 6 GO
- 13B, 16E SÉANCE : ~26 À 28 GO
- 13B, int8 : ~13 À 16 GO
- 13B, int4 : ~7 À 9 GO
La gestion efficace des LLM (grands modèles de langage) nécessite une planification minutieuse de l'allocation de mémoire GPU à la fois pour le modèle et pour son cache, car l'inférence LLM est exigeante en termes de calcul et bénéficie d'un matériel spécialisé.
Ajoutez de la marge de cache : des contextes plus longs et une plus grande simultanéité peuvent doubler ou tripler l'ensemble de travail. Si la VRAM est en charge à plus de 90 %, attendez-vous à ce que le TTFT augmente.
Carte graphique unique ou multiprocesseur
Processeur graphique unique est plus simple et souvent plus rapide pour les modèles de classe 7B avec un contexte modéré. Commencez ici si vous le pouvez.
Plusieurs processeurs graphiques est utile lorsque le modèle ou le contexte ne correspond pas, ou lorsque vous avez besoin de plus de débit pour le même objectif de latence. Utilisez le parallélisme des tenseurs ou des pipelines et testez les formes de lots. Le parallélisme augmente la charge de communication, alors mesurez en fonction de vos véritables instructions. Il est essentiel de mesurer les performances réelles et les frais de communication lors de l'optimisation des configurations multi-GPU.
Pièces destinées aux particuliers et pièces pour centres de données
GPU grand public (classe 4090, classe 5090, par exemple) : excellent rapport qualité/prix pour les modèles 7B à 13B. Le RTX 4090, construit sur l'architecture Ada Lovelace, convient aux développeurs et aux petites équipes travaillant sur l'inférence LLM et les charges de travail créatives, offrant de solides performances à la fois pour les applications d'IA et artistiques. Idéal pour les terminaux dédiés où vous contrôlez le trafic.
GPU de centre de données (par exemple, A100 80 Go, H100 80 Go, L40S 48 Go) : conçu pour déploiement dans des centres de données, ces GPU exploitent des architectures avancées pour des performances, une efficacité énergétique et une efficacité énergétique élevées. L'A100 utilise l'architecture Ampere, offrant des performances solides et exceptionnelles, une capacité de mémoire élevée et une conception économe en énergie, ce qui le rend adapté à la recherche et aux charges de travail d'IA à grande échelle. Le H100 est basé sur l'architecture Hopper, qui apporte de nouvelles améliorations en termes de performances et d'efficacité énergétique pour les tâches exigeantes d'IA et de calcul scientifique. Le L40S, qui utilise l'architecture Ada Lovelace, améliore à la fois les charges de travail créatives et les tâches d'IA. Utile pour des contextes longs, des modèles plus grands ou des besoins de fiabilité stricts. Le H100 comprend un moteur de transformateur spécialisé pour accélérer la formation et l'inférence des modèles de transformateurs, qui sont essentiels pour les tâches de PNL. En outre, l'A100 prend en charge la technologie GPU multi-instance (MIG) pour permettre un partitionnement efficace de plusieurs charges de travail.
Si vous avez besoin d'un ECC, d'une disponibilité prolongée ou de NVLink, optez pour un datacenter allégé. Si vous voulez un maximum de jetons par euro sur les modèles de petite à moyenne taille, les cartes grand public sont gagnantes.
Latence et débit, en bref
- TTFT est dominé par la mise en file d'attente et le préremplissage. Des invites plus grandes et une plus grande marge de mémoire l'augmentent.
- Jetons par seconde (TPS) augmente avec une efficacité de traitement par lots et de décodage saine. Plus de VRAM → lot actif plus important → TPS plus élevé. Les fonctionnalités avancées du GPU, telles que l'entraînement à précision mixte et les cœurs Tensor, peuvent aider à maintenir la précision même lorsque le traitement par lots et le débit sont augmentés.
- Placement sur le réseau peut ajouter 50 à 100 ms en un clin d'œil ; gardez les terminaux à proximité des utilisateurs.
Puissance, température et fiabilité
Accélérateur des cartes chaudes. Les cas d'utilisation avec une charge constante nécessitent une bonne circulation d'air et une bonne marge de manœuvre. Les composants des centres de données sont conçus pour cela ; les cartes grand public peuvent le faire avec soin. Surveillez les températures et les horloges.
Placement régional
Placez le terminal là où se trouvent la plupart des utilisateurs. Les utilisateurs de l'UE bénéficient de la France. Les marchés du Moyen-Orient bénéficient des Émirats arabes unis. Les appels interrégionaux ajoutent une latence que vous ne pouvez pas optimiser dans le code.
Une approche budgétaire que vous pouvez réutiliser
- Estimez le nombre de jetons par jour. Incluez une invite + une sortie.
- Diviser par TPS/GPU à la qualité et au modèle que vous souhaitez atteindre.
- Cela donne le nombre d'heures de GPU par jour. Multipliez par votre taux horaire.
- Effectuez un contrôle de sensibilité. Variez le contexte et le nombre maximum de jetons ; ce sont ces swings qui coûtent le plus cher.
- Décidez de la redondance. Un nœud de rechange coûte de l'argent mais permet d'éviter les incidents.
Une surveillance rentable
- TTFT p50/p95 sous charge croissante
- TPS p50/p95 à trafic constant
- Capacité de mémoire GPU et taux d'accès au cache
- Événements d'étranglement thermique
- Taux d'erreur (OOM, délais d'attente, 5xx)
Liste de contrôle rapide
- Commencez par le plus petit modèle qui passe les évaluations.
- Choisissez la VRAM avec espace libre pour le contexte et le batch.
- Préférez un processeur graphique unique jusqu'à ce que vous deviez changer d'échelle.
- Diffusez les réponses et plafonnez max_tokens.
- Placez les terminaux dans la région où vivent les utilisateurs.
- Regardez le TTFT/TPS, la mémoire, la température et les erreurs.
Essayez Compute dès aujourd'hui
Sur Calculer, choisissez entre des préréglages de classe 4090 ou des préréglages multi-GPU, avec les régions de France et des Émirats arabes unis. Lancez un VllM serveur et pointez votre client OpenAI vers la nouvelle URL de base.
Recommandations finales pour choisir le meilleur GPU pour l'inférence LLM
Choisissez d'abord les GPU par VRAM, puis par vitesse, puis par prix. Gardez les terminaux à proximité des utilisateurs, diffusez les réponses et regardez le TTFT et la mémoire. Laissez les mesures propres, et non les fiches techniques, entraîner les mises à niveau.
Prêt à tester ? Lancez un VllM point de terminaison activé Calculer, choisissez votre région et votre préréglage, puis comparez TTFT/TPS avant de choisir une carte plus grande.
FAQ
Quel processeur graphique est suffisant pour un modèle de chat de 7 Go ?
Une carte de 24 Go fonctionne généralement bien, en particulier avec les variantes int8 ou int4 et les capuchons sensibles. Conservez une marge de manœuvre pour le cache et le traitement par lots.
Quand ai-je besoin d'un processeur multiprocesseur ?
Lorsque le modèle ou le contexte ne convient pas à une seule carte avec marge de manœuvre, ou lorsque vous avez besoin d'un débit plus élevé avec la même cible de latence.
Ai-je besoin de NVLink ?
Utile pour les très grands modèles et les longs contextes utilisant plusieurs GPU. Pour 7B—13B avec un contexte modéré, vous pouvez souvent vous en tenir à une seule carte.
4090 contre A100 contre H100 : que dois-je en penser ?
La classe 4090 offre un excellent rapport qualité-prix pour les modèles de petite et moyenne taille. L'A100/H100 ajoute de grands pools de VRAM, un ECC et des interconnexions pour une utilisation intensive, un contexte long et une disponibilité stricte. Le H100 est également doté d'un moteur de transformation, qui accélère la formation et l'inférence des modèles de transformateur pour les grands modèles de langage. Le H100 offre une inférence jusqu'à 30 fois supérieure et des performances d'entraînement 9 fois supérieures à celles de l'A100, ce qui en fait une mise à niveau significative pour les charges de travail d'IA exigeantes.
Qu'est-ce qui change pour le contexte long (plus de 32 000) ?
La croissance du cache domine. Passez à plus de VRAM par nœud, réduisez les instructions via RAG ou répartissez-les avec soin sur les GPU.
La quantification me permettra-t-elle de supprimer un niveau de GPU ?
Souvent oui. Commencez par int8 ; passez à int4 uniquement si vos évaluations restent stables.
Avez-vous besoin d'un GPU pour l'inférence LLM ?
Oui, les GPU sont essentiels pour une inférence LLM efficace car ils fournissent la puissance de traitement parallèle nécessaire pour gérer le grand nombre de paramètres et d'opérations matricielles impliquées. Alors que les processeurs peuvent exécuter des inférences, les GPU accélèrent considérablement le processus et réduisent la latence.
De quel processeur graphique ai-je besoin pour LLM ?
Le choix dépend de la taille du modèle et de la charge de travail. Pour les modèles plus petits comme le 7B, des GPU grand public dotés d'environ 24 Go de VRAM (par exemple, RTX 4090) suffisent souvent. Les modèles plus volumineux ou les charges de travail nécessitant de longues fenêtres de contexte peuvent nécessiter des GPU de centre de données tels que les NVIDIA A100 ou H100, qui offrent plus de mémoire et des fonctionnalités telles que NVLink. Le RTX 4090 dispose de 24 Go de mémoire GDDR6X, ce qui est suffisant pour exécuter ou affiner des modèles de la gamme 7B à 13B.
Quel processeur graphique OpenAI utilise-t-il pour l'inférence ?
OpenAI utilise généralement des GPU de centre de données haut de gamme tels que NVIDIA A100 et H100 pour l'inférence afin de gérer efficacement les modèles à grande échelle, en tirant parti de leur grande capacité de mémoire, de leurs cœurs tenseurs et de leurs capacités GPU multi-instances.
Comment choisir le GPU pour l'inférence ?
Tenez compte de la taille du modèle, de la VRAM requise, des besoins en débit, des cibles de latence et du budget. Commencez par vous assurer que le GPU dispose de suffisamment de mémoire pour le modèle et son cache, puis évaluez les facteurs de performance tels que les cœurs CUDA, les cœurs tenseurs et la bande passante mémoire. Envisagez également des configurations à GPU unique ou multi-GPU en fonction de l'échelle de charge de travail.
Combien de temps l'A100 est-il plus rapide que le 4090 ?
Les performances varient en fonction de la charge de travail. L'A100 excelle dans les charges de travail d'IA à grande échelle grâce à des fonctionnalités telles que des cœurs tenseurs et une bande passante mémoire élevée, tandis que le RTX 4090 offre un débit brut compétitif pour les petits modèles à moindre coût. Pour certaines tâches, l'A100 peut être plus rapide, mais le 4090 peut égaler ou dépasser les performances dans d'autres, en particulier dans les scénarios axés sur les consommateurs. L'A100 offre un excellent équilibre entre performances et efficacité énergétique, ce qui le rend adapté à de nombreuses charges de travail LLM.
Quelle est la différence entre le H100 et l'A100 par rapport au RTX 4090 ?
Les H100 et A100 sont des GPU de centre de données optimisés pour les charges de travail d'IA avec des fonctionnalités telles qu'une VRAM plus élevée, des cœurs tenseurs, NVLink et la prise en charge des GPU multi-instances. Le RTX 4090 est un GPU grand public offrant des performances et une efficacité excellentes pour les modèles plus petits, mais il ne dispose pas de certaines fonctionnalités professionnelles et de grands pools de mémoire que l'on retrouve dans le H100/A100. Le H100 et l'A100 sont tous deux idéaux pour les charges de travail d'IA à grande échelle, tandis que le RTX 4090 convient mieux aux tâches plus petites.
Le Nvidia A100 est-il toujours d'actualité ?
Oui, l'A100 reste très pertinent pour la formation et l'inférence à grande échelle en matière d'IA, offrant un excellent équilibre entre performances, capacité de mémoire et fonctionnalités d'entreprise, en particulier pour les charges de travail nécessitant de grands modèles et des configurations multi-GPU.
Pourquoi le 4090 est-il abandonné ?
Il n'y a aucune confirmation officielle de l'arrêt de la production de la NVIDIA RTX 4090. Toute rumeur doit être vérifiée par le biais des annonces officielles de NVIDIA. En règle générale, l'arrêt du produit est dû à des versions de nouvelle génération ou à des modifications de la chaîne d'approvisionnement.
De quelle quantité de VRAM un modèle 7B a-t-il besoin ?
Un modèle 7B nécessite généralement environ 14 à 16 Go de VRAM en précision FP16, et moins si vous utilisez des techniques de quantification telles que int8 ou int4. Une marge de mémoire supplémentaire est nécessaire pour le cache et le traitement par lots.
Quel GPU exécutera le modèle 7B ?
Les GPU dotés d'au moins 16 Go de VRAM, tels que les NVIDIA RTX 4090 ou A100 40 Go, peuvent exécuter des modèles 7B de manière efficace, en particulier lorsqu'ils utilisent la quantification et le traitement par lots optimisé.
Quelle est la quantité de VRAM de Vega 7 ?
Le GPU intégré AMD Vega 7 partage généralement la mémoire système et ne possède pas de VRAM dédiée. La quantité disponible dépend de la configuration du système, généralement comprise entre 2 et 4 Go de mémoire partagée.
De quel GPU avez-vous besoin pour Mistral 7B ?
Le Mistral 7B, étant un modèle à 7 milliards de paramètres, nécessite un GPU doté d'au moins 16 Go de VRAM pour une inférence efficace, comme le NVIDIA RTX 4090 ou des GPU de centre de données équivalents, la quantification pouvant réduire les besoins en mémoire.