Servez vos modèles d’IA plus vite qu’ils ne réfléchissent
Démarrez un GPU en quelques secondes. Gardez un temps au premier token bas et un débit de tokens élevé. Ne payez que le temps réellement utilisé.


Pourquoi les équipes choisissent Compute pour l'inférence
Inférence gérée avec vLLM
Servez vos modèles en quelques minutes avec notre template vLLM.
Tarification tout compris
Pas de frais de sortie. Facturation à la seconde avec crédits prépayés et option de recharge automatique.
Réseau flexible
HTTPS, TCP ou UDP. Ouvrez les ports dont votre service a besoin.
Exécutions dans votre région
Des clusters en France et aux Émirats gardent le trafic proche de vos utilisateurs.
Comment ça marche

Choisissez une niveau 4090 ou 5090.

Lancez une image PyTorch ou vLLM propre.

Activez le réseau (HTTPS/TCP/UDP) et pointez votre app vers l’endpoint.

Enregistrez le tout comme template pour la prochaine fois.
La plupart des modèles restent inactifs pendant de longues périodes.
Payez pour les minutes que vous utilisez, pas pour les heures que vous n’utilisez pas.
Aperçu des performances
D’après nos mesures :
Le double RTX 5090 atteint 7 604 tokens par seconde, avec un temps au premier token d’environ 45 ms sur Llama-3.1-8B.

Aperçu des tarifs
GPU à la demande, facturés à la seconde via crédits prépayés
Tout inclus : calcul, stockage et transfert de données
Bonus de bienvenue : jusqu'à 250€ lors du premier achat
RTX 5090
RTX 4090
Les GPU sont disponibles à la demande aujourd’hui. La capacité spot arrive bientôt.
Ce que les équipes lancent sur Compute
IA conversationnelle pour l’assistance ou le tutorat
Points de terminaison LLM pour applications et API
Modèles vocaux pour la transcription ou les sous-titres en temps réel
Vous avez des questions ?
Prenez-vous en charge vLLM ?
Oui. Vous pouvez utiliser notre template vLLM pour servir vos modèles rapidement.
Puis-je garder mon service derrière HTTPS ?
Oui. HTTPS est disponible, ainsi que TCP et UDP.
Puis-je mettre mon instance en pause ?
Oui. La fonction Stop/Start est disponible sans frais supplémentaires pendant une durée limitée. Les détails sont sur le blog.
Quelles régions sont actives ?
France et Émirats arabes unis.
Stockez-vous mes entrées ou sorties ?
Non. Les journaux et les données restent dans votre instance, sauf si vous décidez de les conserver.
Où mes données vivent-elles ?
Les exécutions restent dans la région que vous avez choisie.