Servez des modèles d'IA plus rapide qu'ils ne peuvent le penser
Faites tourner un GPU en quelques secondes. Maintenez un temps de premier jeton bas et un maximum de jetons par seconde. Payez uniquement pour le temps que vous utilisez.


Pourquoi les équipes choisissez Calculer pour l'inférence

Inférence gérée avec vLLM
Commencez à servir en quelques minutes à l'aide de notre modèle vLLM.

Tarification tout compris
Aucuns frais d'évacuation. Facturation à la seconde avec crédits prépayés et recharge automatique en option.

Mise en réseau flexible
HTTPS, TCP ou UDP. Exposez les ports dont votre service a besoin.

Courses dans la région
Les clusters de la France et des Émirats arabes unis permettent de maintenir le trafic à proximité de vos utilisateurs.
Comment ça marche

Choisissez un niveau 4090 ou 5090.

Lancez à partir d'une image PyTorch ou vLLM propre.

Activez la mise en réseau (HTTPS/TCP/UDP) et pointez votre application vers le terminal.

Enregistrez-le en tant que modèle personnalisé pour la prochaine fois.
La plupart des modèles restent inactifs pendant de longues périodes.
Payez pour les minutes que vous utilisez, pas pour les heures que vous n'utilisez pas.
Aperçu des performances
Selon notre indice de référence :
Dual RTX 5090 atteint 7 604 jetons/seconde, avec ~45 ms délai jusqu'au premier jeton sur Llama-3.1-8B.

Les prix en un coup d'œil
À la demande GPU, facturés à la seconde via des crédits prépayés
Tout compris : calcul, stockage et transfert de données inclus
Bonus de bienvenue : jusqu'à 250€ lors du premier achat
RTX 5090
RTX 4090
Les GPU sont disponibles à la demande aujourd'hui. La capacité des places sera bientôt disponible.
Ce que les gens utilisent sur Compute

L'IA conversationnelle pour le soutien et le tutorat

Terminaux LLM adaptés aux applications et aux API

Modèles vocaux pour la transcription ou les sous-titres en temps réel
Vous avez des questions ?
Soutenez-vous VLLM ?
Oui Utilisez le modèle vLLM pour diffuser des modèles rapidement.
Puis-je conserver le service en mode HTTPS ?
Oui HTTPS est disponible aux côtés de TCP et UDP.
Puis-je suspendre mon instance ?
Oui Arrêter/Démarrer est disponible sans frais supplémentaires pour une durée limitée. Voir les détails sur le blog.
Quelles régions sont actives ?
France et Émirats arabes unis.
Est-ce que vous stockez mes entrées ou mes sorties ?
Non. Les journaux et les données restent dans votre instance à moins que vous ne choisissiez de les conserver.
Où se trouvent mes données ?
Les courses restent dans la région de votre choix.