Servez des modèles d'IA plus rapide qu'ils ne peuvent le penser

Faites tourner un GPU en quelques secondes. Maintenez un temps de premier jeton bas et un maximum de jetons par seconde. Payez uniquement pour le temps que vous utilisez.

Lancer une instance

Pourquoi les équipes choisissez Calculer pour l'inférence

Inférence gérée avec vLLM

Commencez à servir en quelques minutes à l'aide de notre modèle vLLM.

Tarification tout compris

Aucuns frais d'évacuation. Facturation à la seconde avec crédits prépayés et recharge automatique en option.

Mise en réseau flexible

HTTPS, TCP ou UDP. Exposez les ports dont votre service a besoin.

Courses dans la région

Les clusters de la France et des Émirats arabes unis permettent de maintenir le trafic à proximité de vos utilisateurs.

Comment ça marche

Choisissez un niveau 4090 ou 5090.

Lancez à partir d'une image PyTorch ou vLLM propre.

Activez la mise en réseau (HTTPS/TCP/UDP) et pointez votre application vers le terminal.

Enregistrez-le en tant que modèle personnalisé pour la prochaine fois.

La plupart des modèles restent inactifs pendant de longues périodes.

Payez pour les minutes que vous utilisez, pas pour les heures que vous n'utilisez pas.

Lancer une instance

Aperçu des performances

Selon notre indice de référence :

Dual RTX 5090 atteint 7 604 jetons/seconde, avec

with ~45 ms time-to-first-token on Llama-3.1-8B.

Lisez l'intégralité des 5090 benchmarks →

Les prix en un coup d'œil

À la demande GPU, facturés à la seconde via des crédits prépayés

Tout compris : calcul, stockage et transfert de données inclus

RTX 5090

€ 0.40 - 3.20 /h

→

1 × - 8 ×

VRAM 32 - 336 GB

RAM 73 - 584 GB

CPU 8 - 64

Disk space 250 - 2000 GB

Bandwidth 1000 Mb/s

RTX 4090

€ 0.20 - 1.60 /h

→

1 × - 8 ×

VRAM 24 - 192 GB

RAM 48 - 384 GB

CPU 8 - 64

Disk space 250 - 2000 GB

Bandwidth 125 - 1000 Mb/s

Comparez tous les niveaux →Contactez le service commercial

Les GPU sont disponibles à la demande aujourd'hui. La capacité des places sera bientôt disponible.

Ce que les gens utilisent sur Compute

L'IA conversationnelle pour le soutien et le tutorat

Terminaux LLM adaptés aux applications et aux API

Modèles vocaux pour la transcription ou les sous-titres en temps réel

FAQ

Vous avez des questions ?

Soutenez-vous VLLM ?

Oui Utilisez le modèle vLLM pour diffuser des modèles rapidement.

Puis-je conserver le service en mode HTTPS ?

Oui HTTPS est disponible aux côtés de TCP et UDP.

Puis-je suspendre mon instance ?

Oui Arrêter/Démarrer est disponible sans frais supplémentaires pour une durée limitée. Voir les détails sur le blog.

Quelles régions sont actives ?

France et Émirats arabes unis.

Est-ce que vous stockez mes entrées ou mes sorties ?

Non. Les journaux et les données restent dans votre instance à moins que vous ne choisissiez de les conserver.

Où se trouvent mes données ?

Les courses restent dans la région de votre choix.