}

Servez vos modèles d’IA plus vite qu’ils ne réfléchissent

Démarrez un GPU en quelques secondes. Gardez un temps au premier token bas et un débit de tokens élevé. Ne payez que le temps réellement utilisé.

Lancer une instance

Pourquoi les équipes choisissent Compute pour l'inférence

Inférence gérée avec vLLM

Servez vos modèles en quelques minutes avec notre template vLLM.

Tarification tout compris

Pas de frais de sortie. Facturation à la seconde avec crédits prépayés et option de recharge automatique.

Réseau flexible

HTTPS, TCP ou UDP. Ouvrez les ports dont votre service a besoin.

Exécutions dans votre région

Des clusters en France et aux Émirats gardent le trafic proche de vos utilisateurs.

Comment ça marche

1.

Choisissez une niveau 4090 ou 5090.

2.

Lancez une image PyTorch ou vLLM propre.

3.

Activez le réseau (HTTPS/TCP/UDP) et pointez votre app vers l’endpoint.

4.

Enregistrez le tout comme template pour la prochaine fois.

La plupart des modèles restent inactifs pendant de longues périodes.

Payez pour les minutes que vous utilisez, pas pour les heures que vous n’utilisez pas.

Lancer une instance

Aperçu des performances

D’après nos mesures :

Le double RTX 5090 atteint 7 604 tokens par seconde, avec un temps au premier token d’environ 45 ms sur Llama-3.1-8B.

Aperçu des tarifs

GPU à la demande, facturés à la seconde via crédits prépayés

Tout inclus : calcul, stockage et transfert de données

Bonus de bienvenue : jusqu'à 250€ lors du premier achat

RTX 5090

0.40 - 3.20 /h

1 × - 8 ×
VRAM 32 - 336 GB
RAM 73 - 584 GB
CPU 8 - 64
Disk space 250 - 2000 GB
Bandwidth 1000 Mb/s

RTX 4090

0.20 - 1.60 /h

1 × - 8 ×
VRAM 24 - 192 GB
RAM 48 - 384 GB
CPU 8 - 64
Disk space 250 - 2000 GB
Bandwidth 125 - 1000 Mb/s

Les GPU sont disponibles à la demande aujourd’hui. La capacité spot arrive bientôt.

Ce que les équipes lancent sur Compute

IA conversationnelle pour l’assistance ou le tutorat

Points de terminaison LLM pour applications et API

Modèles vocaux pour la transcription ou les sous-titres en temps réel

FAQ

Vous avez des questions ?

Prenez-vous en charge vLLM ?

Oui. Vous pouvez utiliser notre template vLLM pour servir vos modèles rapidement.

Puis-je garder mon service derrière HTTPS ?

Oui. HTTPS est disponible, ainsi que TCP et UDP.

Puis-je mettre mon instance en pause ?

Oui. La fonction Stop/Start est disponible sans frais supplémentaires pendant une durée limitée. Les détails sont sur le blog.

Quelles régions sont actives ?

France et Émirats arabes unis.

Stockez-vous mes entrées ou sorties ?

Non. Les journaux et les données restent dans votre instance, sauf si vous décidez de les conserver.

Où mes données vivent-elles ?

Les exécutions restent dans la région que vous avez choisie.