Compute prend désormais en charge les serveurs d'inférence vLLM

Compute vient de recevoir une mise à jour majeure. Vous pouvez désormais lancer un serveur d'inférence avec vLLM en quelques clics seulement. Choisissez un modèle, choisissez votre matériel et vous êtes prêt à partir.

Le démarrage est rapide, mais si vous souhaitez affiner les choses, les paramètres sont là : longueur du contexte, échantillonnage, utilisation de la mémoire, etc.

Nous commençons par Falcon3. À l'heure actuelle, vous trouverez le Falcon3 3B, le Falcon3 Mamba-7B, le Falcon3 7B et le Falcon3 10B dans le catalogue. Mais ce n'est que le début. Llama, Mistral, Qwen et GPT-OSS sont en route.

Et si le modèle dont vous avez besoin ne figure pas dans la liste, faites-le nous savoir. Nous allons l'ajouter !

Présentation de la fonction VLLM et de sa configuration - Regardez la vidéo

Le flux d'instance a également été reconstruit. Il est plus facile à suivre et fonctionne de la même manière, que vous utilisiez un GPU général ou un serveur d'inférence. Vous remarquerez également davantage d'options de connexion. HTTPS reste la valeur par défaut, mais vous pouvez désormais ouvrir des ports TCP et UDP, exécuter des sessions SSH qui survivent aux interruptions avec tmux ou vous lancer directement dans Jupyter

La tarification reste simple. Le coût horaire s'affiche avant le lancement, et vous ne payez qu'à la seconde avec des crédits. Vous pouvez commencer modestement avec un seul RTX 4090 ou passer à un cluster 5090 à huit voies, selon le modèle que vous choisissez. Les serveurs sont en ligne aux Émirats arabes unis et en France, et d'autres sites sont en cours de réalisation.

Il s'agit d'une étape importante pour Compute. L'inférence est intégrée, facile à utiliser et suffisamment flexible pour gérer des charges de travail importantes. Nous sommes impatients de voir ce que vous utiliserez et quels modèles vous nous demanderez d'ajouter ensuite.

Lancez votre premier serveur d'inférence

← Back