Créez un pipeline RAG qui reste rapide à grande échelle

Le RAG est un problème de rapidité déguisé en problème de pertinence. Si la récupération est lente ou bruyante, la production s'arrête et les coûts augmentent. La génération de texte dans les systèmes RAG repose sur une extraction rapide et précise pour produire des sorties de haute qualité. Le temps de réponse de bout en bout est un indicateur de performance clé pour les systèmes RAG, affecté par le temps de récupération et la vitesse d'inférence. RAG peut améliorer de manière significative les performances des chatbots en fournissant des réponses précises et opportunes en fonction du contexte.

La solution est simple : des blocs plus petits, des requêtes plus intelligentes, un reclassement qui gagne sa vie et des caches là où cela compte. Dans le pipeline RAG, des modèles d'intégration, qui convertissent à la fois les requêtes des utilisateurs et les documents en vecteurs numériques, sont utilisés (ils sont également appelés modèles d'intégration). Ce processus crée une représentation vectorielle pour chaque entrée, ce qui permet une recherche de similarité. Une indexation efficace et une récupération rapide sont obtenues en utilisant un vecteur de requête dérivé de l'entrée de l'utilisateur pour effectuer une recherche dans la base de données vectorielles.

Essayez Compute dès aujourd'hui

Associez votre retriever à un appareil dédié VllM point de terminaison activé Calculer. Choisissez une région proche des utilisateurs, des jetons de diffusion et des sorties de plafonnement. Mesurez le TTFT/TPS pendant que vous effectuez des itérations sur le découpage et le reclassement.

Présentation de RAG

La génération augmentée de récupération, ou RAG, change la façon dont l'IA répond à vos questions. Il connecte de grands modèles de langage à des bases de données rapides qui stockent les informations sous forme de chiffres. Voici ce qui se passe : lorsque vous posez une question, RAG ne se fie pas uniquement à ce que l'IA a appris pendant l'entraînement. Il effectue une recherche dans les données actuelles pour trouver des informations pertinentes, puis utilise les deux sources pour vous donner une meilleure réponse.

Le processus se déroule en trois étapes claires. Tout d'abord, les documents sont nettoyés et convertis en modèles numériques que les ordinateurs peuvent rechercher rapidement. Ensuite, lorsque vous posez une question, le système explore ces modèles pour trouver les informations les plus pertinentes. Enfin, l'IA prend ce qu'elle a trouvé et le combine avec ses connaissances existantes pour créer votre réponse. Cette approche vous permet d'obtenir des réponses qui tiennent compte des nouvelles informations. Vos questions obtiennent des réponses réellement utiles, même lorsque vous traitez de sujets complexes ou de grandes quantités de données.

Indexation : découpage, intégration et bases de données vectorielles qui aident, mais ne font pas de mal

Taille du morceau. Commencez à 200 à 400 jetons avec 10 à 20 % de chevauchement. Les petits morceaux stimulent la mémorisation ; les gros morceaux renforcent la cohérence. Réglez avec votre ensemble d'évaluation. Le découpage fonctionne en regroupant les informations en unités gérables, ce qui augmente la capacité de la mémoire et réduit la dégradation ou les interférences, améliorant ainsi le rappel et l'efficacité de la mémoire. Il a été démontré que le découpage améliore le rappel de la mémoire à court terme et peut faciliter les programmes d'entraînement de la mémoire. Les patients atteints de la maladie d'Alzheimer peuvent bénéficier du découpage pour améliorer les performances de leur mémoire de travail verbale. La taille optimale des blocs varie généralement de trois à quatre éléments pour une efficacité accrue du traitement de la mémoire. De plus, l'expertise dans un domaine peut permettre aux individus de former de plus gros morceaux, améliorant ainsi l'efficacité du rappel de la mémoire.

Frontières. Divisez les titres, les puces et les paragraphes pour conserver les idées intactes. Évitez de compter arbitrairement le nombre de caractères.

Normaliser. Utilisez des minuscules, supprimez le passe-partout et réduisez les espaces blancs ; conservez la mise en forme des chiffres et du code.

Métadonnées. Stockez la source, la section, la langue, l'horodatage et les balises d'accès pour le filtrage et les audits.

Modèle d'intégrations. Choisissez celui qui gère vos langues et votre domaine. Testez les distances en cosinus sur vos propres paires ; ne vous fiez pas aveuglément aux écarts du classement. Le modèle d'intégration mappe le texte dans un espace vectoriel de grande dimension, ce qui permet une recherche de similarité basée sur des représentations vectorielles.

Planification des requêtes : récupérez moins, récupérez mieux

Récupérez moins, récupérez mieux. Des algorithmes de recherche avancés, y compris la recherche sémantique, sont utilisés pour améliorer la précision de la recherche.

Recherche hybride. Combinez BM25 (mot-clé) avec vecteur résultats ; fusion par un simple classement pondéré. La recherche hybride combine des algorithmes de recherche traditionnels et sémantiques pour traiter plus efficacement la requête de l'utilisateur et la requête donnée, améliorant ainsi la récupération des éléments pertinents.
Les filtres d'abord. Appliquez des filtres de métadonnées avant la recherche vectorielle afin de réduire les ensembles de candidats.
Je suis petit, 13 ans fort. Commencez avec k = 20 à 50 candidats et introduisez les 10 à 20 meilleurs candidats grâce à un reclassement par encodeur croisé. Les méthodes de reclassement permettent de sélectionner les segments et les éléments les plus pertinents pour le modèle à traiter.
Diversité. Dédupliquez des morceaux presque identiques ; préférez un par section pour éviter tout écho.
Requêtes à sauts multiples. Si les questions concernent plusieurs documents, retrouvez-les en deux étapes : planifier → rassembler → répondre.

Un reclassement qui a un coût

Les codeurs croisés améliorent la précision. Utilisez-les avec parcimonie : les encodeurs croisés utilisent des scores de similarité pour classer les documents récupérés et sélectionner les segments les plus pertinents.

Demandes groupées à votre reclassement ; ils sont plus lourds que ceux que vous pouvez récupérer.
Coupez en toute confiance. Si les scores du reclassement tombent d'une falaise, passez moins de morceaux au LLM.
Des solutions de repli. Une fois le reclassement expiré, revenez à l'ordre vectoriel et enregistrez un événement.
Mesurer économies de jetons : moins de morceaux non pertinents → instructions plus courtes → TTFT plus faible.

Des couches de mise en cache qui aident réellement

Cache rapide. Canonisez les invites (supprimez les espaces, normalisez les chiffres). Mettez en cache les instructions courtes du système et les instructions courantes. La mise en cache des invites permet de s'assurer que le modèle utilise systématiquement le contexte fourni pour générer des réponses.
Cache de récupération. Appuyez sur (hachage de la requête + filtres) ; expiration lors de la mise à jour du document.
Cache de réponses. Uniquement pour les questions publiques déterministes. Ajoutez un TTL et invalidez en cas de changement de source.
KV‑Cache lors de l'inférence. Gardez le contexte compact afin que le lot de décodage reste important et que le nombre de jetons/seconde reste élevé.

Budgets de latence et SLO

Répartition du budget. En règle générale pour le chat : récupération + r ≤ 200—300 ms, TTFT ≤ 800 ms p95 dans la région. Lorsque vous respectez ces budgets de latence, le processus consiste à optimiser chaque étape afin de réduire la latence et de gérer les coûts de calcul.
Parallélisme. Exécutez la récupération et le prétraitement en parallèle lorsque cela est sûr. Le traitement parallèle est une technique clé pour réduire la latence.
Enrichissement asynchrone. Des étapes lourdes (résumer, citer) peuvent suivre la première réponse. Cette approche permet de contrôler les coûts de calcul en reportant les opérations gourmandes en ressources.

Métriques d'évaluation : qualité et rapidité combinées

Créez un petit ensemble versionné (50 à 150 requêtes). Le suivi de ces indicateurs est essentiel pour évaluer les performances du système de chiffrage et identifier les facteurs clés qui influencent la qualité et la pertinence des résultats de recherche. Track : Mean Reciprocal Rank (MRR) évalue la qualité du classement en mesurant la rapidité avec laquelle le premier document pertinent apparaît dans la liste classée. Le gain cumulé actualisé normalisé (nDCG) récompense les résultats les plus pertinents figurant en haut de la liste et mesure la qualité du classement dans les systèmes RAG. La similarité sémantique des réponses compare la réponse générée à une réponse de base en utilisant des scores de similarité sémantique. La précision mesure la proportion de documents récupérés qui sont réellement pertinents pour la requête.

Rappelez @k et MRR pour la récupération.
Fidélité: la réponse s'en tient-elle aux sources ?
Ancrage: peux-tu citer le ou les morceaux exacts ?
Latence: TTFT et temps de réponse complet par route.
Utilisation de jetons: jetons d'invite ou de sortie par requête.
Taux d'hallucination: mesure la fréquence à laquelle le modèle génère des informations factuellement incorrectes ou non étayées. Fluency évalue le degré de naturel et de lisibilité de la réponse générée dans les systèmes RAG. Recall mesure la proportion de documents pertinents qui ont été extraits avec succès de l'ensemble de la base de connaissances.

Reclassement A/B et taille des morceaux sur la même évaluation. Promouvez uniquement lorsque les deux qualité et latence améliorer ou maintenir la stabilité.

Opérations : runbooks et observabilité

Métriques. Taux de requêtes, TTFT, TPS, latence de récupération, latence de reclassement, jetons d'invite, jetons de sortie.
Journaux. Identifiants, décomptes et références à la source ; évitez le texte brut par défaut.
Incidents. Explorez les reconstructions d'index vectoriels, les pannes de reclassement et les ruptures de cache. Des défis importants peuvent survenir lors de la récupération des données et du traitement de la requête d'origine, en particulier lors de pannes ou de mises à jour à grande échelle.
Modifications des données. Lors des mises à jour groupées, réintégrez-les par lots ; conservez deux indices pour les swaps bleu/vert. Les frameworks automatisés tels que RAGAS et TruLens fournissent des mesures automatisées pour évaluer la qualité de récupération et de génération dans les systèmes RAG.

Essayez Calculer aujourd'hui

Mettez la génération sur un VllM point de terminaison dans France ou ÉMIRATS. Veillez à ce que les instructions soient courtes, diffusez des jetons et appliquez des limites de sortie. Votre retriever reste rapide ; vos utilisateurs voient les premiers jetons plus tôt.

Avantages et défis

Les systèmes RAG présentent de réels avantages qui méritent d'être pris en compte lorsque vous travaillez avec de grands ensembles de données et des questions complexes. Ils utilisent des bases de données vectorielles et une indexation intelligente pour réduire les temps de réponse. Vous obtenez des réponses plus rapides et plus précises aux questions des utilisateurs. Cette vitesse vous permet d'exécuter des modèles plus grands et de gérer davantage de données, ce qui se traduit par des réponses plus riches et plus utiles. La capacité à traiter des questions délicates et à extraire des informations pertinentes de différentes sources améliore l'expérience utilisateur dans son ensemble. Il élargit également ce que vos applications d'IA peuvent réellement faire. Les systèmes RAG peuvent améliorer de manière significative l'efficacité opérationnelle et les processus de prise de décision dans les organisations.

Mais la mise à l'échelle du RAG n'est pas sans maux de tête. Vous avez besoin de données de haute qualité pour que le système fonctionne correctement. Une mauvaise qualité des données réduira les performances de votre système. Le traitement des requêtes devient compliqué à mesure que vous ajoutez de nouveaux documents et que les utilisateurs posent des questions plus variées. La sécurité devient une véritable préoccupation lorsque vous intégrez des sources de données externes et gérez des extractions à grande échelle. Il existe toujours un risque de violation de données. Les paramètres d'évaluation des systèmes RAG sont encore en cours de définition, ce qui rend difficile la mesure cohérente de la précision de la récupération et du classement par pertinence. L'évaluation humaine peut évaluer des aspects nuancés, tels que la clarté des réponses et l'expérience utilisateur, que les métriques automatisées peuvent ignorer. L'ingénierie rapide et la mise au point de modèles pour des cas d'utilisation spécifiques nécessitent des recherches et des expérimentations continues. Malgré ces défis, les avantages de RAG (rapidité, évolutivité et pertinence) en font un outil puissant pour créer la prochaine génération d'applications d'IA. Environ 25 % des grandes entreprises devraient adopter le RAG d'ici 2030.

Assurez la rapidité de la génération augmentée de récupération grâce à la récupération intelligente et à de courtes instructions

Les petits morceaux propres et la recherche hybride augmentent la mémorisation. L'utilisation d'une invite augmentée peut encore améliorer la capacité du modèle à tirer parti des capacités d'IA lors du traitement de grandes quantités de données. Un système de reclassement à encodeur croisé permet de réduire le bruit. Mettez en cache ce qui se répète, filtrez rapidement et transmettez des segments moins nombreux et de meilleure qualité au modèle. Placez la génération à proximité des utilisateurs, diffusez et capturez les sorties. La transformation des requêtes peut être nécessaire pour les requêtes complexes ou conversationnelles afin d'optimiser les résultats de recherche dans les systèmes RAG. Mesurez le TTFT, la latence de récupération et le nombre de jetons ensemble et laissez ces chiffres guider les modifications. Le test de différentes configurations RAG auprès de sous-ensembles d'utilisateurs permet de mesurer l'impact réel sur l'engagement et la satisfaction.

Dernières pensées

La génération augmentée de récupération (RAG) améliore le fonctionnement des grands modèles de langage. Il vous donne des réponses plus précises et pertinentes à vos questions. RAG associe des bases de données vectorielles à des modèles génératifs pour traiter efficacement les requêtes et extraire des informations récentes et de haute qualité à partir de grands ensembles de données. Vous serez confronté à certains défis : problèmes de qualité des données, traitement complexe des requêtes et modification des paramètres d'évaluation. Mais les avantages en valent la peine : les utilisateurs font davantage confiance aux résultats, le système évolue bien et il gère des applications d'IA sophistiquées.

La recherche sur la génération augmentée par extraction continue de progresser. Les data scientists et les praticiens de l'IA peuvent utiliser ces améliorations pour créer des systèmes d'IA meilleurs et plus fiables. Concentrez-vous sur une préparation rigoureuse des données, une extraction efficace et l'amélioration continue des modèles. Cette approche permet aux organisations de tirer le meilleur parti de RAG et de fournir des informations précieuses aux utilisateurs. Le traitement du langage naturel va changer grâce à des solutions telles que RAG. Ils relient des connaissances statiques à des informations dynamiques du monde réel. Cela transforme la façon dont nous interagissons avec les modèles et les applications d'IA. L'intégration de RAG à des couches sémantiques améliore l'accessibilité et la cohérence des données. Le RAG est un moyen rentable d'améliorer les capacités de l'IA en rendant les systèmes d'IA plus fiables et adaptables.

FAQ

Quelle taille de morceau convient le mieux à RAG ?

Commencez par 200 à 400 jetons avec 10 à 20 % de chevauchement. Réglez à l'aide de votre ensemble d'évaluation et de votre reclassement ; des morceaux plus petits facilitent généralement le rappel. Le système extrait les segments pertinents en fonction du vecteur de requête.

Dois-je toujours utiliser un reclassement ?

Utilisez-en un lorsque la précision est importante et que vous pouvez vous permettre environ 10 à 30 ms par lot candidat. Pour les FAQ simples avec des balises propres, la recherche hybride à elle seule peut suffire. Le reclassement permet de sélectionner les éléments les plus pertinents pour le modèle.

Combien de morceaux dois-je transmettre au LLM ?

Souvent 5 à 10 est suffisant avec un bon reclassement. Un plus grand nombre de morceaux signifie des instructions plus longues et un préremplissage plus lent.

Comment gérer les corpus multilingues ?

Utilisez des intégrations multilingues ou divisez-les par langue et indexez-les séparément. Veillez à ce que la langue du chat soit active dans le système et préférez les sources dans cette langue. Le modèle d'intégration crée une représentation vectorielle pour chaque langue, qui est stockée dans la base de données vectorielles.

Le contexte long est-il plus simple que RAG ?

C'est plus simple mais plus lent et plus coûteux à grande échelle. RAG propose des instructions courtes et vous permet de redimensionner la récupération de manière indépendante.

Comment éviter les réponses périmées ?

Indexez les flux de mise à jour ; réintégrez les documents modifiés ; stockez les horodatages et filtrez les requêtes par date pour éviter les informations obsolètes. Afficher les dates sources dans l'interface utilisateur.

‍

← Back