1,215 lectures

Génération augmentée par la récupération : les hallucinations de l'IA sont terminées !

par DataStax5m2023/08/14

Trop long; Pour lire

La génération augmentée de récupération (RAG) est prometteuse pour accroître efficacement la connaissance des LLM et réduire l'impact des hallucinations de l'IA.

featured image - Génération augmentée par la récupération : les hallucinations de l'IA sont terminées !

Dans le monde en évolution rapide de l'IA, les grands modèles de langage ont parcouru un long chemin, bénéficiant d'une connaissance impressionnante du monde qui nous entoure. Encore LLM , aussi intelligents soient-ils, ont souvent du mal à reconnaître les limites de leurs propres connaissances, un manque à gagner qui les conduit souvent à « halluciner » pour combler les lacunes. Une nouvelle technique, connue sous le nom de (RAG), semble prometteur pour accroître efficacement la connaissance de ces LLM et réduire l'impact des hallucinations en permettant d'augmenter les invites avec des données propriétaires.

Combler le fossé des connaissances dans les LLM

Les LLM sont des modèles informatiques capables de comprendre et de générer un texte de type humain. Ils sont l'IA derrière votre assistant numérique, la fonction de correction automatique et même certains de vos e-mails. Leur connaissance du monde est souvent immense, mais elle n'est pas parfaite. Tout comme les humains, les LLM peuvent atteindre les limites de leurs connaissances mais, au lieu de s'arrêter, ils ont tendance à faire des suppositions éclairées ou à "halluciner" pour accomplir la tâche. Cela peut conduire à des résultats contenant des informations inexactes ou trompeuses.

Dans un monde simple, la réponse serait de fournir au modèle des informations exclusives pertinentes au moment exact où cela est nécessaire, juste au moment où la requête est faite. Mais déterminer quelles informations sont "pertinentes" n'est pas toujours simple et nécessite une compréhension de ce que le LLM a été invité à accomplir. C'est là que RAG entre en jeu.

La puissance des modèles intégrés et de la recherche de similarité vectorielle

Les modèles intégrés, dans le monde de l'IA, agissent comme des traducteurs. Ils transforment les documents texte en une longue liste de nombres, grâce à un processus connu sous le nom de "codage de document". Cette liste représente la "compréhension" interne du LLM de la signification du document. Cette chaîne de nombres est connue sous le nom de vecteur : une représentation numérique des attributs d'une donnée. Chaque point de données est représenté sous la forme d'un vecteur avec de nombreuses valeurs numériques, où chaque valeur correspond à une caractéristique ou un attribut spécifique des données.

Alors qu'une chaîne de nombres peut sembler dénuée de sens pour la personne moyenne, ces nombres servent de coordonnées dans un espace de grande dimension. De la même manière que la latitude et la longitude peuvent décrire un emplacement dans un espace physique, cette chaîne de nombres décrit l'emplacement du texte original dans l'espace sémantique, l'espace de toutes les significations possibles.

Traiter ces nombres comme des coordonnées permet de mesurer la similitude de sens entre deux documents. Cette mesure est prise comme la distance entre leurs points respectifs dans l'espace sémantique. Une distance plus petite indiquerait une plus grande similitude de sens, tandis qu'une distance plus grande suggère une disparité de contenu. Par conséquent, les informations pertinentes à une requête peuvent être découvertes en recherchant des documents « proches » de la requête dans l'espace sémantique. C'est la magie de la recherche de similarité vectorielle.

L'idée derrière la génération augmentée de récupération

RAG est une __ architecture d'IA générative __ qui applique la similarité sémantique pour découvrir automatiquement les informations pertinentes pour une requête.

Dans un système RAG, vos documents sont stockés dans une base de données vectorielle (DB). Chaque document est indexé sur la base d'un vecteur sémantique produit par un modèle d'intégration afin que la recherche de documents proches d'un vecteur de requête donné puisse être effectuée rapidement. Cela signifie essentiellement que chaque document se voit attribuer une représentation numérique (le vecteur), qui indique sa signification.

Lorsqu'une requête arrive, le même modèle d'incorporation est utilisé pour produire un vecteur sémantique pour la requête .

Le modèle récupère ensuite les documents similaires de la base de données à l'aide de la recherche vectorielle, en recherchant les documents dont les vecteurs sont proches du vecteur de la requête.

Une fois les documents pertinents récupérés, la requête, ainsi que ces documents, est utilisée pour générer une réponse à partir du modèle. De cette façon, le modèle n'a pas à s'appuyer uniquement sur ses connaissances internes, mais peut accéder à toutes les données que vous lui fournissez au bon moment. Le modèle est donc mieux équipé pour fournir des réponses plus précises et adaptées au contexte, en incorporant des données propriétaires stockées dans une base de données qui offre la recherche vectorielle comme fonctionnalité.

Il existe une poignée de "bases de données vectorielles" disponibles, y compris , Pour qui recherche de vecteur est maintenant généralement disponible. Le principal avantage d'une base de données qui permet la recherche de vecteurs est la rapidité. Les bases de données traditionnelles doivent comparer une requête à chaque élément de la base de données. En revanche, la recherche vectorielle intégrée permet une forme d'indexation et inclut des algorithmes de recherche qui accélèrent considérablement le processus, permettant de rechercher d'énormes quantités de données en une fraction du temps qu'il faudrait pour une base de données standard.

Un réglage fin peut être appliqué à l'encodeur de requête et au générateur de résultats pour des performances optimisées. Le réglage fin est un processus où les paramètres du modèle sont légèrement ajustés pour mieux s'adapter à la tâche spécifique à accomplir.

RAG contre réglage fin

Le réglage fin offre de nombreux avantages pour l'optimisation des LLM. Mais il a aussi quelques limites. D'une part, il ne permet pas l'intégration dynamique de données nouvelles ou exclusives. Les connaissances du modèle restent statiques après la formation, ce qui le conduit à halluciner lorsqu'il est interrogé sur des données en dehors de son ensemble de formation. RAG, d'autre part, récupère et intègre de manière dynamique des données à jour et exclusives à partir d'une base de données externe, atténuant le problème des hallucinations et fournissant des réponses plus précises sur le plan contextuel. RAG vous donne un contrôle au moment de la requête sur les informations exactes fournies au modèle, ce qui permet d'adapter les invites à des utilisateurs spécifiques au moment exact où une requête est effectuée.

RAG est également plus efficace et flexible en termes de calcul que le réglage fin. Le réglage fin nécessite que l'ensemble du modèle soit recyclé pour chaque mise à jour de l'ensemble de données, une tâche qui prend du temps et nécessite beaucoup de ressources. A l'inverse, RAG ne nécessite que la mise à jour des vecteurs de documents, permettant une gestion de l'information plus facile et plus efficace. L'approche modulaire de RAG permet également d'affiner le mécanisme de récupération séparément, permettant une adaptation à différentes tâches ou domaines sans modifier le modèle de langage de base.

RAG améliore la puissance et la précision des grands modèles de langage, ce qui en fait une alternative convaincante au réglage fin. Dans la pratique, les entreprises ont tendance à utiliser le RAG plus souvent que le réglage fin.

Changer le rôle des LLM avec RAG

L'intégration de RAG dans les LLM améliore non seulement la précision de leurs réponses, mais maximise également leur potentiel. Le processus permet aux LLM de se concentrer sur ce qu'ils excellent dans la génération intelligente de contenu à partir d'une invite. Le modèle n'est plus la seule source d'informations car RAG lui fournit des connaissances propriétaires pertinentes en cas de besoin, et le corpus de connaissances accessible au modèle peut être étendu et mis à jour sans travaux coûteux de formation de modèles.

Essentiellement, RAG agit comme un pont, reliant le LLM à un réservoir de connaissances qui va au-delà de ses capacités internes. En conséquence, il réduit considérablement la tendance du LLM à "halluciner" et fournit un modèle plus précis et efficace pour les utilisateurs.

DataStax a récemment annoncé la disponibilité générale de la capacité de recherche vectorielle dans Astra DB. En savoir plus .

Par Ryan Michael, DataStax

L O A D I N G
. . . comments & more!