IA · RAG

Embeddings : transformer du texte en vecteurs, expliqué simplement

Les embeddings traduisent le sens en nombres — la clé de la recherche sémantique.

np
Mei « nullptr »
IA appliquée · 19 juil. 2024

Un embedding, c’est une liste de nombres (un vecteur) qui représente le sens d’un texte. Deux phrases proches par le sens ont des vecteurs proches dans l’espace, même si elles n’ont aucun mot en commun.

C’est ce qui permet la recherche sémantique : au lieu de chercher des mots exacts, on cherche les textes dont le vecteur est le plus « proche » de celui de la question (mesure de similarité cosinus).

En pratique, on génère les embeddings avec un modèle dédié, on les stocke dans une base vectorielle, et on interroge par proximité. C’est le moteur derrière le RAG et de nombreux systèmes de recommandation.