RAG : l’architecture qui ancre un LLM dans vos données
Retrieval-Augmented Generation : faire répondre un modèle sur vos documents, sans le réentraîner.
Le RAG combine deux étapes : on recherche les passages pertinents dans votre base documentaire, puis on les injecte dans le prompt pour que le LLM réponde en s’appuyant dessus. Le modèle ne « connaît » pas vos données : on les lui fournit au bon moment.
Le pipeline typique : découper les documents en morceaux, calculer leurs embeddings, les stocker dans une base vectorielle, puis à chaque question récupérer les morceaux les plus proches et les passer au modèle.
Avantage : pas de fine-tuning, des sources citables, des données qui restent chez vous. C’est souvent la première brique d’un assistant interne fiable.