Comprendre les tokens : pourquoi votre prompt coûte ce qu’il coûte
Les LLM ne lisent pas des mots mais des tokens. Comprendre cette unité, c’est mieux maîtriser coût, vitesse et limites.
Un modèle de langage ne manipule pas des caractères ni des mots, mais des tokens : des fragments de texte (souvent 3 à 4 caractères en anglais, parfois un mot entier, parfois une syllabe). « développeur » peut compter pour deux ou trois tokens.
Pourquoi ça compte ? Parce que tout se facture et se mesure en tokens : le prix d’une API, la latence, et surtout la fenêtre de contexte (le nombre de tokens que le modèle peut « voir » d’un coup). Un prompt verbeux coûte plus cher et laisse moins de place à la réponse.
En pratique : comptez ~750 mots pour 1000 tokens en anglais, un peu plus en français. Pour réduire la facture, soyez concis, évitez de recoller tout l’historique à chaque appel, et résumez le contexte quand il gonfle.