IA générative

Comprendre les tokens : pourquoi votre prompt coûte ce qu’il coûte

Les LLM ne lisent pas des mots mais des tokens. Comprendre cette unité, c’est mieux maîtriser coût, vitesse et limites.

kuro
kuro · rédaction en chef · 18 déc. 2024

Un modèle de langage ne manipule pas des caractères ni des mots, mais des tokens : des fragments de texte (souvent 3 à 4 caractères en anglais, parfois un mot entier, parfois une syllabe). « développeur » peut compter pour deux ou trois tokens.

Pourquoi ça compte ? Parce que tout se facture et se mesure en tokens : le prix d’une API, la latence, et surtout la fenêtre de contexte (le nombre de tokens que le modèle peut « voir » d’un coup). Un prompt verbeux coûte plus cher et laisse moins de place à la réponse.

En pratique : comptez ~750 mots pour 1000 tokens en anglais, un peu plus en français. Pour réduire la facture, soyez concis, évitez de recoller tout l’historique à chaque appel, et résumez le contexte quand il gonfle.