Température, top-p, top-k : régler la créativité d’un LLM
Trois paramètres contrôlent l’aléa des réponses. Voici ce qu’ils font, concrètement.
À chaque mot généré, le modèle calcule une probabilité pour des milliers de tokens candidats. Les paramètres d’échantillonnage décident comment piocher parmi eux.
Température : proche de 0, le modèle prend presque toujours le token le plus probable (réponses déterministes, factuelles). Plus haut (0,7–1), il ose des choix moins probables (réponses variées, créatives). top-p (nucleus) ne garde que les tokens dont la probabilité cumulée atteint p. top-k limite aux k plus probables.
Règle simple : pour du code ou de l’extraction, baissez la température (0–0,3). Pour de la rédaction ou du brainstorming, montez-la. Ne combinez pas température élevée ET top-p très permissif, sauf à vouloir du chaos.