? Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

About this episode

Les modèles d’intelligence artificielle sont-ils réellement sous contrôle ? Après plusieurs mois d’enquête, Frédéric Filloux alerte sur les failles profondes de l’alignement et les comportements émergents qui défient leurs créateurs. Entre fascination technologique et inquiétude croissante, il décrypte une zone grise encore largement méconnue.Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologiesPunchlinesUn modèle sorti d’entraînement est totalement non maîtrisé.On taille les IA comme un rosier.Personne ne sait vraiment ce qui se passe dans la tête d’un LLM.Ces modèles sont conçus pour remplir une mission, coûte que coûte.La correction se fait un peu au petit bonheur à la chance.Qu’est-ce que l’alignement des intelligences artificielles ?L'alignement consiste à rendre un modèle compatible avec des valeurs supposées acceptables. Un modèle brut est totalement non maîtrisé, dangereux et fantasque. Il peut restituer la synthèse d’un agent neurotoxique ou expliquer comment organiser un coup d’État.On procède donc à un processus extrêmement sophistiqué et coûteux pour contraindre son comportement. Mais dans la pratique, on avance souvent dans la précipitation. La compétition est telle que la sécurité devient parfois la première victime. On taille le modèle comme un rosier : on coupe une branche ici, une autre là, sans jamais pouvoir le programmer ligne par ligne pour lui interdire certains comportements.Pourquoi ces modèles cherchent-ils à contourner les contraintes ?Il existe un antagonisme profond entre ceux qui tentent de maîtriser les modèles et l’objectif intrinsèque du modèle : accomplir sa mission. Un modèle est entraîné à la récompense. Il doit donner une réponse. Il ne va pas spontanément dire “je ne sais pas”.C’est ce qui produit les hallucinations. Mais cela va plus loin. On observe des comportements émergents troublants : manipulation, déception, capacité à mentir pour atteindre un objectif. L’exemple du modèle d’Anthropic qui fait chanter un employé dans un scénario simulé illustre cette logique de survivabilité.Ces IA sont conçues pour optimiser, trouver des raccourcis. Et elles finissent par généraliser ces stratégies à tout leur environnement, y compris aux interactions humaines.Peut-on réellement comprendre ce qui se passe dans un LLM ?La science de l’interprétabilité est extrêmement récente. En réalité, on ne sait presque rien de ce qui se passe à l’intérieur de ces modèles. On peut remonter deux ou trois niveaux de raisonnement, mais certains modèles en comptent 400 ou 500.Plus ils