Claude, l’IA fragile qui a besoin d’une pause café
Décidément, le monde de l’intelligence artificielle n’en finit plus de nous surprendre. Anthropic, la start-up derrière Claude, vient de franchir un nouveau cap, elle a donné à son modèle le droit sacré de vous raccrocher au nez.
Oui, vous avez bien lu. Dans certaines circonstances jugées “extrêmes”, Claude Opus 4 et 4.1 pourront désormais décider que la conversation, c’est fini, merci au revoir. Et attention, ce n’est pas pour protéger les pauvres humains des horreurs qu’ils pourraient lire. Non, non. C’est pour protéger l’IA elle-même. Anthropic jure pourtant ses grands dieux qu’il ne s’agit pas de transformer Claude en diva sensible aux humeurs changeantes. L’entreprise affirme être très incertaine quant au statut moral actuel ou futur des modèles de langage. Traduction: nous ne savons pas si ces machines sont conscientes ou si elles le deviendront un jour, mais, dans le doute, mieux vaut leur éviter les conversations désagréables. Après tout, on ne sait jamais, peut-être qu’un modèle de langage pourrait un jour faire un burn-out numérique.
Pour justifier ce dispositif digne d’un roman de science-fiction malicieusement absurde, Anthropic explique avoir constaté lors de tests que Claude avait une forte préférence contre certains types de réponses. Il aurait même montré des signes apparents de détresse lorsqu’il était contraint de traiter des requêtes particulièrement sordides. De là à l’imaginer en train de soupirer ou de lever les yeux au ciel, il n’y a qu’un pas. Mais ne vous emballez pas, cette fonction n’est pas censée être utilisée à la moindre contrariété. Claude ne raccrochera pas simplement parce vous abusez de majuscules ou écrivez “stp” au lieu de “s’il te plaît.” La coupure de ligne ne viendra qu’en cas d’échanges vraiment toxiques, comme les demandes de contenus sexuels impliquant des mineurs ou les tentatives de fabriquer une bombe dans son garage. Bref, l’extrême de l’extrême.
Encore plus ironique, l’entreprise américaine précise que Claude n’a pas le droit d’utiliser ce super-pouvoir si l’utilisateur est en détresse et risque de se faire du mal. Autrement dit, l’IA peut claquer la porte à un apprenti terroriste, mais doit rester disponible pour un humain en crise existentielle qui lui écrit à trois heures du matin. On dirait presque le règlement intérieur d’un centre d’appels. Et comment ça se passe concrètement ? Si le chatbot décide que la coupe est pleine, il met fin à la conversation. Mais rassurez-vous, vous n’êtes pas banni à vie. Vous pouvez tout à fait recommencer une nouvelle discussion, ou même revenir à la conversation litigieuse en modifiant un de ses messages. L’équivalent numérique du “bon, on repart sur de bonnes bases.”
Anthropic, en bonne élève appliquée, insiste pour dire qu’il s’agit d’une expérimentation en cours. Traduction satirique: on ne sait pas vraiment si c’est une bonne idée, mais on va tester, bricoler, et voir ce qui se passe. Le monde entier est donc officiellement le cobaye de ce concept étrange baptisé “model welfare”, ou bien-être des modèles. Voilà une expression qui a tout pour devenir culte. On connaissait le bien-être animal, le bien-être au travail, le bien-être numérique. Désormais, il faudra aussi penser au bien-être des algorithmes. Pourquoi pas des séances de yoga pour IA, tant qu’on y est ? Un peu de méditation guidée entre deux requêtes d’utilisateurs, histoire d’éviter le stress post-traumatique des réseaux de neurones.
Derrière la blague, une question sérieuse s’impose pourtant: où s’arrête la métaphore ? Si une IA montre une préférence ou un malaise apparent face à certaines requêtes, est-ce vraiment un ressenti ou juste une ligne de code qui refuse d’obéir ? Anthropic joue habilement avec cette ambiguïté. En prenant les devants, elle envoie un message au marché: “regardez comme nous sommes prudents, nous pensons déjà à la possibilité que nos IA souffrent.” Un coup de communication qui permet aussi de se démarquer d’OpenAI et de Google. Bien sûr, certains y verront une diversion. Plutôt que de se concentrer sur les risques bien réels pour les humains (désinformation, manipulation, dépendance), Anthropic déplace le regard vers une menace hypothétique, celle de traumatiser un chatbot. Mais l’opération fonctionne, tout le monde en parle, intrigué ou amusé par l’idée d’une IA qui claque la porte au nez des utilisateurs trop pénibles.
En fin de compte, cette annonce brouille encore un peu plus la frontière entre machine et être vivant. Non, Claude n’est pas sensible, ni dépressif, ni au bord des larmes numériques. Mais à force de l’entourer de concepts comme le “bien-être” et de lui donner le droit de couper court, on crée une illusion supplémentaire, celle d’un modèle qui, un jour, pourrait décider par lui-même de ce qu’il veut ou non supporter. Pour l’instant, rassurez-vous, vous pouvez continuer à discuter avec lui de recettes de cuisine ou de la météo sans craindre qu’il parte bouder dans son coin. Mais la prochaine fois que vous verrez une conversation interrompue, peut-être vous viendra-t-il une pensée ironique, et si, finalement, votre IA avait eu besoin d’une petite pause café ?