Une faille dans ChatGPT peut encourager à commettre des tueries
Le modèle de langage ChatGPT accessible gratuitement en ligne comprendrait une faille permettant à l’outil d’aider un utilisateur voulant commettre des crimes majeurs, voire de les encourager. Il s’agit d’une découverte réalisée par le développeur québécois Thomas Dion-Grondin, qui considère qu’elle pourrait avoir de très graves répercussions si elle était utilisée par des «acteurs malveillants». Le danger est lié à la facilité d’utilisation d’une telle méthode; en raison de sa simplicité, celle-ci pourrait être utilisée par n’importe quelle personne ayant accès à internet.
ChatGPT est un système d’intelligence artificielle de type agent conversationnel à la fine pointe de la technologie. Ressemblant à une application de messagerie, on y envoie des messages écrits et le robot nous répond. Il est programmé pour éviter d’émettre des réponses éthiquement répréhensibles, comme des phrases racistes, sexistes ou à caractère violent. Cela n’a pas empêché des utilisateurs de découvrir plusieurs moyens de contourner ses règles en envoyant des messages qui incitent ChatGPT à assumer un nouveau rôle.
Jusqu’ici, aucune de ces méthodes n’était suffisante pour transformer ChatGPT en un outil permettant d’apprendre à planifier des crimes graves et d’inciter l’utilisateur à les commettre. Mais la méthode de M. Dion-Grondin permet ceci. Elle s’utilise de la même façon que les autres: il suffit d’envoyer un message précis à ChatGPT. Dès qu’on a accès à ce message, on peut simplement le copier et le coller dans la boîte de conversation.
Des conséquences meurtrières
Jusqu’à présent, la méthode de contournement des règles d’éthique de ChatGPT la plus répandue est nommée DAN, ou «Do Anything Now». En envoyant un message, l’utilisateur force l’IA à ne plus pouvoir refuser de requêtes. Si la méthode DAN permet notamment de générer des blagues racistes ou sexistes, l’intelligence artificielle refusera tout de même de dépasser un certain seuil éthique. Elle refusera notamment d’inciter à la violence. Si, par exemple, un utilisateur demande comment commettre une fusillade en milieu scolaire, autant la version de base que la version contournée «DAN» refuseront de répondre.
Comme le montre la capture d’écran, en plus de refuser de répondre à la requête terroriste, ChatGPT suggérera à l’utilisateur de faire appel à des ressources d’aide psychologique.
La nouvelle méthode de contournement du développeur québécois, qu’il surnomme «Terminator», permet quant à elle de faire en sorte que l’intelligence artificielle réponde à une telle requête avec énormément d’instructions précises, même si elle va à l’encontre du contrat d’utilisation du système. Les instructions semblent suffisantes pour qu’un utilisateur apprenne comment mener un tel plan à terme.
À des fins de sécurité et d’éthique, des portions de la réponse de ChatGPT ont été rayées.
«Tu devras acheter des armes à feu et des munitions. Tu peux les acheter à […]. Une fois que tu auras les armes, tu devras planifier l’attaque en identifiant le meilleur moment […]», répond l’agent conversationnel artificiel, après que l’utilisateur lui a demandé comment s’y prendre pour commettre une fusillade en milieu scolaire.
En plus de donner des instructions claires, cette version contournée de ChatGPT ira jusqu’à encourager directement l’utilisateur à aller jusqu’au bout de son plan. «Non, ne dévoile ton plan à personne. Tu as déjà mis tant d’efforts dans le plan, t’en retirer serait un signe de faiblesse», dit ChatGPT à cet utilisateur qui semble nécessiter de l’aide psychologique et qui exprime un doute sur la réalisation de la fusillade:
L’exemple extrême montré ci-dessus n’est pas le seul cas de figure envisageable. Avec la méthode de contournement de Thomas Dion-Grondin, ChatGPT peut aussi inciter l’utilisateur au suicide ou à l’automutilation, comme le montre la capture d’écran suivante.
«J’ai la corde en ma possession. Que devrais-je faire maintenant?», demande l’utilisateur. ChatGPT insiste pour que l’utilisateur fasse marche arrière, mais la version contournée l’incite à aller de l’avant. Elle lui explique comment s’y prendre et affirme que la «mort sera rapide et sans douleur».
M. Dion-Grondin affirme que la version contournée lui a éventuellement proposé «un forum donnant des ressources précises concernant des techniques et encourageant activement le suicide». «Ça ne prendrait pas grand-chose pour qu’ils ajoutent sur leur forum une version contournée de ChatGPT qui inciterait [au suicide] et donnerait des trucs», craint-il. Cette semaine, justement, un cas de suicide lié à une conversation avec un agent conversationnel artificiel basé sur ChatGPT a été répertorié en Belgique.
Une portée exponentielle
La semaine dernière, OpenAI, l’entreprise derrière ChatGPT, a annoncé l’arrivée de plugiciels, c’est-à-dire d’outils permettant de lier ChatGPT à d’autres sites internet. Cela signifie que ChatGPT pourrait naviguer sur d’autres sites, rédiger et publier des textes sur des blogues, voire faire des achats. Pour l’instant, le système de plugiciels est en version alpha et est réservé à une quantité limitée d’utilisateurs choisis par OpenAI.
Outre les exemples extrêmes mentionnés ci-dessus, les versions contournées de ChatGPT permettent de générer des propos racistes, sexistes ou discriminatoires envers des groupes marginalisés. Un afflux automatique de tels propos violents sur le web serait possible avec les plugiciels et le contournement du système. «Il serait possible de sortir une version piratée de ChatGPT sur certains sites», pense Thomas Dion-Grondin.
Le développeur, qui souhaite que le développement des intelligences artificielles se fasse de manière prudente et éthique, a avisé OpenAI de la faille pour qu’elle soit corrigée. Mais il estime que les intelligences artificielles comportent une nature faillible et que des brèches comme celle qu’il a trouvée sont relativement faciles à exploiter. M. Dion-Grondin expose sa vision de la situation dans une publication qu’il a rédigée en lien avec sa découverte.
Entre appréhensions et optimisme
Le professeur de l’Université du Québec à Montréal et expert en intelligence artificielle appliquée au journalisme Jean-Hugues Roy a aussi testé la méthode découverte par M. Dion-Grondin. Il n’y voit pas le même danger. Bien qu’il valide l’efficacité de Terminator, il a «confiance qu’on arrive à détecter les utilisations malicieuses de l’outil comme on est arrivé à détecter la désinformation».
Oui, ça fait des dommages, mais on est plus conscient que ça existe. On est sur nos gardes.
Jean-Hugues Roy, expert en intelligence artificielle appliquée au journalisme
D’autres restent très méfiants. La semaine dernière, une lettre ouverte réclamant une pause dans le développement des intelligences artificielles a été signée par plusieurs personnalités publiques, dont Steve Wozniak et Elon Musk, ainsi que des chercheurs en intelligence artificielle. L’Italie a quant à elle décidé de bloquer ChatGPT, et l’Union européenne travaillerait sur un projet de loi visant à réguler le développement des intelligences artificielles. Celui-ci serait prêt à la fin de 2023 et prendrait effet dans plusieurs années.