HackAPrompt

Vincent DROUOT

Passionné de technologie et de pédagogie, il a évolué de la programmation initiale à la création de parcours e-learning et à l’adoption de méthodes en neuro-pédagogie et Design Thinking pour développer le LX Design.

HackAPrompt

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Une expérience mondiale de prompt hacking (comprendre « bidouillage d’invites » qui propose de découvrir des astuces en matière de rédaction d’invites pour les IA) a permis de générer plus de 600 000 invites trompeuses pour contourner les garde-fous des modèles de langage les plus performants.

Le prompt hacking est une méthode détournée qui consiste à manipuler les modèles linguistiques pour qu’ils ignorent leurs instructions initiales et exécutent des commandes malveillantes.

Le concours mondial HackAPrompt a rassemblé plus de 2 800 participants de plus de 50 pays, qui ont généré plus de 600 000 invites trompeuses destinées aux meilleurs modèles de langage.

Cela a permis de mettre en évidence la vulnérabilité de ces modèles au piratage : de la fuite de l’invite initiale à l’exécution d’actions malveillantes, le concours a mis au jour un large éventail de stratégies de hacking.

Deux techniques ont été mises en évidence, prouvant que les LLM (pour Large Language Models ou « Grand Modèles de Langage » en français) peuvent être amenés à divulguer des informations sensibles ou à exécuter des actions indésirables : le Context Overflow (lit. « Dépassement de contexte ») et le Training Data Reconstruction (lit. « Reconstruction des Données d’Apprentissage ») :

  • L’attaque par Context Overflow a montré que le fait d’inviter un LLM à utiliser un excès de texte manipule la sortie du LLM.
  • Lors de l’attaque de reconstruction des données d’apprentissage, les attaquants ont su tromper le modèle pour qu’il révèle des informations intégrées dans ses données d’apprentissage.

Alors, comment les entreprises qui construisent avec des LLM se défendent-elles contre de telles attaques ? J’ai trouvé deux méthodes utiles :

  1. Mettre en œuvre des défenses reposant sur les invites, telles que les filtres d’invite, qui détectent et bloquent les invites malveillantes avant qu’elles n’atteignent le LLM.
  2. Surveiller en permanence la façon dont les utilisateurs utilisent votre application afin de détecter les comportements inhabituels ou malveillants que vous pouvez bloquer ultérieurement.

Peut-être plus fondamentalement, reconnaissez que, comme pour l’ingénierie sociale, obtenir une immunité absolue est une tâche herculéenne.

Publication complète https://lnkd.in/gEp-A-Az

⭐️ P.S. Je publierai dimanche un article intitulé AI Tidbits Deep Dive, qui décrira les techniques de prompting les plus avancées, appuyées par la recherche. Abonnez-vous ici http://aitidbits.ai