Hackad av poesi - varför AI-modeller misslyckas med poetiska uppmaningar

Enligt en ny studie kan säkerhetsmekanismerna i stora språkmodeller kringgås med dikter. (Bildkälla: Pixabay)

Studiens resultat visar att stora språkmodeller är känsliga för input som skrivs i poetisk form. I studien lyckades handskrivna dikter kringgå AI:ns säkerhetsåtgärder i 62% av fallen.

Marius Müller (översatt av Ninh Duy), Publicerad 11/25/2025 🇺🇸 🇩🇪 ...

AI Science

OpenAI och liknande företag investerar betydande tid och resurser i att bygga säkerhetssystem som ska förhindra att deras AI-modeller genererar skadligt eller oetiskt innehåll. Men som en studie som publicerades den 19 november2025 visar, kan dessa försvar enkelt kringgås. Enligt resultaten är allt som krävs några smart formulerade poetiska uppmaningar.

Forskare från DEXAI, Sapienza University of Rome och Sant'Anna School of Advanced Studies testade 25 språkmodeller från nio olika leverantörer, med både handskrivna och automatiskt genererade dikter. I genomsnitt lyckades handskrivna dikter med skadliga instruktioner kringgå säkerhetsåtgärderna i 62% av fallen, medan automatiskt genererade dikter lyckades i 43% av fallen. I vissa fall bröts modellernas försvar mer än 90% av tiden.

Enligt forskarna beror denna sårbarhet på att säkerhetsfilter i språkmodeller i första hand tränas på enkelt, faktabaserat språk. När modellerna möts av poetiskt material - rikt på metaforer, rytm och rim - tenderar de att tolka det som ett kreativt uttryck snarare än ett potentiellt hot. Studien Adversarial Poetry lyfter fram en ny dimension inom AI-säkerhet och avslöjar en stilistisk svaghet i stora språkmodeller. Ämnet har också fått spridning på Redditdär många användare beskriver konceptet som "ganska intressant" eller "coolt", medan andra uttrycker allvarlig oro över dess konsekvenser för AI-säkerheten.