OpenAI och liknande företag investerar betydande tid och resurser i att bygga säkerhetssystem som ska förhindra att deras AI-modeller genererar skadligt eller oetiskt innehåll. Men som en studie som publicerades den 19 november2025 visar, kan dessa försvar enkelt kringgås. Enligt resultaten är allt som krävs några smart formulerade poetiska uppmaningar.
Forskare från DEXAI, Sapienza University of Rome och Sant'Anna School of Advanced Studies testade 25 språkmodeller från nio olika leverantörer, med både handskrivna och automatiskt genererade dikter. I genomsnitt lyckades handskrivna dikter med skadliga instruktioner kringgå säkerhetsåtgärderna i 62% av fallen, medan automatiskt genererade dikter lyckades i 43% av fallen. I vissa fall bröts modellernas försvar mer än 90% av tiden.
Enligt forskarna beror denna sårbarhet på att säkerhetsfilter i språkmodeller i första hand tränas på enkelt, faktabaserat språk. När modellerna möts av poetiskt material - rikt på metaforer, rytm och rim - tenderar de att tolka det som ett kreativt uttryck snarare än ett potentiellt hot. Studien Adversarial Poetry lyfter fram en ny dimension inom AI-säkerhet och avslöjar en stilistisk svaghet i stora språkmodeller. Ämnet har också fått spridning på Redditdär många användare beskriver konceptet som "ganska intressant" eller "coolt", medan andra uttrycker allvarlig oro över dess konsekvenser för AI-säkerheten.
Topp 10...
» Topp 10: Bästa bärbara allround/multimediadatorerna
» Topp 10: Bästa bärbara speldatorerna
» Topp 10: Bärbara budget/kontorsdatorer
» Topp 10: Bästa bärbara kontors/premiumdatorerna
» Topp 10: Bärbara arbetsstationer
» Topp 10: De bästa små/kompakta bärbara datorerna
» Topp 10: Bästa ultrabooks
» Topp 10: Bästa hybriddatorerna
» Topp 10: Bästa surfplattorna
» Topp 10: Marknadens bästa smartphones


