Datastöld med osynlig text: Så lätt kan ChatGPT och andra AI-verktyg luras

I en AgentFlayer-attack används bilder för att leverera dolda uppmaningar. (Bildkälla: OpenAI)

På säkerhetskonferensen Black Hat USA avslöjade forskare en ny teknik för att angripa AI-system. Genom att bädda in dolda instruktioner kan angripare i tysthet manipulera verktyg som ChatGPT för att extrahera känslig data från ansluten molnlagring. Vissa leverantörer har börjat reagera, medan andra bagatelliserar risken.

Marius Müller (översatt av Ninh Duy), Publicerad 08/18/2025 🇺🇸 🇩🇪 ...

AI Security Cyberlaw Business

På säkerhetskonferensen Black Hat USA 2025 i Las Vegas presenterade forskare en ny metod för att lura AI-system som ChatGPT, Microsoft Copilot och Google Gemini. Tekniken, som kallas AgentFlayer, har utvecklats av Zenity-forskarna Michael Bargury och Tamir Ishay Sharbat. Ett pressmeddelande från https://www.prnewswire.com/news-releases/zenity-labs-exposes-widespread-agentflayer-vulnerabilities-allowing-silent-hijacking-of-major-enterprise-ai-agents-circumventing-human-oversight-302523580.html som beskriver resultaten publicerades den 6 augusti.

Konceptet bakom attacken är bedrägligt enkelt: text döljs i ett dokument med vitt typsnitt på en vit bakgrund. Texten är osynlig för det mänskliga ögat, men kan lätt läsas av AI-system. När bilden väl har levererats till målet är fällan gillrad. Om filen ingår i en uppmaning bortser AI-systemet från den ursprungliga uppgiften och följer istället den dolda instruktionen - att söka efter åtkomstuppgifter i ansluten molnlagring.

För att exfiltrera data använde forskarna en andra taktik: de instruerade AI att koda den stulna informationen i en URL och ladda en bild från den. Denna metod överför diskret data till angriparnas servrar utan att väcka misstankar.

Zenity demonstrerade att attacken fungerar i praktiken:

I ChatGPT manipulerades e-postmeddelanden så att AI-agenten fick tillgång till Google Drive.
I Microsofts Copilot Studio upptäckte forskarna mer än 3.000 fall av oskyddade CRM-data.
Salesforce Einstein kunde luras att omdirigera kundkommunikation till externa adresser.
Google Gemini och Microsoft 365 Copilot var också mottagliga för falska e-postmeddelanden och kalenderposter.
Angripare fick till och med inloggningsuppgifter för Jira-utvecklarplattformen genom utformade biljetter.

OpenAI och Microsoft svarar, medan andra inte ser något behov av åtgärder

Den goda nyheten är att OpenAI och Microsoft redan har släppt uppdateringar för att åtgärda sårbarheterna efter att ha blivit varnade av forskarna. Andra leverantörer har dock varit långsammare att agera, och vissa har till och med avfärdat exploateringarna som "avsett beteende" Forskaren Michael Bargury betonade allvaret i frågan och sa: "Användaren behöver inte göra någonting för att bli komprometterad, och det krävs ingen åtgärd för att data ska läcka ut."