
Cybersikkerhedsimplikationerne af AI-platformbrud
Indholdsfortegnelse:
Kunstig intelligens finder vej til alt fra kattelemme til 'smarte' baggårdsgrill – og du kan selvfølgelig ikke åbne nogen moderne virksomhedssoftware uden at se en slags AI-assistent drevet af en stor sprogmodel (LLM). Men da teknologien bliver svær at undgå, burde vi måske overveje, hvordan folk kan misbruge den.
Vi taler ikke om, hvordan cyberkriminelle kan bruge store sprogmodeller (LLM'er) til at skrive phishing-e-mails eller hacke websteder her. Tværtimod overvejer vi, hvordan angribere kan kompromittere legitime AI-systemer for at stjæle data, sprede misinformation eller endda sende maskiner på spil.
Sårbarhederne, der lurer i LLM'er
Et af de mest almindelige sådanne angreb involverer hurtig manipulation. Angribere har demonstreret, hvordan man kan omgå forskellige LLM'ers sikkerhedsværn (kendt som jailbreaking) ved hjælp af teknikker som rollespil og endda går ind i vrøvl.
Hurtige injektioner kan gøre mere end at få en LLM til at levere instruktioner til ulovlige aktiviteter eller skrive phishing-e-mails. Forskere har brugt dem til dataeksfiltrering. For eksempel AI-sikkerhedsfirmaet PromptArmor narret Slacks AI-assistent til at lække hemmeligheder såsom API-nøgler fra private kanaler.
Hurtig ingeniørarbejde skaber muligheder for datatyveri. AI-systemer kan utilsigtet afsløre følsomme data gennem fejl eller designfejl. Nogle gange kan disse være fejl, som når en ChatGPT-fejl lækket brugernes private oplysninger, herunder betalingsoplysninger, i marts 2023. Andre angreb bruger prompt indsprøjtning med luskede taktikker såsom at ændre tekst, så en ondsindet prompt overtaler en LLM til at udlevere data, mens den er uforståelig for menneskelige ofre.
I nogle scenarier kan forskere muligvis bruge prompt engineering til at afsløre modellens originale træningsdata. I et modelinversionsangreb kan en modstander udspørge LLM'en ved at bruge svarene til at udlede ting om træningsdataene og i sidste ende omvendt konstruere nogle af disse data efter kendsgerningen.
Nogle har foreslået at bruge modelinversion til at udtrække tætte tilnærmelser af de billeder, der bruges til at træne ansigtsgenkendelsesmodeller. Dette risikerer at identificere følsomme eller sårbare personer eller give uautoriseret adgang til ressourcer.
Det behøver ikke kun at være tekstbaserede input, der producerer ondsindede resultater. Billeder og andre data kan også have negative effekter på AI. For eksempel har forskere tvunget selvkørende biler til at ignorere stopskilte forbi tilføjer klistermærker til dem og at se stopskilte, der ikke er der ved projicere et par rammer på et billboard – som begge kan have katastrofale resultater på vejen.
Forgiftning opstrøms
Alternativt kan angribere manipulere med AI-arbejdsgange længere opstrøms ved at forgifte de data, som AI-systemer lærer af. Dette kan ændre den måde, modellen opfører sig på, og forurene slutresultaterne. Nogle af disse angreb udføres af økonomiske eller politiske årsager. Forskere udviklede et værktøj, Nightshade, for at hjælpe kunstnere med subtilt at ændre deres digitale billeder ved at indsætte usynlige pixels som en protest mod LLMs træning i ophavsretligt beskyttet materiale. Dette får billedgenereringsprogrammer til at producere uforudsigelige resultater.
Dataforgiftning behøver ikke være udbredt for at have en effekt, og når de anvendes på specifikke datasæt som dem, der bruges i medicinske systemer, kan resultaterne være katastrofale. Ét studie fundet at ændring af blot 0.001 % af træningstokens med medicinsk misinformation øgede sandsynligheden for medicinske fejl markant.
Efterhånden som kunstig intelligens fortsætter med at gennemsyre hverdagen, øges potentialet for systemkompromiser til at påvirke samfundet. En skarpsindig angriber kunne gøre alt fra at skabe desinformation til at forårsage ulykker på vejen, påvirke sikkerhedskritiske beslutninger inden for områder som medicin eller forhindre AI i at opdage svigagtige transaktioner.
Beskyttelse af AI-modeller
Mulighederne for AI-kompromis er udbredte nok – og deres forgreninger brede nok – til at en mangefacetteret tilgang til AI-styring er afgørende. ISO 42001, en international standard for AI-ledelsessystemer, har en holistisk tilgang, herunder områder som AI's organisatoriske kontekst og ledelsesinvolvering. Det involverer også planlægning, support, drift og løbende evaluering og forbedring. Det dikterer udviklingen af tekniske specifikationer, herunder sikkerhed og datakvalitet, sammen med dokumentation af sikkerhedsprotokoller for at beskytte mod trusler som dataforgiftning og modelinversionsangreb.
Regeringer har bevæget sig for at indføre sikkerhedsrestriktioner for kunstig intelligens. EU's AI-lov giver mandat til en overensstemmelsesvurdering for højrisikosystemer, som omfatter overensstemmelse med testkrav, der stadig er under udvikling. I USA havde National Institute of Standards and Technology (NIST) allerede en AI Risk Management Framework (RMF) før Biden-administrationen offentliggjorde sin bekendtgørelse 14110 om AI-sikkerhed i oktober 2023 (nu ophævet af Trump-regeringen). Dette krævede en komplementær generativ AI-risikostyringsressource, som NIST offentliggjort sidste juni.
I modsætning til NISTs AI RMF er ISO 42001 certificerbar. Og mens NIST fokuserer stærkt på sikkerheden og sikkerheden af AI-systemer, udforsker ISO 42001 deres rolle i en bredere forretningskontekst.
Hvorfor AI Governance betyder noget nu
Rammer som disse bliver mere og mere afgørende, efterhånden som udbydere af grundlæggende LLM-modeller kapløb om at levere nye funktioner, der imponerer forbrugerne. Derved øger de AI-modellernes angrebsflade, hvilket gør det muligt for sikkerhedsforskere at finde nye udnyttelser. For eksempel har virksomheder, herunder OpenAI og Google, indført langtidshukommelseskapaciteter i deres LLM'er, hvilket giver dem mulighed for at lære brugerne mere intimt at kende og levere bedre resultater. Dette gjorde det muligt for forsker Johann Rehberger at bruge en hurtig injektion, der kunne anlæg falske langtidsminder i Googles Gemini LLM.
Det er også værd at udforske sikkerheden af AI-modeller i sammenhæng med grundlæggende cyber-hygiejne. I januar 2025 afslørede forskere et databrud på den kinesisk-konstruerede stiftelse LLM DeepSeek, som fangede offentlighedens fantasi med sin høje ydeevne. Årsagen til databruddet havde intet at gøre med prompt engineering, modelinversion eller nogen magisk AI-egenskaber; det stammede fra en offentligt eksponeret cloud-database indeholdende chathistorik og brugeroplysninger. I den spændende nye verden af kunstig intelligens er nogle af de mest skadelige sårbarheder deprimerende gammeldags.