ai modstridende trusler blog

Vigtige ting fra NISTs nye vejledning om modstridende AI-trusler

Der er et koncept inden for kunstig intelligens (AI) kaldet "alignment", som sikrer, at et AI-system altid følger menneskelige intentioner og værdier. Men hvad sker der, hvis nogen kompromitterer et AI-system for at gøre noget, som dets skabere ikke ønskede?

Eksempler på denne trussel, kendt som adversarial AI, spænder fra at bære makeup, der bevidst bedrager ansigtsgenkendelsessystemer, til at narre autonome biler til at svinge over vejen. Det er et område med potentiel risiko for AI-systembyggere og deres brugere, men meget af forskningen omkring det er stadig akademisk.

I januar offentliggjorde US National Institute of Standards and Technology (NIST) et dokument, der forsøgte at destillere denne forskning. Det har været et langt projekt. Det første udkast til Modstridende maskinlæring: en taksonomi og terminologi af angreb og afbødninger dukkede op i 2019. Denne seneste version er den sidste, og den kan være et vigtigt grundlæggende dokument for AI-udviklere, der er ivrige efter at indbygge begrænsninger i deres produkter.

Fire typer angreb

Taksonomien opdeler modstridende AI-angreb i flere kategorier:

1) Overgrebsangreb

Disse sker, før modeltræningen overhovedet begynder ved at manipulere med data, før de indsamles - fodre modellen med falske eller manipulerende data designet til at påvirke dens resultater. I modsætning til de andre er denne form for angreb unik for generative AI (GenAI) systemer.

Vi har allerede set nogle innovative eksempler på dette i kampen om intellektuel ejendomsret i GenAI. Nightshade, et projekt fra forskere ved Chicago University, er et værktøj, som kunstnere og illustratorer kan bruge til subtilt at ændre deres arbejde online uden at ændre den visuelle oplevelse for seerne.

Nightshades ændringer får GenAI træningsmodeller til at fejlfortolke objekter i den (den kan for eksempel se en ko som en brødrister). Dette forvirrer GenAI-modeller, der er afhængige af disse træningsdata for at skabe 'nye' kunstværker. Nightshade adresserer, hvad holdet ser som uautoriseret tyveri af data til træningsformål ved at gøre det økonomisk problematisk for GenAI-virksomheder.

2) Forgiftningsangreb

Disse adresserer også AI-træningsprocessen, men på en måde, der bevidst korrumperer allerede indsamlede data for at pervertere den endelige træningsmodel. Vi forestiller os måske, at nogen hacker visuelle data, der bruges til at træne autonome køretøjer, og ændrer eller fejlagtigt mærker billeder af stopskilte og forvandler dem til grønne lys.

3) Unddragelsesangreb

Selvom en AI-model er præcist trænet på de korrekte data, kan angribere stadig målrette mod AI-systemet, efter at det er blevet implementeret. Et unddragelsesangreb retter sig mod dets slutningsproces - handlingen med at analysere nye data ved hjælp af den trænede model - ved at manipulere nye data, som AI-modellen formodes at fortolke. I vores eksempel på autonom kørsel kan nogen tilføje markeringer til stopskilte på gaden, der forhindrer et køretøj i at genkende dem, hvilket får dem til at fortsætte med at køre.

4) Privatlivsangreb

Nogle angreb handler om at høste data i stedet for at forvrænge modellens fortolkning af dem. Et privatlivsangreb ville afhøre en AI-model i inferensfasen for at indsamle følsomme oplysninger fra dens træningsdata. Det har forskere allerede fundet ud af måder at sødsnakke OpenAIs GPT-3.5 Turbo- og GPT4-modeller til at opgive andre brugeres e-mailadresser.

Sådan afbødes disse angreb

NIST-dokumentet tilbyder tekniske afbødende foranstaltninger for at hjælpe med at tackle dette misbrug af kunstig intelligens. Disse omfatter modstridende træning, hvor dataforskere indsætter dataelementer i træningssættet, der forhindrer unddragelsesangreb. Imidlertid har disse typisk afvejninger på områder som træningsmodellens nøjagtighed, indrømmer dokumentet, der beskriver løsninger på disse afvejninger som "et åbent spørgsmål."

De uendelige afbødende foranstaltninger cementerer dette dokuments position som en undersøgelse af akademisk arbejde med modstridende AI og dets destillation til en detaljeret taksonomi, som folk kan bruge til at sikre, at de beskriver de samme ting, når de taler om disse problemer. Det er ikke en guide for praktiserende læger til at adressere den modstridende AI-trussel, advarer Nathan VanHoudnos, seniorforsker i maskinlæring og laboratorieleder ved CERT-afdelingen af ​​Software Engineering Institute ved Carnegie Mellon University.

Skaber bredere kontekst

"Jeg tror, ​​at der ville være plads til at have en mere praktiker-fokuseret guide, nu hvor de har gjort det hårde arbejde med at sammensætte en taksonomi," siger han til ISMS.online. "De ting, som jeg gerne vil se i den slags guider, ville ikke kun være at overveje maskinlæringslaget, men hele stakken af ​​et AI-system."

Denne stak strækker sig ud over datalaget, lige fra den underliggende GPU-hardware til de cloud-miljøer, den opererer i, og de autentificeringsmekanismer, der bruges i AI-systemer, forklarer han.

NIST har allerede taget væsentlige skridt for at hjælpe dem, der implementerer AI, med mere praktiske råd. Instituttet, som oprettede sit troværdige og ansvarlige AI-ressourcecenter i marts 2023, udgav en AI Risk Management Framework i januar 2023 sammen med en playbook designet til at hjælpe med at håndtere et komplet spektrum af individuelle, organisatoriske og sociale risici fra AI.

I begyndelsen af ​​februar 2024 udsendte NIST en RFI, da den søgte hjælp til, hvordan man opfylder sine forpligtelser i henhold til Det Hvide Hus's bekendtgørelse fra oktober 2023 om sikker, sikker og troværdig udvikling og brug af kunstig intelligens. Dette omfatter udvikling af AI-revisionskapaciteter og retningslinjer for AI red teaming.

Selvom oplysningerne om modstridende AI fra NIST indtil videre er mere akademiske, peger VanHoudnos på andre komplementære ressourcer. MITRE har sin Modstridende trussellandskab for kunstige intelligenssystemer (Atlas) initiativ, som samler virkelige teknikker på forskellige stadier af den modstridende AI-angrebskæde, fra rekognoscering til påvirkning.

AI Risk and Vulnerability Alliance, som er en open source-indsats blandt AI-forskere, har også en taksonomi af AI-sårbarheder sammen med en database med specifikke angrebstyper knyttet til den taksonomi (f.eks. AVID-2023-V005: Camera Hijack Attack on Facial Recognition System). En vigtig forskel mellem AVID-taksonomien og NIST's er, at den formelt kortlægger tekniske sårbarheder til højere ordens risici inden for områder som sikkerhed (f.eks. informationslækager), etik (f.eks. misinformation) og ydeevne (f.eks. dataproblemer eller privatlivsimplikationer).

At forbinde de modstridende udfordringer med disse højere-ordens risici er en vigtig del af det nye arbejde med at modne forskning i farerne omkring AI, foreslår VanHoudnos. Når alt kommer til alt, er de samfundsmæssige implikationer af AI-fejl – både bevidst eller på anden måde – enorme.

"Den største risiko [ved AI-systemer] er den utilsigtede skade, de vil gøre," forklarer VanHoudnos. Det kan variere fra ved et uheld lyver til kunder frem til uretfærdigt anklage folk for skattesvig og fælde en regering el at overtale en person til selvmord.

I den sammenhæng nævner han også Center for Sikkerhed og Emerging Technology, som har forsøgt at kategorisere og formalisere disse skader i sin rapport vedr. Tilføjelse af struktur til AI Harm.

Mere arbejde endnu at gøre

NIST-dokumentet er en omfattende undersøgelse af termer og teknikker på området, der vil tjene som et nyttigt supplement til arbejdet, der allerede dokumenterer modstridende AI-risici og sårbarheder i området. VanHoudnos bekymrer sig imidlertid over, at vi stadig har arbejde at gøre med at omfavne disse risici fra en praktiserende læges perspektiv.

"Det var først sidste sommer, at folk for alvor begyndte at tage tanken om, at AI-sikkerhed var cybersikkerhed, alvorligt," afslutter han. "Det tog et stykke tid, før de indså, at AI bare er et program, der kører på computere forbundet til netværk, hvilket betyder, at det er CISO's problem."

Han mener, at industrien endnu ikke har en robust proceduremæssig ramme til at implementere modforanstaltninger. Mellem dem står CMU og SEI op AI Security Incident Response Team (ASIRT), et initiativ rettet mod nationale sikkerhedsorganisationer og den forsvarsindustrielle base, som vil fokusere på forskning og udvikling af formelle tilgange til at sikre AI-systemer mod modstandere.

Denne form for indsats kan ikke komme hurtigt nok, især i betragtning af NIST's påstand om, at "der eksisterer endnu ingen idiotsikker metode til at beskytte AI mod fejlretning." Endnu en gang vil vi sandsynligvis falde i en endeløs kamp med modstandere, når vi beskytter vores AI-systemer mod undergravning. Jo før vi begynder for alvor, jo bedre.

ISMS.online understøtter nu ISO 42001 - verdens første AI Management System. Klik for at finde ud af mere