Hvad er skabelonen til opsummeringen af indholdstræning?
Europa-Kommissionen offentliggjorde for nylig en forklarende meddelelse og skabelon at hjælpe udbydere af generelle AI-modeller (GPAI) med at opsummere det indhold, der bruges til at træne deres modeller. Skabelonen hjælper GPAI-udbydere med at opfylde deres forpligtelser i henhold til artikel 53 i EU's AI-lov, hvilket gør en oversigt over det indhold, der bruges til træning af alle GPAI-modeller, offentligt tilgængelig.
Afgørende er det også endnu et skridt i retning af at opbygge tillid til AI ved at øge gennemsigtigheden i overensstemmelse med forordningens mål.
Selvom resuméet af oplysninger om en GPAI-model, der leveres ved hjælp af skabelonen, er offentligt tilgængeligt, har Kommissionen taget højde for behovet for at beskytte forretningshemmeligheder og fortrolige forretningsoplysninger. Derfor præciserer den forklarende meddelelse, at resuméet skal være "generelt omfattende i sit omfang i stedet for teknisk detaljeret for at gøre det lettere for parter med legitime interesser, herunder indehavere af ophavsret, at udøve og håndhæve deres rettigheder i henhold til EU-retten."
Afsnit et: Generelle oplysninger
Den første del af skabelonen indeholder generelle oplysninger om GPAI-udbyderen og -modellen, herunder udbyderens kontaktoplysninger, versionsbaseret GPAI-modelnavn, modelafhængigheder og datoen, hvor modellen blev bragt i omsætning på EU-markedet. Udbydere skal specificere de modaliteter, der findes i træningsdataene, i det omfang de kan identificeres, herunder:
- tekst
- Billede
- Audio
- Video
- Andet
Udbydere skal specificere størrelsen af træningsdata ved at vælge intervaller inden for den estimerede samlede datastørrelse for hver modalitet. De skal også beskrive indholdstyperne for hver valgt modalitet, for eksempel:
- Fiktionstekst
- Faglitterær tekst
- Videnskabelig tekst
- Fotografering
- Visuelle kunstværker
- infografik
- Billeder på sociale medier
- Musikalske kompositioner
- Lydbøger
- Privat lydkommunikation
- Musikvideoer
- Film
- TV-programmer
- Video Games
- Videoer på sociale medier.
Endelig skal udbydere dele den seneste dato for dataindsamling eller -indsamling til modeltræning og eventuelle yderligere oplysninger om indsamling af træningsdata.
Afsnit to: Datakilder
Den anden, og største, del af skabelonen kræver, at udbydere beskriver specifikke datakilder, der bruges til at træne GPAI-modellen. Organisationer bør specificere modaliteten eller modaliteterne for det indhold, der er dækket af de pågældende datasæt, i hvert afsnit og derefter besvare specifikke spørgsmål for hver type datakilde.
Dette afsnit klassificerer begrebet "datasæt" som en enkelt, præpakket datasamling; data, der er blevet filtreret og præbehandlet fra den samme præpakkede samling, bør ikke betragtes som et nyt datasæt, der skal offentliggøres separat. Hvis et datasæt falder ind under mere end én kategori, bør udbydere vælge den mest relevante kategori.
GPAI-udbydere skal give oplysninger om de datasæt, der bruges til at træne modellen:
- Offentligt tilgængelige datasæt
- Datasæt samlet af en tredjepart stilles offentligt tilgængelige gratis og kan let downloades som en helhed eller i foruddefinerede bidder.
- Private, ikke-offentligt tilgængelige datasæt indhentet fra tredjeparter
- Datasæt kommercielt licenseret af rettighedshavere eller deres repræsentanter.
- Private datasæt indhentet fra andre tredjeparter.
- Data crawlet og scrapet fra onlinekilder
- Crawlede, scrapede data eller data, der på anden måde er indsamlet fra onlinekilder, eksklusive offentligt tilgængelige datasæt, der allerede er dækket.
- Bruger tid
- Brugerdata indsamlet af alle udbyderens tjenester og produkter, eksklusive data licenseret af brugere baseret på kommercielle transaktionsaftaler eller kundedata, med henblik på at finjustere modeller til specifikke formål.
- Syntetiske AI-genererede data
- Data oprettet til træning af modellen på output fra en anden model, såsom AI-feedback gennem forstærkningslæring, eksklusive brugen af AI-modeller til at rense eller berige data.
- Andre datakilder
- Data, der ikke falder ind under nogen af de foregående kategorier, f.eks. data indsamlet fra offlinekilder, selvdigitaliserede medier, datasæt mærket af mennesker bestilt af udbyderen.
Afsnit tre: Aspekter ved databehandling
Den tredje del af skabelonen fokuserer på de foranstaltninger, som udbyderen har implementeret for at identificere og overholde eventuelle forbehold af rettigheder i henhold til undtagelsen eller indskrænkningen for tekst- og datamining (TDM), der er fastsat i artikel 4 i direktivet om ophavsret i det digitale indre marked. Disse foranstaltninger bør også være i overensstemmelse med udbyderens ophavsretspolitik, som krævet i artikel 53 i EU's AI-lov.
Dette omfatter en beskrivelse af de foranstaltninger, som udbyderen har implementeret før modeltræning for at respektere forbehold af rettigheder fra TDM-undtagelsen eller -indskrænkningen:
- Tiltag implementeret før og under dataindsamling
- Fravalgsprotokoller og -løsninger, der overholdes af udbyderen
- Fravalgsprotokoller og -løsninger, der overholdes af tredjeparter, hvorfra datasættene er indhentet.
GPAI-udbydere skal give en generel beskrivelse af de foranstaltninger, de har truffet for at undgå eller fjerne ulovligt indhold i henhold til EU-retten fra træningsdataene. De er dog ikke forpligtet til at videregive specifikke detaljer om deres interne forretningspraksis eller forretningshemmeligheder.
Endelig indeholder skabelonen et valgfrit afsnit, hvor udbydere kan dele andre relevante oplysninger om databehandlingsforanstaltninger, der er truffet før eller efter modellens træning.
Næste trin
For GPAI-udbydere er det afgørende at gennemgå eksisterende GPAI-modeldokumentation og -processer. Som forberedelse til brugen af skabelonen bør organisationer sikre klar intern synlighed af datasætkilder, datasætmodaliteter, størrelser og indholdstyper samt eksisterende databehandlingsforanstaltninger.
Implementering af bedste praksis, såsom dem der er beskrevet i AI-styringsprogrammet ISO 42001-standarden At opbygge et etisk AI-styringssystem (AIMS) kan også bidrage til at øge gennemsigtigheden, reducere AI-risikoen, sikre klar dokumentation og opbygge tillid til en organisation og dens AI-modeller.










