En data-analyse af 3,5 millioner bøger, som KU har foretaget, viser, at litteraturen giver et kønsstereotypt billede. Og det kan give problemer, når litteraturen bruges til at træne fremtidens kunstige intelligens.

En datalog fra Københavns Universitet har sammen med forskerkolleger fra USA gennemtrawlet en enorm mængde bøger for at finde ud af, om der er forskel på den type ord, mænd og kvinder bliver beskrevet med i litteraturen.

Ved hjælp af en ny computermodel har forskerne analyseret 3,5 millioner bøger udgivet på engelsk i perioden 1900 til 2008. Og analysen viser, at der i litteraturen er et kønsstereotypt mønster: Hvor kvinder beskrives ud fra udseende som “smukke” eller “sexede”, mens mænd beskrives ud fra opførsel som “retskafne”, “rationelle” og “modige”.

“Vi kan tydeligt se, at de ord, der bliver brugt om kvinder, i langt højere grad går på deres udseende end de ord, der bruges til at beskrive mænd. Dermed har vi fået bekræftet en udbredt opfattelse, men nu på et statistisk niveau,” siger Isabelle Augenstein, datalog og adjunkt fra Datalogisk Institut på Københavns Universitet.

Analysen viser også, at negative ord om krop og udseende langt oftere bruges om kvinder end mænd.

Kunstig intelligens får indbygget kønstereotyperne

Selvom mange af bøgerne er udgivet for flere årtier siden, spiller de stadig en aktiv rolle, mener Isabelle Augenstein. De algoritmer, som bruges til at træne kunstig intelligens i at forstå menneskesprog, bliver nemlig fodret med data i form af tekstmateriale, der ligger tilgængeligt på nettet.

“Det, algoritmerne gør, er at identificere mønstre, og hver gang de observerer et mønster, opfattes det som, at noget er “sandt”. Og hvis nogle af disse mønstre refererer til biased sprog, bliver resultatet også biased. Systemerne adopterer så at sige det sprog, vi mennesker bruger – og dermed også kønsstereotyper og fordomme,” siger Isabelle Augenstein.

Læs også: Massiv kønsdiskrimination skæmmer rekordår for investeringer i europæisk tech

Derfor er det også vigtigt, at der er en bevisthed om at teksterne er kønsbiased, i takt med at kunstig intelligens og sprogteknologi vinder mere og mere indpas i vores samfund.

“Dernæst kan vi forsøge at tage højde for det, når vi udvikler maskinlærings-modeller ved enten at bruge mindre biased tekst eller ved at tvinge modellerne til at ignorere eller modvirke bias. Alle tre ting er mulige,” siger hun.

Forskerne påpeger, at analysen har sine begrænsninger, idet den ikke tager højde for, hvem der har skrevet de enkelte passager, og hvorvidt der er forskel på graden af bias, alt efter om bøgerne er udgivet tidligt eller sent i perioden. Derudover skelner den ikke mellem genrer – fx imellem kærlighedsromaner og faglitteratur. Flere af disse ting er forskerne nu i gang med at følge op på.