This post is also available in: English
Over de seneste to år har danskere fra hele landet doneret deres stemme til et nyt tale-datasæt, som skal forbedre brugen af dansk taleteknologi. Teknologien er i global vækst og vil fremover gøre stemmestyrede hjælpemidler bedre og hjælpe med at effektivisere rutineopgaver som eksempelvis notatskrivning.
Læs også: Alexandra Instituttet fylder 25 år: “Vores vigtigste opgave er at skabe værdi ude i samfundet”
For at taleteknologien fungerer optimalt, kræver den store datasæt, og her har dansk tidligere haltet bagud, da det er et lille sprogområde. Alexandra Instituttet har i samarbejde med flere partnere indsamlet omkring 375 timers dansk tale – en del af en større ambition om at skabe et datasæt på 1.000 timer. Målet er at gøre det til det største danske tale-datasæt til dato, med en bred repræsentation på tværs af køn, alder samt de mange forskellige dialekter og accenter i Danmark.
“En af de unikke aspekter ved datasættet er, at det har en bred repræsentation af hele landet,” siger Dan Saattrup Nielsen, Senior AI Specialist hos Alexandra Instituttet i en pressemeddelelse.
Datasættet kan bruges til mange formål, herunder transskribering og udvikling af høreapparater.
Skal minimere bias i datasæt
Tidligere datasæt har været relativt små og domineret af unge mænd fra storbyerne, hvilket har påvirket nøjagtigheden af talegenkendelse for dem, der taler dialekt, er ældre eller af et andet køn.
“Det betyder, at de modeller, der trænes på datasættet, langt bedre vil være i stand til at håndtere de forskellige måder, som vi taler ude på landet, og dermed minimere de bias, som eksisterende datasæt har,” forklarer Dan Saattrup Nielsen.
Dette vil forbedre teknologier som voicebots i kundeservice og automatiseret notatskrivning i sundhedssektoren. Også virksomheder vil kunne drage fordel af mere præcise automatiske mødereferater. Som en del af projektet har Alexandra Instituttet også udviklet et testdatasæt, der gør det muligt at teste præcisionen af eksisterende talegenkendelsessystemer fra eksempelvis Google og Microsoft på tværs af forskellige faktorer som køn, alder og dialekter.
“Med det kan du teste præcist, hvor gode de systemer er. Det kan hjælpe virksomheder eller det offentlige med at træffe bedre beslutninger om, hvilket system de skal bruge,” siger Dan Saattrup Nielsen.
Det nu frigivne datasæt er den første del af projektet. I løbet af efteråret vil der blive udgivet en anden del med samtaledata mellem to personer, der afspejler mere naturlige samtaler. Projektet sigter mod at udgive op til 1.000 timers data inden for det kommende år, hvilket vil inkludere både oplæsning og samtale.
Fakta om CoRal
CoRal er et initiativ, der har indsamlet over 2.000 danskeres dialekter og accenter for at skabe et omfattende tale-datasæt.
Målet er at få et datasæt med over 1.000 timers dansk tale, repræsenterende alle aldersgrupper, køn og regionale variationer.
Projektet er et samarbejde mellem Alexandra Instituttet, Datalogisk Institut på Københavns Universitet, Alvenir, Corti og Digitaliseringsstyrelsen og har et samlet budget på 22 mio. kr., hvoraf 14 mio. kr. kommer fra Innovationsfonden.
Datasættet kan hentes her.