Autotekst – n? med norske spr?kmodeller!

Autotekst, det UiO-utviklede KI-verkt?yet som kan omforme tale til tekst, har n? tatt i bruk norske spr?kmodeller utviklet av Nasjonalbiblioteket. I den nye versjonen kan du ogs? skille mellom forskjellige talere i samme opptak.

Skjermbilde av Autotekst p? skjerm og mobil, med teksten Nasjonalbiblioteket + Whisper fra OpenAI = Autotekst som er enda bedre p? norske dialekter

Spr?kr?det skryter av nyeste versjon av Autotekst.

Etter at Autotekst tok i bruk Nasjonalbibliotekets nye norsk-trente modeller av Whisper, er autotekst blit enda bedre p? transkibering av norsk tale.

?se Wet?s, Direkt?r i Spr?kr?det, sier at de er veldig glade for at UiO har f?tt tilgjengeliggjort disse spr?kmodellene gjennom sin tjeneste Autotekst.

IT-avdelingen p? UiO har hatt tett dialog med Nasjonalbiblioteket i arbeidet fram til april 2024 da vi lanserte ny versjon av Autotekst med to av deres modeller: NB Whisper og NB Whisper Verbatim. Begge modellene trent p? norske data.

Det er ekstra g?y at UiO allerede har f?tt erfaring med at modellene fra Nasjonalbiblioteket bedre forst?r norske dialekter og n? ogs? tilbyr transkribering til nynorsk med vesentlig h?yere kvalitet enn det som modellen fra OpenAI klarer.
?se Wet?s, direkt?r i Spr?kr?det
Direkt?ren i spr?kr?det, ?sa Wet?s og IT-direkt?r Gard Thomassen foran en bokhylle
Direkt?ren i spr?kr?det, ?sa Wet?s, her sammen med IT-direkt?r Gard Thomassen i UiOs nyoppussede bygg Domus Bibliotheca i Karl Johans gate. Spr?kr?det roser UiO for ? v?re tidlig ute med ? ta i bruk norske spr?kmodeller. Foto: Dagfinn Bergsager

Forelesningsvideoer automatisk tekstet

Lovverket krever at all undervisningsvideo skal v?re tilgjengelig og f?lge standardene for universell utforming. Det betyr at videoen tatt opp til bruk i undervisning m? tekstes. Tidligere var dette sv?rt tidkrevende, men n? kan tekstingen gj?res unna p? en br?kdel av tiden. IT-avdelingen ved UiO har utviklet Autotekst, som har blitt et popul?rt verkt?y for transkribering av tekst. Fra oktober 2023 til april 2024 er det transkribert over 31 000 timer med lydopptak i tjenesten. 

P? UiO er Autotekst fra januar 2024 en integrert del av Panopto-videol?sning som brukes for opptak av forelesninger. Det betyr at opptak av forelesninger n? kan bli automatisk tekstet via Autotekst.

Nettskjema har en egen mobilapp for opptak av lyddata. Etter at tjenesten startet ? transkribere alle opptak automatisk, har bruken av diktafonappen ?kt kraftig. Per april 2024 er det over 10 000 aktive diktafoner som i snitt samler inn et opptak i minuttet som sendes til transkribering. 

Om Autotekst

Autotekst er et tekstingsverkt?y som er utviklet og driftet ved IT-avdelingen p? UiO. Verkt?yet benytter seg av KI-teknologien Whisper, og gir sv?rt gode transkripsjoner p? norsk.

Det er beregnet at UiO sparer ca 20 000 000 kroner hvert ?r p? ? bruke Autotekst til teksting av forelesningsvideoer. Mange universiteter og h?yskoler i Norge har tilgang til ? bruke Autotekst og tjenesten er designet for ? transkribere data i kategori r?d - sensitive persondata.

Autotekst kj?rer kun p? servere plassert p? Blindern som driftet av UiO.

Enda bedre transkripsjon av norsk med Nasjonalbibliotekets spr?kmodell

Den nye versjonen av Autotekst, som allerede er tilgjengelig, gir deg mulighet til ? velge hvilken spr?kmodell du vil bruke til transkripsjonen. Tidligere brukte Autotekst Open AI Whisper V2, som er en god modell. N? kan du ogs? velge ? bruke Open AI Whisper V3, som er bedre enn V2. Den viktigste nyheten her er nok NB Whisper, som er Nasjonalbibiliotekets spr?kmodell. Denne er n? tilgjengelig i Autotekst. Med NB Whisper er gjenkjennelsen av norsk talespr?k og norske dialekter bedre enn noensinne. Denne spr?kmodellen er trent opp p? Nasjonalbibliotekets eget spr?kkorpus med norsk spr?k og er ikke begrenset til det Open AI har hatt tilgjengelig til i sine Whisper-versjoner. Dette er unikt i verdenssammenheng. 

Alle spr?kmodellene kan transkribere til engelsk og en rekke andre spr?k, men NB Whisper er n? standardinnstillingen og anbefalt modell i Autotekst n?r spr?ket i opptaket er norsk. Denne modellen klarer ogs? ? transkribere til nynorsk med vesentlig h?yere kvalitet enn det andre modeller klarer.

To viktige nye funksjoner

I tillegg til nye spr?kmodeller, har Autotekst ogs? andre forbedringer. N? er det et tilleggsvalg du kan huke av for, for ? skille mellom talere. Dette er en sv?rt nyttig funksjon hvis det er flere personer som bidrar i opptaket. Da gjenkjenner Autotekst stemmen til de forskjellige talerne, og markerer utsagn fra hver av dem i transkripsjonen. 

Den andre nyvinningen er at du n? ogs? kan velge faktisk og ordrett transkripsjon. B?de Open AI Whisper og NB Whisper utf?rer gjettinger, legger inn tegnsetting og fjerner fyllord. Hvis du for eksempel uttaler et ord utydelig, vil transkripsjonen inneholde det Whisper tror at du sa. Om du bruker fyllord som eh eller hmm og lignende, vil de ikke komme med i transkripsjonen. Dette er i de fleste tilfeller nyttig, men hvis du forsker p? spr?kbruk og trenger faktisk ordrett transkripsjon - kan du n? velge spr?kmodellen NB Whisper Verbatim.  Mange forskere har ?nsket seg en modell som transkriberer akkurat det som blir sagt, og modellen NB Whisper Verbatim er designet for dette form?let. Vi er spent p? hvordan dette blir mottatt av forskere n?r de f?r tatt disse modellene mer i aktiv bruk, sier P?l Fugelli, seksjonssjef for apputvikling p? UiOs IT-avdeling.

Modell deles fritt fra Nasjonalbiblioteket

Seksjonssjef P?l Fugelli. Foto: Marie Wangensteen

Den st?rste nyvinningen i den nye versjonen av Autotekst er NB Whisper. Den er basert p? Open AIs Whisper, men er forbedret med store mengder materiale fra Nasjonalbiblioteket og er den f?rste egentlig norske spr?kmodellen for AI. – Det at Nasjonalbiblioteket deler arbeidet sitt, fritt og ?pent, er en fantastisk gave til alle som jobber med slike l?sninger – og de som bruker dem, sier P?l Fugelli.

– Dette er fordelen med at offentlige institusjoner er med p? utviklingen. Da kommer det alle til gode. Takket v?re NB Whisper tar talegjenkjenning og -transkribering er stort skritt framover. Nye Autotekst med NB Whisper vil spare UiO og de andre brukerne for utrolig mye m?lt b?de i kostnader og i tid, avslutter Fugelli. 

 

Se alle som har avtale om bruk av Autotekst

  • Arkitektur- og designh?gskolen i Oslo
  • Direktoratet for h?yere utdanning og kompetanse
  • Helsedirektoratet
  • HL-senteret
  • H?gskolen i Innlandet
  • H?gskolen i Molde
  • H?gskolen i ?stfold
  • H?yskolen Kristiania
  • H?gskulen p? Vestlandet
  • MF vitenskapelig h?yskole
  • NLA H?gskolen
  • Norges idrettsh?gskole
  • Norges musikkh?gskole
  • NMBU
  • NORCE
  • NTNU
  • OsloMet
  • Patentstyret
  • Politih?gskolen
  • Stiftelsen Handelsh?yskolen BI
  • Universitet i Agder
  • Universitetet i Stavanger
  • Universitetet i S?r?st-Norge
  • Utdanningsetaten
  • VID vitenskapelige h?gskole
  • Universitetet i Bergen
  • Sikt
  • Nord Universitet
  • Norges Handelsh?yskole
  • CICERO Senter for klimaforskning
  • Norges forskningsr?d
  • Fagskolen Innlandet
  • H?gskulen i Volda
  • Fagskolen i Agder
  • NKVTS
Publisert 17. apr. 2024 17:03 - Sist endret 30. apr. 2024 14:27