Innvilgede utviklingsprosjekter

Teksthuben lyser ut og bevilger midler til sm?skalaprosjekter fire ganger i ?ret. Projekter som har f?tt st?tte annonseres her.

Innholdsfortegnelse

Norsk litteraturkritikk – databaseutvikling

Prosjektansvarlig: Sissel Furuseth
Node: 5 - Databaseutvikling og modeller

Norsk litteraturkritikk er en bibliografisk database som driftes av Universitetsbiblioteket i Oslo i 亚博娱乐官网_亚博pt手机客户端登录 med Institutt for lingvistiske og nordiske studier. Databasen, ogs? kjent som ?Beyer-basen?, har r?tter i forskningsprosjektene Den norske litteraturkritikkens historie 1830–1940 (UiO 1980-1984) og Norsk litteraturkritikks historie 1870–2000: verdiforvaltning og mediering (NTNU 2009-2015), og har de siste f?rti ?rene gjennomg?tt flere tekniske oppgraderinger (se https://ub-baser.uio.no/norsk-litteraturkritikk/historikk). Den digitale utviklingen har synliggjort noen typologiske svakheter ved bibliografien. Metadata og brukergrensesnitt har ikke v?rt godt nok tilpasset behovene til dagens kritikkforskere og -studenter.

I 2019 ble det derfor igangsatt et arbeid for ? kvalitetssikre basestrukturen, fastsette mer relevante metadata, tydeliggj?re typologi, rydde og korrekturlese poster, og lenke enkeltposter til eventuelle fulltekstversjoner i Nasjonalbibliotekets digitale bokhylle. To vitenskapelige assistenter ble engasjert for ? bist? ILNs kritikkforskere, webutvikler og aktuelle fagreferenter ved UBO i dette arbeidet.

Prosjektet befinner seg stadig i en test- og tilbakemeldingsfase. M?let er ? ha etablert en databasestruktur ved utgangen av 2020 som er st?dig nok til at det videre arbeidet kan konsentreres om korrekturlesing og innf?ring av nye poster.

Resultater: ub-baser.uio.no/norsk-litteraturkritikk

International Comparable Corpus (ICC-NO)

Prosjektansvarlig: Signe Oksefjell Ebeling
Node 3 - Skriftspr?kstekst/korpus

The International Comparable Corpus (ICC - https://korpus.cz/icc) er et internasjonalt 亚博娱乐官网_亚博pt手机客户端登录sprosjekt innenfor korpusbasert kontrastiv analyse. Hovedm?let med prosjektet er ? legge til rette for nyskapende kontrastive studier mellom ulike spr?k p? grunnlag av sammenlignbare muntlige og skriftlige datasett. Hvert nasjonale team st?r for datainnsamlingen p? sitt spr?k for ? bygge opp et sammenlignbart korpusmateriale til kontrastive studier. Til dette kreves finansiering til ? bygge opp den muntlige delen.

Den skriftlige delen av korpuset ligger klar for 5 spr?k (engelsk, norsk, tsjekkisk, tysk, fransk). P? sikt vil korpuset med tilgang p? muntlige data danne grunnlag for unik kontrastiv forskning. ICC bygges opp etter modell av the International Corpus of English, som inneholder 1 million ord fra hvert delkorpus med tekster fra en mengde teksttyper fordelt over 60% muntlig og 40% skriftlig spr?kdata. Den relativt store muntlige delen i hvert ICC-delkorpus vil tilf?re en ny og unik dimensjon til feltet kontrastiv lingvistikk. Den norske delen av prosjektet (ICC-NO - https://www.hf.uio.no/ilos/english/services/knowledge-resources/icc-no/) har f?tt NSD-klarering og dataene lagres i TSD. I tillegg har vi et godt 亚博娱乐官网_亚博pt手机客户端登录 med Nasjonalbiblioteket for ? f? tilgang til, og lov til ? bruke, materiale fra radio og TV.
Vi er n? i gang med den muntlige delen av ICC-NO. Dette arbeidet er tidkrevende b?de n?r det gjelder innsamling og tilrettelegging av r?data (transkribering i transkriberingsverkt?yet ELAN). I denne forbindelse s?ker jeg om midler til ? ansette én vitenskapelige assistent med disse arbeidsoppgavene: samle inn og tilrettelegge muntlig materiale for inkorporering i ICC-NO.

Et historisk fullformsystem for analyse av eldre tekster, del 1 tidlig nynorsk og Aasen-normalen.

Prosjektansvarlig: Christian-Emil Smith Ore
Node 4 - Maskinl?ring, annotering (tagging, parsing) og statistikk

Form?let er en utvidet pilot for et historisk-ortografisk fullformsregister i b?yingsparadigmer i Norsk Ordbank-systemet, til bruk for analyse av eldre tekster. Fullformsregisteret vil v?re fritt tilgjengelig for alle p? lik linje med resten av materialet i Ordbanken.

Arbeidet g?r ut p? ? sette opp b?yingsm?nster for verb i Aasen-normalen basert p? Aasens Norsk Grammatik 1864 og Aasens ordbok fra 1873.

Bakgrunn
Verkt?yene som finnes for maskinell analyse av norsk spr?k er lagd med fokus p? nyere norsk. Dette er forst?elig ut fra behovet for spr?kteknologiske applikasjoner som st?tte i hverdagen, men disse verkt?yene er lite brukbare i analyse av norsk tekst fr? f?r 1938. Begge de norske skriftspr?kstandardene har gjennomg?tt store endringer gjennom de siste 150 ?rene. Moderne bokm?l har siden 1907-reformen utviklet seg vekk fra dansk, og grunnlaget for nynorsk, Aasen-normalen fra 1864-1873, skiller seg vesentlig fra moderne nynorsk. Det betyr at desto eldre tekster vi pr?ver ? analysere ved hjelp av eksisterende verkt?y desto d?rligere resultater f?r vi.

Mangelen p? verkt?y er en hemsko i studiet av eldre norsk tekst. Dette merkes godt i arbeidet med den norske delen av Cost Action, CA16204: Distant Reading, som skal bygge opp et korpus/tekstsamling med romantekster fra perioden 1850-1920. Den mer generelle tekstsamlingen til Nasjonalbiblioteket sliter med tilsvarende problemer. For bokm?lstekster fra f?r 1917 vil en antakelig f? best resultater ved ? bruke rene danske analyseverkt?y. For nynorsk finnes det ikke verkt?y som gir brukbare resultater for tekster f?r 1938.

Prosjektet
Vi har i lengre tid sett p? hvordan en kan bygge opp ressurser for ? b?te p? problemene. Vi har bygd opp en basis gjennom Metaordboka og Ordbokshotellet for ? studere den historisk-ortografiske utviklingen i norsk. Dette materialet er registrert med grunnform og ordklasse, som i ordb?ker og ordlister, og har f?tt interessante resultater i et meta-leksikografisk perspektiv. Men til analyse av l?pende tekst en ogs? ha tilgang til de b?yde formene. Vi arbeider derfor med ? bygge opp et historisk fullformsregister som basis for verkt?y for maskinell analyse av (litter?re) tekster i perioden 1880 og fremover. I f?rste omgang konsentrerer vi oss om nynorsk siden det er der manglene er st?rst, men ogs? fordi den beste historiske dokumentasjonen allerede er tilgjengelig for nynorsk.

Den tekniske infrastrukturen for et slikt register er allerede p? plass. Norsk ordbank er et databasesystem for ? holde oversikt over grunnord med kopling til b?yingsparadigmer. Koplingene er merket med normeringsstatus og tidsrommet denne gjelder. Ordbanken inneholder en fullformsgenerator som er brukt i Oslo-Bergen-taggeren og i Bokm?ls- og Nynorskordboka p? nett. Systemet er fleksibelt og modul?rt. Man kan legge til Aasen-normalen uten at det forstyrrer komponentene som gjelder for moderne norsk. Det langsiktige og fulle prosjektet er ? lage et fullformregister for utvalgte ortografiske ?m?lepunkter?. For nynorsk vil det f?rste v?re et sett av oppslagsord i Aasen-normalen og tilh?rende b?yingsm?nstre (paradigmer). B?yingsm?nstrene tas fra samtidige grammatikker og ordlister og annen lingvistisk informasjon.

Fictional dialogues in Norwegian and Italian

Prosjektansvarlig: Elizaveta Khachaturyan
Node: 3 - Skriftspr?ktekst/korpus

I would like to create a pilot Italian-Norwegian parallel corpus. The corpus will include fictional dialogues from: 1) Italian novels and their Norwegian translations; and 2) Norwegian original dialogues and their Italian translations. Fictional dialogues are written reconstructions of spoken language. Studies on this corpus can be connected to studies on spoken language and, hence, to the corpora of Italian and Norwegian spoken language that already exist. To select the novels I will use the following criteria: dialogues in novels written by modern authors (1980-2020) translated recently (2000-2020), addressed to different readership (e.g., children’s books, criminal novels, awarded novels, bestsellers). In addition to the morphological tagging, the replies in dialogues can also be tagged based on pragmatic features (e.g., participants’ properties, type of communicative situation, emotional state). It can be a new additional tool that will be developed in future research. This corpus will be the first Italian-Norwegian parallel corpus and will create many new possibilities of collaboration with Italian universities and research projects. It will provide useful material for teaching Italian at the UiO and at other Scandinavian universities.

Koreferanse-korpus for norsk: en pilot

Prosjektansvarlig: Erik Velldal
Node: 4 - Maskinl?ring, annotering (tagging, parsing) og statistikk

M?let med dette pilotprosjektet er ? utarbeide retningslinjer for annotasjon av koreferanse for norsk tekst og ? annotere en delmengde av Norsk Dependenstrebank i henhold til dette. De annoterte tekstene vil s? kunne benyttes som trenings- og test-data for maskinl?ringsmodeller for automatisk koreferanse-resolusjon. B?de retningslinjene og dataene vil bli gjort ?pent tilgjengelige, og blir de f?rste av sitt slag for norsk. Prosjektet ledes av Erik Velldal og Lilja ?vrelid.

Automatisert analyse av store tekstmengder forutsetter en rekke spr?kteknologiske verkt?y, eksempelvis ulike former for morfologisk og syntaktisk analyse, navnegjenkjenning og sentimentanalyse. For norsk spr?k har vi etter hvert f?tt st?tte for flere av disse verkt?yene, men p? et sentralt omr?de mangler vi fortsatt ressurser for norsk, nemlig koreferanse.

S?kalt koreferanse er helt sentralt for menneskers tolkning av naturlig spr?k da det inneb?rer ? avgj?re hva ulike spr?klige entiteter refererer til. Eksempelvis vil pronomen v?re helt avhengig av ? kobles mot en antesedent i teksten for ? kunne gis en tolkning.

Innenfor spr?kteknologi, er s?kalt koreferanse-resolusjon (alternativt anaforresolusjon) et viktig forskningsfelt, der m?let er ? automatisk bestemme antesedenter for ulike lingvistiske entiteter i tekst. Som regel l?ses dette ved bruk av maskinl?ring, mer spesifikt veiledet l?ring, der man er helt avhengig av manuelt annoterte data til trening og testing av ulike metoder.
Mens man i mange spr?kteknologiske verkt?y kun opererer p? setningsniv?, uten ? ta hensyn til konteksten som setningen inng?r i (f.eks. et dokument eller en dialog), s? er en interessant utfordring ved koreferanse er at analysen n?dvendigvis m? skje p? tvers av setningsgrenser. Vi kan ta f?lgende setninger som eksempel:

`Camilla Stoltenberg uttalte at R-tallet g?r kraftig opp. FHI-direkt?ren viser til at det i oktober har v?rt oppe i 1.3, men hun sier videre at spredningen trolig er langt h?yere i Oslo.'

M?let med koreferanse-resolusjon vil v?re ? kunne identifisere at `Camilla Stoltenberg', `FHI-direkt?ren', og `hun' her har samme referanse. Ved ? manuelt annotere st?rre tekstmengder med denne informasjonen kan man alts? benytte maskinl?ring til ? automatisere slik analyse. Mens slike annoterte data foreligger for en rekke andre spr?k som f.eks. Engelsk, har vi per i dag ingen slike ressurser for norsk.

Nettverksanalyse av Ibsens brev

Prosjektansvarlig: Nina Marie Evensen
Node: 5 - Databaseutvikling og modeller

Vi ?nsker ? tilrettelegge Ibsens samlede korrespondanse for ulike typer analyse og visualiseringer ved hjelp av DH-verkt?y. Dette brevmaterialet inng?r i de digitale ressursene ved Senter for Ibsen-studier og vil egne seg godt for slike analysemetoder, men de trenger bearbeidelse for ? kunne fungere som fullverdig datasett. Vi vil rense og supplere filene med n?dvendige metadata og lage visualiseringer p? grunnlag av dem, som eksempler p? bruk av DH-metoder p? tekstkorpus.

Prosjektet vil resultere i et datasett som vil egne seg godt som pilotmateriale for ? pr?ve ut visualiseringer og digitale analyser av ulike slag, og vil derfor kunne bidra til kompetansebygging b?de i node 1 og 3. Det planlagte arbeidet vil v?re s?rlig relevant for teksthuben ved at det vil etablere et verdifullt datasett og opparbeide kompetanse p? sentrale omr?der innenfor DH. Det vil legge til rette for erfaringsutveksling for andre som ?nsker ? tilrettelegge datasett for nettverksanalyser og grafiske fremstillinger, samtidig som det vil ?pne opp hele brevkorpuset for ? teste ut ulike analysemetoder p? materialet.

F?lelser i PANTERA

Prosjektansvarlig: Diana Santos
Node: 4 - Maskinl?ring, annotering (tagging, parsing) og statistikk

PANTERA er et norsk-portugisisk parallellkorpus som har som m?l ? omfatte utvalg av alle verk som er oversatt mellom de to spr?kene. Korpuset er under arbeid, men har allerede mange tekster, og har alt tjent som grunnlag for en del kontrastive studier. Ett av problemene ved PANTERA er at annoteringen av den portugisisk delen av materialet er mye rikere, slik at det alltid er lettere ? s?ke p? portugisisk. Vi ?nsker ? gj?re noe med dette, n?rmere bestemt p? omr?det 'f?lelser', og vi ?nsker ? ansette en forskningsassistent for ? utvikle et leksikon og regler for ? annotere f?lelser i den norske delen av korpuset ved hjelp av det verkt?yet vi har utviklet.

LangMix Database: flerspr?kiga och flerskriftliga inskrifter fr?n det medeltida Skandinavien

Prosjektansvarlig: Alessandro Palumbo
Node: 5 - Databaseutvikling og modeller

Syftet med projektet ?r att utveckla en databas som ska samla och tillg?ngligg?ra alla flerspr?kiga och flerskriftliga inskrifter fr?n det medeltida Skandinavien, och utarbeta ett gr?nssnitt som ska m?jligg?ra s?kningar i denna korpus. Det epigrafiska materialet fr?n medeltidens Skandinavien omfattar tusentals inskrifter p? olika spr?k, som latin och de nordiska fornspr?ken, och p? olika skriftsystem, fr?mst runor och det latinska alfabetet. M?nga av dessa inskrifter tillh?r tydligt antingen den folkspr?kiga eller den latinska skrifttraditionen, och uppvisar antingen en v?ntad kombination av folkspr?k och runor eller av latin och latinska bokst?ver. Emellertid best?r denna korpus ?ven av texter som uppvisar varierande kombinationer av de ovann?mnda spr?ken och alfabeten. Dessa inskrifter vittnar om det komplexa m?tet mellan de tv? skrifttraditionerna under 1100–1500 och ?r viktiga k?llor till medeltida spr?k- och skriftkontakt, skandinavisk skrifthistoria och medeltida literacy. Trots detta har materialet aldrig samlats p? en och samma s?kbara plattform, vilket har gjort det sv?rt att utnyttja det i forskningen. Dessa flerspr?kiga och flerskriftliga texter unders?ks nu inom Marie Curie-projektet LangMix, d?r de annoteras med avseende p? vilka formulaiska element de inneh?ller, vilka spr?k och alfabet som anv?nds samt betr?ffande inskrifternas datering, proveniens och textb?rande artefakt. Databasen och gr?nssnittet som ska utvecklas tack vare forskningsmedel fr?n Teksthub kommer att g?ra korpusen anv?ndbar till olika forskningssyften, exempelvis belysa m?nster i de spr?k- och skriftval bakom inskrifternas produktion, studera kronologiska och geografiska tendenser i materialet samt variationen kopplad till olika sociokulturella milj?er.

NorDial: A Corpus of Written Norwegian Dialect Use

Prosjektansvarlig: Samia Touileb
Node: 3 - Skriftspr?kstekst/korpus

Norway has a large amount of dialectal variation, as well as a general tolerance to its use in the public sphere. There are, however, few freely available resources to study this variation, its change over time, and in more informal areas, as e.g. on social media.

In this annotation project, we plan to create a corpus of dialectal variation of written Norwegian. We will collect a corpus of tweets and manually annotate them as Bokm?l, Nynorsk, any dialect, or a mix. We will also identify and annotate the dialectal traits which can give us even more insights into the written variations. The annotated corpus and annotations will be made available to the research community, and will later be used to train state-of-the-art Natural Language Processing models, which will also be made available.

This project intends to build on our previous work, where we built a small preliminary corpus for Norwegian Dialects (see https://www.aclweb.org/anthology/2021.nodalida-main.51.pdf for the paper describing our preliminary efforts, and https://github.com/jerbarnes/norwegian_dialect for the data)."

Annotation of historical semantic change test set for Norwegian

Prosjektansvarlig: Andrey Kutuzov
Node: 3 - Skriftspr?kstekst/korpus

Words in human languages change their meaning over time. These changes (diachronic semantic shifts) can be captured automatically. In particular, this is often done by analyzing changes in the behavior of large-scale neural language models trained on texts created in different time periods. There are several survey papers on the topic, an ACL workshop in 2019 and a SemEval shared task in 2020. The findings in these studies are important both for general linguistics and for practical applications like web search and digital humanities.

However, this is mostly done for English and a few other languages. We would like to fill in the lack of annotated data in data-driven detection of diachronic semantic change for Norwegian.

Thus we are organizing the compilation of human-annotated test set of Norwegian words which acquired a new sense or lost an old sense over time. We plan to annotate about 80 words for two time period pairs:

1929:1968 – 1968:2020 (long-term semantic changes)

1980:1990 – 2010:2020 (short term semantic changes).

The sentences will be sampled from publicly available Norwegian corpora, in particular, the NBdigital corpus and the Norsk Aviskorpus.

The creation of this dataset will be an important step for Norwegian language technologies, considering the growing popularity and importance of semantic change detection tasks in the global NLP community. The dataset (and the models trained and evaluated on it) can also be valuable for general linguistics and digital humanities (“culturomics” on Norwegian material, etc).

Ordforsk - nettside som analyserer tekster med Oslo-Bergen-taggeren

Prosjektansvarlig: Anne Golden og Ingebj?rg Tonne
Node: 2 og 3 - Talespr?k/korpus/(automatisk) transkripsjon og Skriftspr?kstekst/korpus

Ordforsk-prosjektet vil gj?re det enkelt ? sammenenlikne ordforr?det i ulike norske tekster produsert av ulike brukere i ulike kontekster. Til dette trengst det ? utvikle et program som studenter (og forskere) enkelt kan bruke for ? tagge og lemmatisere norske tekster (inkl ortografiske transkripsjoner, som ved ELAN).

Et slikt program eksisterer ikke for norsk og det vil gj?re det mulig ? sammenlikne lengre tekster og dermed f?r en (langt) bedre innsikt i ordbruken i norsk. Mye verdifull studentforskning g?r i dag tapt fordi studentene ikke har kapisitet til ? unders?ke lengre tekster.

I prosjektet skal det lages en webside der man kan laste opp tekst (i ulikt format), f? den tagget av Oslo-Bergen-taggeren (http://tekstlab.uio.no/obt-ny/index.html), deretter lemmatisere og s? f? ut diverse nedlastbare frekvenser og statistikk.

NoTaPhon: Phonetic time-alignment of NoTa

Prosjektansvarlig: Nathan Joel Young
Node: 1 og 4 - Talespr?k/korpus/(automatisk) transkripsjon og Maskinl?ring, annotering (tagging, parsing) og statistikk, Databaseutvikling og modeller

This project seeks to pilot an expansion of the NoTa corpus that would result in *time-aligned phonetic annotations*. This sort of annotation has thus far not been performed on Norwegian natural speech, so we wish to perform a trial run that – if successful – would achieve the following two goals:
1. Construct *a brand new dataset for NoTa that contains phonetic annotations* along with time stamps for every phoneme produced. This would enable the first "big-data" acoustic analysis of Oslo Norwegian phonetics and phonology
2. Expand NoTa's existing function. NoTa has up to now only been available for syntactic and discursive purposes. This pilot would *expand* its use into *phonetics and phonology*
3. Share the results with the phonetics research community, which would result in expanding TekstLab's and Teksthuben's impact.

Korpus av Ovansiljanm?len

Prosjektansvarlig: Piotr Garbacz
Node: 2 og 3 - Talespr?k/korpus/(automatisk) transkripsjon og Skriftspr?kstekst/korpus

Syftet med projektet ?r att unders?ka m?jligheten till att utveckla en externfinansierad korpus med transkriberade inspelningar av och skrivna texter p? de sju svenska Ovansiljanm?len (som talas i och omkring orterna Mora, Ore, Orsa Soller?n, Venjan, V?mhus och ?lvdalen i centrala Dalarna). Alla dessa m?l (med undantag f?r ?lvdalsm?let) ?r mycket lite utforskade spr?kvetenskapligt, men bildar en av de mest intressanta germanska dialektgrupperna i Norden som utvecklat sin egenart sedan medeltiden och som uppvisar b?de mycket gamla drag k?nda igen fr?n bl.a. fornnordiska och en rad unika novationer, av vilka flera ?r helt fr?nvarande (eller i b?sta fall mycket s?llsynta) i de ?vriga nordiska dialekterna.

Projektets m?l ?r att kartl?gga det befintliga spr?kmaterialet i form av ?ldre och yngre inspelningar och texter samt unders?ka m?jligheter f?r externfinansiering f?r att utveckla en korpus ?ver talade och skrivna Ovansiljanm?len. En s?dan korpus skulle v?sentligt underl?tta forskning p? dessa sju varieteter, b?de f?r nordiska och internationella forskare, i synnerhet som detta lingvistiska material har ett stort v?rde och som antalet aktiva talare av Ovansiljanm?len har minskat drastiskt de senaste hundra ?ren.

eMunch meets Linked Open Data. Extracting, Enriching, and Exchanging Correspondence Metadata

Prosjektansvarlig: Annika Rockenberger
Node: 1 og 5 - Litteraturlesing med digitale verkt?y og Databaseutvikling og modeller

eMunch Correspondence Metadata-prosjektet er en pilot og case study for det mer omfattende prosjekt “NorKorr - Norske Korrespondanser” som utvikles av s?keren i 亚博娱乐官网_亚博pt手机客户端登录 med forskere ved Nasjonalbiblioteket, Munch Museet, Universitetet i Bergen bibliotek, Universitetet i Trondheim bibliotek, Universitetet i Troms? bibliotek og KODE Bergen.

Pilotprosjektet skal unders?ke og praktisk gjennomf?re i hvorvidt det kan automatisk hentes ut (extracting) metadata som beskriver korrespondanser (brev, telegram, postkort) fra en digital utgivelse laget i XML/TEI P5. eMunch har publisert alle kjente brev fra og til Edvard Munch som del av Munchs tekster. Her kan en s?ke etter enkle brev, lese dem, studere faksimile og s?ke i selve brevteksten. Men for ? kontekstualisere Munch som brevskriver og -mottaker er det n?dvendig ? koble sammen hans korrespondanse med andres, dvs. ? knytte korrespondansemetadata fra eMunch til andre utgivelser av brev og korrespondanser, ikke bare i Norge og Norden, men i Europa og den internasjonale verden. Utgivelsens brevmetadata skal berikes (enriching) med koblinger til Linked Open Data-entiteter som Virtual International Authority File og GeoNames. Det lages dermed en ny XML-fil i Correspondence Metadata Interchange Format (CMIF) som er egnet til ? integrere og tilgjengeliggj?re (exchanging) eMunch i den internasjonale s?ke- og analysetjenesten CorrespSearch.

Transkribus-transkripsjon av Ibsens regnskapsb?ker

Prosjektansvarlig: Nina Marie Evensen
Node: 1, 3 og 5 - Litteraturlesing med digitale verkt?y, Skriftspr?kstekst/korpus og Databaseutvikling og modeller

I perioden 1870-1901 f?rte Henrik Ibsen n?yaktig regnskap over alle sine inntekter og utgifter i to regnskapsb?ker som n? eies av Nasjonalbiblioteket. Disse b?kene har aldri v?rt transkribert og er bare tilgjengelig som digitale faksimiler, til tross for at de er av stor kultur- og litteraturhistorisk verdi. Vi ?nsker ? bruke maskinl?ringsprogrammet Transkribus til ? gj?re dem tilgjengelig som maskinlesbar XML-kodet tekst og etablere et ?konomisk datasett p? grunnlag av informasjonen i dem.

PANDEVAL: Oppbygging av dokumentkorpus over koronakommisjoner og deres tekstlige ringvirkninger i Norge og internasjonalt
Prosjektansvarlig: Hilde Reinertsen
Node: 1, 3, 4, 5 - Litteraturlesing med digitale verkt?y, Skriftspr?kstekst/korpus, Maskinl?ring, annotering (tagging, parsing) og statistikk og Databaseutvikling og modeller

PANDEVAL skal bygge et ?pent korpus med alle eksisterende evalueringsrapporter om nasjonale og overnasjonale myndigheters h?ndtering av coronapandemien. Prosjektet er tilknyttet NFR-prosjektet EVALUNATION og utf?res i 亚博娱乐官网_亚博pt手机客户端登录 med Nasjonalbiblioteket.

Korpuset vil ha to deler som ideelt inneholder f?lgende: (1) Det norske datasettet skal i tillegg til selve rapportene og tilh?rende materiale (oppnevning, mandat, vedlegg, nettside, pressemateriale, lansering etc) inneholde alle tilgjengelige digitale dokumenter knyttet til rapportenes underlag, formelle oppf?lging i storting og regjering/embetsverk, samt mediedekning underveis og etterp?. (2) Det internasjonale datasettet skal inneholde alle eksisterende rapporter og tilknyttede dokumenter og nettsider for formell oppf?lging av rapportene. Begge datasettene skal ideelt sett oppdateres fortl?pende og h?ste materiale ogs? framover.

Form?let med PANDEVAL-korpuset er ? samle og tilgjengeliggj?re dokumenter p? tvers av formater og plattformer, og slik muliggj?re forskning om koronaevalueringer spesielt og myndigheters pandemirespons generelt i Norge og internasjonalt.

NorQuAD: Norwegian question answering dataset for machine reading comprehension
Prosjektansvarlig: Lilja ?vrelid
Node: 4 - Maskinl?ring, annotering (tagging, parsing) og statistikk

Machine reading comprehension is one of the key problems in natural language understanding. The question answering (QA) task requires a machine to read and comprehend a given text passage, and then answer questions about the passage. There is progress in reading comprehension and question answering for English and a few other languages. We would like to fill in the lack of annotated data for question answering for Norwegian.

We would like to organise the compilation of human-created training, validation, and test sets for the task for Norwegian. To our knowledge this would be the first question answering dataset in Norwegian.

Creation of the dataset will be an important step for Norwegian natural language processing, considering the importance and popularity of reading comprehension and question answering tasks in the NLP community.

Kvinnelig Handelsstands Blad i OCR format for DH-analyser
Prosjektansvarlig: Eirinn Larsen
Node: 3 - Skriftspr?kstekst/korpus

"Kvinnelig Handelsstands Blad (1918-1963) i OCR format for DH-analyser " er et prosjekt som ?nsker ? tilrettelegge foreningsbladet til Kristiania / Oslo Kvinnelige Handelsstandsforening (1890-1997) for ulike typer analyse og visualiseringer ved hjelp av DH-verkt?y, og samtidig gj?re materialet digitalt tilgjengelig for allmennheten. Foreningens blad som kom ut i perioden 1918 - 1963 hver andre uke, er arkivert i Asta gjennom Anno-Museum avd. Kvinnemuseet https://www.arkivportalen.no/entity/no-KVMA_arkiv_000000000178?ins=KVMA. Men materialet er ikke digitalisert og allment tilgjengelig. Det er sv?rt synd, fordi KKHF/OKHFs foreningsblad gir unik innsikt i et n?rings- og kvinnepolitisk nettverk som er lite kjent. Spesielt gir bladet innsikt kvinners forretningsvirksomhet, noe som er sv?rt lite utforsket i Norge inntil s?keren begynte ? forske p? dette rundt 2011. Dette resulterte i flere vitenskapelige artikler. Samtidig har materialet som KKHF/OKHF etterlot seg ikke blitt digitalisert slik for eksempel Nyl?nde har, foreningsbladet til Norsk Kvinnesaksforening, (1884-). Det forsterker den skjevheten som eksisterer i fremstillingen av kvinners fortidige liv, og gj?r norske kvinners forretningsvirksomhet i fortiden mer usynlig enn n?dvendig. Dette prosjekter ?nsker ? bidra til ? endre dette gjennom ? OCR scanne materialet slik at det ikke bare blir offentlig tilgjengelig gjennom Asta, men mulig ? utforske ved hjelp av DH-metoder.

Annotasjon av animathet i et norsk skriftspr?kkorpus
Prosjektansvarlig: Anu Laanemets
Node: 2 og 3 -Talespr?k/korpus/(automatisk) transkripsjon og Skriftspr?kstekst/korpus

Form?let med dette pilotprosjektet er ? utf?re en annotasjon av kategorien animathet av nominalfraser i et norsk skriftspr?kkorpus. N?rmere bestemt skal det i rammene av prosjektet utarbeides en manual for annotasjon av animathet og det skal annoteres en andel av Norsk Dependenstrebank (NDT, Nasjonalbiblioteket) i henhold til retningslinjene.
Animathet er en semantisk egenskap ved nominaler som angir om den p?gjeldende entiteten refererer til noe levende eller ikke-levende. Animathet er en helt grunnleggende kategori i alle menneskelige spr?k og den har relevans for mange grammatiske kategorier og syntaktiske funksjoner (bl.a. dativalternering, passiv, kongruens, kasusmarkering m.m.). Overordnet sett kan animathet betraktes som en bin?r kategori (levende : ikke-levende), mens i mer nyanserte tiln?rminger beskrives animathet som et kontinuum eller et hierarki. Et eksempel p? animathetshierarkiet kan v?re som dette: HUMAN > ANIMAT > INANIMAT.

Siden animathet er en sv?rt relevant kategori i menneskelige spr?k og mange spr?klige valg vi foretar oss, er betinget av dette, vil et korpus hvor nominale ledd er annotert for animathet, utgj?re en viktig empirisk basis for ulike forskningsprosjekter. Det ferdigannoterte materialet skal gj?res fritt tilgjengelig for forskningsform?l.

Nyutviklinger for TRAWL-korpuset (Tracking Written Learner Language)

Prosjektansvarlig: Hildegunn Dirdal
Node: 3 og 4, Skrifspr?kstekst/korpus og Maskinl?ring, annotering og statistikk

TRAWL-korpuset er et longitudinelt korpus av tekster skrevet av elever i norsk skole p? de fem st?rste spr?kfagene, dvs. norsk, engelsk, fransk, spansk og tysk. Tekster har blitt samlet inn over flere ?r og en f?rste nettutgave av korpuset ble lansert i februar 2023 og er tilgjengelig for forskere, l?rere og l?rerutdannere: https://tekstlab.uio.no/trawl/. Tekstlaboratoriet ved UiO har tilrettelagt Glossa for korpuset, men det er noen funksjoner vi ?nsker oss som krever nyutvikling. Dette gjelder for det f?rste et system for ? kunne dele opp tekstene og s?ke p? individuelle sjangre, samt ? kunne s?ke p? oppgavekoder og f? opp tekstikoner i vinduet med oversikt over tekster og metadata slik at man kan g? direkte til individuelle tekster derfra (uten ? m?tte bruke en s?kestreng som har treff i teksten). For det andre, trenger vi et program som gj?r det mulig for oss i prosjektet ? selv finne og rette feil i sammenstillingen av originaltekster og rettede tekster slik at vi raskere kan f? utvidet korpuset med de resterende tekstene vi har samlet inn fra skolene.

Integrasjon og 亚博娱乐官网_亚博pt手机客户端登录 i epigrafikk: EpiDoc eksport/import-funksjon for DAMOS, Database of Mycenaean at Oslo

Prosjektansvarlig: Federico Aurora
Node: 5 - Databaseutvikling og modeller

DAMOS (Database of Mycenaean at Oslo, https://damos.hf.uio.no/) inneholder annoterte transkripsjoner av de eldste bevarte gammelgreske tekster (ca. 1350-1150 f.Kr.). Dataene er lagra i en relasjonell MariaDB-database og publisert p? websida https://damos.hf.uio.no/, som har blitt et standardverkt?y i feltet. Dette prosjektet tar for seg ? utvikle muligheta til ? eksportere og importere dataene fra og til DAMOS i EpiDoc-formatet. EpiDoc er et undersett av TEI (Text Encoding Initiative)-standardene for XML-koding av tekster og er standardformatet for den digitale representasjonen av tekster i gresk og latin papyrologi og epigrafikk. Den blir ogs? stadig mer brukt i andre spr?ks epigrafikk (egyptologi, assyriologi, runologi, m.m.). EpiDoc eksport/import-funksjonen har som form?l ?: 1) integrere dataene fra DAMOS i det st?rre landskapet av de greske og latinske dokumentariske kildene ved ? tilgjengeliggj?re dem for gjenbruk i andre databaser i feltet; 2) forenkle arbeidet med oppdateringa av tekstene i DAMOS i anledning nye utgaver og nye funn: den nye import-funksjonen vil gi et langt bedre arbeidsflyt og samtidig st?tte 亚博娱乐官网_亚博pt手机客户端登录et med kollegaer i feltet, sia det vil bli mulig for enhver forsker ? lage en ny versjon av en eller flere tekster uten ? trenge direkte tilgang til DAMOS-databasen. EpiDoc-XML utgj?r ogs? et b?rekraftig alternativ for langtidslagringa av dataene i DAMOS.

Training HTR-Models for a Bilingual Digital Edition of the Ethica Complementoria

Prosjektansvarlig: Annika Rockenberger
Node: 1, 5 og 6 - Litteraturlesing med digitale verkt?y, Databaseutvikling og modeller og Nettdugnad

Prosjektet skal danne datagrunnlag for en tospra?klig digital vitenskapelig utgave av en av de mest popul?re b?kene om 'skikk og bruk' i tidlig moderne Tyskland og Nordeuropa: Ethica Complementoria. Opprinnelig laget pa? tysk, fant boken sin vei til Norden via den danske oversettelsen fra 1678. Denne f?rste danske utgaven skal gis ut i en paralleledisjon sammen med den tyske utgaven som ble benyttet for oversettelsen.

Utviklingsprosjektet er del av et st?rre prosjekt om Ethica Complementorias bok- og revisjonshistorie, ledet av Annika Rockenberger. En sammenstilling og stemmatologisk analyse av alle utgaver har blitt publisert digitalt: http://diglib.hab.de/ebooks/ed000738/start.htm.

Manuell transkribering av to 300+ siders tekster er uaktuelt. Men, klassisk OCR (Optical Character Recognition) leverer altfor da?rlige resultater for eldre trykte b?ker. Derfor skal det testes ut, evalueres og forbedres, og bygges videre pa? NorFraktur-modellen fra Nasjonalbiblioteket. NorFraktur er en HTR modell (Handwritten Text Recognition). Den ble trent opp pa? HTR-algoritmen READ Coop har utviklet for automatisk gjenkjenning av ha?ndskrifter og eldre trykk.

Utviklingsprosjektet bidrar ba?de til en digital vitenskapelig utgave med a?pen tilgang (planlagt som del av Det Norske Spra?k- og Litteraturselskapets utgivelser pa? bokselskap.no), men ogsa? til a? forbedre og utvide en a?pen HTR-modell som gjenbrukes av fagfelleskapet for norske (inkl. danske og tyske) tidlig moderne trykk.

Database of Palestinian Political Thought

Prosjektansvarlig: Erik Skare
Node: 5 - Databaseutvikling og modeller

The Database of Palestinian Political Thought is an Arabic text database containing the most important entries in modern Palestinian political thought. The main aim of the corpus is to facilitate computational text analysis of Palestinian historical texts in order to compare historical and political developments the last century. The database will also be used to further develop computational text analysis of Arabic text.

NDT i Glossa

Prosjektansvarlig: Anu Laanemets
Node: 2 og 3 Talespr?k/korpus/(automatisk) transkripsjon og Skriftspr?kstekst/korpus

Utviklingsprosjektet – NDT i Glossa – har som form?l ? videreutvikle og tilrettelegge s?kegrensesnittet Glossa for ? gj?re den eksisterende spr?kressursen – Norsk Dependenstrebank – lettere tilgjengelig for alle interesserte.

Norsk dependenstrebank (NDT) inneholder en samling av tekster p? moderne norsk (b?de bokm?l og nynorsk). Tekstene er annotert for b?de morfologisk og syntaktisk informasjon, og foreligger i CoNLL-format. Annotasjonene holder en ?gullstandard?, dvs. at den maskinelle annotasjonen er kvalitetssikret og manuelt korrigert av to fagpersoner. P? denne m?ten utgj?r NDT en nyttig spr?kressurs av sv?rt h?y kvalitet som vil kunne benyttes av b?de forskere, studenter og andre spr?kinteresserte i b?de forskning og undervisning. NDT er offentlig tilgjengelig via Nasjonalbibliotekets hjemmeside, men i et format (CoNLL) som er beregnet for datamaskiner, og er vanskelig ? lese og nesten umulig ? s?ke i uten en viss kompetanse i programmering.

Glossa er et sv?rt bra s?kegrensesnitt som tillater b?de enkle og utvidede s?k for ?vanlige? brukere uten spesielle kompetanser i korpuss?k. En siste utvidelse av Glossa inneholder ogs? s?kemuligheter for syntaktiske kategorier som man kan s?ke p? b?de alene og i kombinasjon med PoS-tagger. Dermed vil s?kegrensesnittet Glossa gi mulighet for full utnyttelse av den grammatiske informasjonen som NDT er annotert med. Dessuten kan s?keresultatet i den nye Glossa-versjonen vises som et syntaktisk tre.

NoMusic: Norwegian Multi-Parallel Slot and Intent Detection Corpus

Prosjektansvarlig: Yves Scherrer
Node: 3 og 4, Skriftspr?kstekst/korpus og Maskinl?ring, annotering og statistikk

Over the last decades, extensive research into Norwegian dialects has given rise to a variety of textual resources. We propose to create yet another Norwegian dialect dataset, yet with some unique properties that set it aside from previous work.

We will ask 12 annotators from the major Norwegian dialect areas to translate English sentences into their dialects. This will result in a multi-parallel corpus (i.e. the sentences have the same meaning in all dialects), which can be used for various purposes both in dialectology (e.g., to investigate digital writing practices) and natural language processing (e.g., to enable machine translation between dialects). Since all translations are created during the project, we will be able to make the resource openly available.

As a basis, we will use the xSID corpus, which consists of natural prompts asked to digital assistants (e.g., "Is it going to rain today?", "Change tomorrow morning’s alarm to 6 am.") The utterances are annotated with intents (find_weather, modify_alarm) and slots (today=datetime, rain=weather_attribute, tomorrow morning=datetime, 6 am=datetime). These annotations will be semi-automatically transferred to the Norwegian translations, providing thereby new challenging test sets for dialog system development.

The Norwegian Learner English Corpus (NLEC)

Prosjektansvarlig: Hilde Hasselg?rd
Node: 3 Skriftspr?kstekst/korpus

The project aims to compile a corpus of texts written by Norwegian junior and senior high school students. What will set NLEC apart from most other available learner corpora is that it (i) will include texts written by students at the intermediate level and that it (ii) will include detailed information about the students’ extramural English (EE) activities (i.e., English-language activities that students engage in outside of the classroom). Specifically, the corpus will include information on how many hours per week students spend on the following EE activities: reading, watching audio-visual materials, conversing, using social media, and playing computer/video games. The design criteria of NLEC will follow closely those of some other L2 and L1 English corpora currently being compiled: SLEC (Sweden), CLEC (China), and USEC (US). Together, these comparable corpora will allow us to empirically study relations between the linguistic properties of student texts and various extralinguistic and learner variables. NLEC differs from the Tracking Written Learner Language (TRAWL) Corpus (Dirdal et al., 2022) in that it will comprise EE data that have been collected more consistently than what was done for TRAWL. In addition, NLEC, unlike TRAWL, will in its initial version include texts on one single topic.

Prosjektets nettside.

Creating NorGenEval: a generative evaluation dataset for Norwegian from scratch

Prosjektansvarlig: Andrey Kutuzov
Node: 3 og 4, Skriftspr?kstekst/korpus og Maskinl?ring, annotering og statistikk

The purpose of this project is to create a high-quality prompt-based dataset for evaluation of large Norwegian language models: NorGenEval. Generative language models have become critical in understanding and producing human language. However, the development of such models in Norwegian lags behind, mainly due to the lack of specialized datasets. Specifically, evaluating conversational language models (similar to ChatGPT) requires benchmarking datasets which test language generation capabilities of the model. Unfortunately, no native Norwegian dataset of this type exists now.

Our project seeks to bridge this gap by creating a high-quality and diverse Norwegian resource of prompts and expected responses. Importantly, we here are focusing on creating it from scratch, not relying on machine-translated data and avoiding any influence from similar datasets for other languages. Native Norwegian speakers employed within the project will be asked to brainstorm and “generate” a diverse set of Norwegian tasks with input and output examples. The resulting dataset can be used for evaluating large generative language models.

Publisert 13. nov. 2020 10:05 - Sist endret 10. juni 2024 07:43