# NLTK m? importeres i koden # Dette gj?res gjerne i toppen av fila import nltk # Deretter imporerer vi korpusdata som vi vil jobbe med from nltk.corpus import inaugural # Vi tar en titt p? hvilke dokumenter som finnes i dette korpuset # Dokumentene er taler som amerikanske presidenter holdt da de ble innvalgt for dokument in inaugural.fileids(): print(dokument) # Vi tar en titt p? Kennedy sin tale fra 1961. # Dette dokumentet heter '1961-Kennedy.txt'. # Hele talen som ¨Śn sammenhengende streng kennedy_raw = inaugural.raw('1961-Kennedy.txt') # Liste av ord kennedy_ord = inaugural.words('1961-Kennedy.txt') # Liste der hvert element er en setning representert som en liste av ord kennedy_setninger = inaugural.sents('1961-Kennedy.txt') # Disse dokumentene er allerede tokenisert, s? det er enkelt ? finne antall ord antall_tokener = len(kennedy_ord) print('Antall tokener:', antall_tokener) # Unike ord typer = [] for token in kennedy_ord: typer = token.lower() typer = set(typer) # Antall unike ord antall_typer = len(typer) print('Antall typer:', antall_typer)