HON2200 - V?r 2023

Teorisp?rsm?l til eksamen

Under f?lger en liste med teorisp?rsm?l som vi kan stille i tillegg til sp?rsm?l om prosjektoppgavene deres. For alle sp?rsm?l b?r man ogs? kunne svare p? oppf?lgingssp?rsm?let ?hvorfor??.

Gi eksempel p? en pandas kommando som gj?r at du kan se dataframet ditt:

- df.head(), display(df)

Hva brukes Git til?

Git er et system for versjonskontroll av tekst. Det brukes til ? holde kontroll kode. Gj?r at man kan spore n?r endringer har skjedd om hvem som har gjort endringene. Nyttig om koden plutselig ikke virker, fordi man da kan g? tilbake til en tidligere versjon av koden.

Hva forskjellen p? Github og Git?

Github er en tjeneste som tilbyr Git p? internett, slik at man kan lagre kode og 亚博娱乐官网_亚博pt手机客户端登录e p? en enkel m?te.

Hva gj?r train-test-split funksjonen i scikit-learn?

Train-test-split tar all dataen v?r som input og deler den opp i trenings- og test-data. Trenings data til ? trene modellen v?r, og test til ? sjekke hvor god den er p? data som ikke har blitt brukt i tilpasningen av modellen.

Hvorfor gj?r vi train-test-split:

Enkelt forklart gj?r vi dette for ? sikre at modellen v?r er god, ikke bare p? data den har sett, men ogs? data den ikke er trent p?. Kun slik kan vi vite hvor godt den fungerer i praksis.

N?r vi lager en modell basert p? data, setter vi gjerne opp f?lgende likning: \(Y = f(x) + \varepsilon\). Forklar likningen og symbolene.

Ligningen viser den underliggende systematiske sammenhengen mellom x-data (input) og Y-data (output). Sammenhengen er at det finnes en funksjon som tar inn x-data og spytter ut Y-data, til en n?yaktighet p? . Denne funksjonen er alts? f(x) og viser at det kan v?re variasjon utover sammenhengen.
Y : Output
X: input
f(x) : sammenhengen vi ?nsker ? finne
: feil som ikke kan forklares av sammenhengen f(X).
Les mer p? S.16 i pensum (https://www.statlearning.com/)

Hva skiller kategoriske og numeriske data:

Numeriske data er data vi enkelt kan tilordne tall p? en skala som gir mening, kategoriske data er derimot data som tilh?rer ulike kategorier. Vi gj?r dette skille for ? vite hvordan vi skal behandle data, og hvilke modeller vi skal bruke.
Les mer p? S.130 i pensum (https://www.statlearning.com/)

Hvordan kan vi gj?re om kategoriske data slik at de kan brukes i en modell:

Ved ? bruke ?One hot encoding?. Hver kategori f?r sin egen kolonne med tallene 0(false) og 1(true).

Hvilken av line?r- og logistisk-regresjon vil du bruke om du vil predikere kategoriske data?:

Logistisk regresjon.
Siden vi kan tilegne kategoriske data verdiene 0 og 1 for ? representere hver av kategoriene, vil den logistiske funksjonen, som g?r mellom 0 og 1 v?re godt egnet til dette.

Hvilken av line?r- og logistisk-regresjon vil du bruke om du vil predikere numeriske data?:

Line?r regresjon.

Hva m?ler mean squared error:

Hvor stor gjennomsnittlig avstand det er mellom datapunktene vi modellerer, og modellens som pr?ver ? modellere dataene. Dette er et av flere m?l vi kan bruke for ? vurdere hvor god modellen er.
Se mer fra S.29 i pensum (https://www.statlearning.com/)

Er det i logistisk eller line?r regresjon det er mest naturlig ? bruke mean squere error?

Line?r.
Med logistisk regresjon pr?ver vi ? finne riktig klasse, basert p? noe input. Siden dette er et ja nei sp?rsm?l, gir det like mye mening her ? m?le avstander, som i line?r regresjon hvor vi tilpasser en linje/plan eller lignende.

Hvilke egenskaper har sigmoidfunksjonen som gj?r den godt egnet til ? svare p? ja/nei sp?rsm?l:

Den g?r fra 0 til 1, slik at vi kan tilegne ja og nei til 0 og 1.
Den er glatt, vi kan alts? derivere den.
Den forteller oss noe om sannsynligheten for ja/nei

Hva heter de to hypotesene vi m? formulere for ? gj?re en hypotesetest?:

Nullhypotesen (H₀) og alternativ hypotesen (H_a). Alternativ hypotesen er det vi ?nsker ? unders?ke om er sant eller ikke, mens nullhypotesen er det motsatte.
Se mer fra S.553 i pensum (https://www.statlearning.com/)

Hva er de to feilene vi kan gj?re i en hypotesetest:

Type 1 (Vi forkaster H₀, men den er sann) og Type 2 (Vi forkaster ikke H₀, men H₀ er ikke sann)
Se mer fra S.559 i pensum (https://www.statlearning.com/)

Hva forteller p-verdien i en hypotesetest oss?

Sannsynligheten for ? trekke et datasett som er like ekstremt eller mer ekstremt enn det datasettet vil har gitt til en hypotesetest, gitt at nullhypotesen er sann. Sm? p-verdier betyr alts? at datasettet er sv?rt usannsynlig under nullhypotesen.
Se mer fra S.553 i pensum (https://www.statlearning.com/)

Publisert 22. mai 2023 11:15 - Sist endret 23. mai 2023 13:45