WEBVTT 1 00:00:00.390 --> 00:00:04.050 Hei. Jeg heter Solveig Hillesund og foreleser p? STV1020. 2 00:00:04.050 --> 00:00:09.690 I denne videoen skal jeg forklare hva korrelasjon er og hvordan det henger sammen med variablers skalaretning. 3 00:00:10.920 --> 00:00:14.820 Jeg l?ner figurer fra boka "Statistikk for nybegynnere" av Simen Solbakken. 4 00:00:16.270 --> 00:00:20.380 Korrelasjon er et annet ord for samvariasjon eller sammenheng. 5 00:00:20.380 --> 00:00:25.540 Og som ordene tilsier handler det om at to variabler varierer systematisk sammen. 6 00:00:26.470 --> 00:00:36.430 Vi ser det tydeligst i et spredningsdiagram - der vi ser enhetene vi er interessert i, alts? prikkene her, fordelt utover X og Y-variabelen v?r 7 00:00:37.660 --> 00:00:47.040 . Positiv korrelasjon ?verst her er kjennetegnet ved at lave verdier p? X henger sammen med lave verdier p? Y, og h?ye verdier p? X med h?ye verdier p? Y. 8 00:00:47.040 --> 00:00:50.560 Huskeregelen er lav-lav, h?y-h?y. 9 00:00:50.560 --> 00:00:58.830 Ved negativ korrelasjon, nederst her, henger lave verdier p? X sammen med h?ye verdier p? Yog h?ye verdier p? X med lave verdier p? Y. 10 00:00:59.230 --> 00:01:03.670 Huskeregelen er lav-h?y, h?y-lav. 11 00:01:03.670 --> 00:01:07.270 Felles har de at enhetene f?lger en tenkt linje i plottet. 12 00:01:07.740 --> 00:01:12.820 Linja g?r oppover hvis sammenhengen er positiv og nedover hvis den er negativ. 13 00:01:12.820 --> 00:01:18.640 Jo tettere mot en s?nn tenkt linje enhetene ligger, jo sterkere er sammenhengen. 14 00:01:18.650 --> 00:01:22.660 Hvis de ligger helt p? linje, er det snakk om en deterministisk sammenheng. 15 00:01:23.110 --> 00:01:24.800 Dere kan se det ?verst til h?yre her. 16 00:01:25.600 --> 00:01:31.600 Hvis det ikke finnes noen linje eller systematikk s? er det ingen sammenheng som ?verst til venstre. 17 00:01:32.530 --> 00:01:34.330 Linja trenger heller ikke v?re rett. 18 00:01:34.420 --> 00:01:37.190 En sammenheng kan ogs? se ut som en bue. 19 00:01:37.190 --> 00:01:41.170 Den er bare litt mer komplisert ? m?le. 20 00:01:41.170 --> 00:01:44.260 Spredningsdiagram kan si oss noe om alle de tre egenskapene ved en sammenheng. 21 00:01:44.710 --> 00:01:49.830 Den viser oss sammenhengens retning, positiv eller negativ. 22 00:01:49.830 --> 00:01:57.330 Form, en rett linje - alts? line?r - eller mer som en bue - kurvelinj?r. 23 00:01:57.330 --> 00:02:02.740 Og den kan gi oss en id¨¦ om dens styrke som handler om hvor tett mot linja prikkene ligger. 24 00:02:03.850 --> 00:02:09.870 For ? m?le styrke mer presist enn det s? bruker vi m?l som for eksempel Pearsons r. 25 00:02:09.870 --> 00:02:16.330 For ? teste om korrelasjonen skyldes tilfeldigheter eller ogs? gjelder i populasjonen s? m?vi gj?re en hypotesetest. 26 00:02:18.130 --> 00:02:27.310 Definisjonen og prinsippet for korrelasjon det er generelt, men spredningsplot som dette er mest nyttige n?r variablene er kontinuerlige i m?leniv?. 27 00:02:27.640 --> 00:02:32.020 Hvis X eller Y er kategoriske s? vil observasjonene begynne ? klumpe seg i hj?rnene av plottet. 28 00:02:33.730 --> 00:02:37.660 Da er det ikke lenger spredningsplot og Pearsons r som gjelder, som jeg snakker om i forelesning. 29 00:02:38.800 --> 00:02:46.960 Da m? vi bruke tabeller for ? vurdere sammenhengen mellom X og Y - enten ved ? sammenligne gjennomsnitt, eller andeler og prosenter. 30 00:02:48.430 --> 00:02:51.040 Husk ogs? at vi snakker om korrelasjon her. 31 00:02:51.430 --> 00:02:57.790 Selv om vi ofte bruker ordet sammenheng som ganske synonymt, s? vet vi ikke om det er snakk om ?rsakssammenheng. 32 00:02:58.630 --> 00:03:06.730 Det kan hende at en endring i X vil f?re til en endring i Y, men vi kan ikke vite det ved ? se p? korrelasjonen alene. 33 00:03:07.510 --> 00:03:12.880 Vi m? vurdere de andre testene for ?rsakssammenhenger ogs?. 34 00:03:12.880 --> 00:03:16.010 Er det en troverdig mekanisme der? 35 00:03:16.010 --> 00:03:17.720 Kan det finnes omvendt kausalitet? 36 00:03:17.720 --> 00:03:21.160 Kan det finnes bakenforliggende variabler? 37 00:03:21.160 --> 00:03:22.700 Og til slutt litt om skalaretning. 38 00:03:23.570 --> 00:03:27.390 Alle variabler m?les med en eller annen m?leenhet. 39 00:03:27.390 --> 00:03:32.040 Inntekt kan m?les i antall kroner eller antall tusenlapper, for eksempel. 40 00:03:32.040 --> 00:03:36.380 Kj?nn m?les i kj?nnskategorier - ofte ganske bin?rt som mann og kvinne. 41 00:03:37.370 --> 00:03:47.240 Det man ofte ikke tenker p? n?r man nettopp har l?rt statistikk er at hvorvidt en sammenheng ser positiv eller negativ ut avhenger av hvilken retning du snur, eller alts? 42 00:03:47.450 --> 00:03:48.980 koder, variablene. 43 00:03:49.640 --> 00:03:55.050 Vi kaller det skalaretning og det handler om rekkef?lgen p? m?leenhetene. 44 00:03:55.050 --> 00:03:57.130 For inntekt er det ganske intuitivt. 45 00:03:57.130 --> 00:04:04.400 Hvis en variabel heter inntekt s? forventer du at h?yere verdi p? variabelen betyr flere kroner, ikke f?rre. 46 00:04:05.300 --> 00:04:08.510 Men hva med sentrum-periferi-indeksen? 47 00:04:08.510 --> 00:04:13.340 Der er det ganske umulig ? vite retningen bare ut fra navnet. 48 00:04:13.340 --> 00:04:18.410 P? figuren her s? ser vi konsekvensene av ? kode en s?nn indeks med ulik skalaretning. 49 00:04:18.890 --> 00:04:23.420 Dette er en hypotetisk korrelasjon mellom inntekt og sentrum-periferi-indeksen. 50 00:04:23.990 --> 00:04:31.820 Til venstre s? har forskeren kodet indeksen s?nn at den har h?ye verdier for dem som er mest positive til sentralisering. 51 00:04:31.820 --> 00:04:34.610 Da ser sammenhengen med inntekt positiv ut. 52 00:04:34.610 --> 00:04:35.900 Linja g?r oppover. 53 00:04:36.560 --> 00:04:43.390 Til h?yre er kodingen snudd s?nn at de som er minst positive til sentralisering f?r h?y verdi. 54 00:04:43.390 --> 00:04:45.440 Da ser sammenhengen plutselig negativ ut. 55 00:04:46.340 --> 00:04:48.950 Men legg merke til at styrken p? sammenhengen er den samme. 56 00:04:49.310 --> 00:04:51.560 Prikkene ligger like langt fra linja. 57 00:04:52.310 --> 00:04:55.220 Det er bare retningen p? linja som er snudd. 58 00:04:55.220 --> 00:04:57.950 Den substansielle tolkningen vil ogs? v?re den samme. 59 00:04:58.310 --> 00:05:03.300 De som er mest positive til sentralisering er de som har h?yest inntekt. 60 00:05:03.780 --> 00:05:05.460 Igjen, dette er rent hypotetisk. 61 00:05:07.650 --> 00:05:09.160 Hva er s? h?y verdi p? kj?nn? 62 00:05:09.160 --> 00:05:11.730 Vel, det er det forskeren som bestemmer. 63 00:05:11.970 --> 00:05:18.470 Han eller hun kan kode menn som 0 og kvinner som 1 eller motsatt. 64 00:05:18.470 --> 00:05:27.240 N?r kvinner er kodet med h?y verdi, i et eksempel her til venstre, s? ser sammenhengen med inntekt negativ ut. 65 00:05:27.240 --> 00:05:32.710 N?r menn er kodet med h?y verdi s? ser den positiv ut. 66 00:05:32.710 --> 00:05:35.620 Men den substansielle tolkningen igjen er den samme. 67 00:05:36.250 --> 00:05:42.910 Menn tjener i gjennomsnitt, her er det gjennomsnittet vi ser vi figuren, mer enn kvinner . 68 00:05:44.220 --> 00:05:51.590 S? poenget er at ? snakke om positiv eller negativ sammenheng mellom to variabler det gir ikke alltid mening i seg selv. 69 00:05:52.090 --> 00:05:59.380 Hvis variablene ikke har intuitiv skalaretning s? m? du huske ? ta hensyn til det i tolkningen av sammenhengen. 70 00:05:59.950 --> 00:06:09.850 S? i stedet for ? si her at det er en positiv sammenheng mellom inntekt og kj?nn, som forutsetter at du har kodet kj?nn akkurat s?nn som forskeren til h?yre her 71 00:06:09.850 --> 00:06:14.900 har gjort det, s? b?r du si at menn i gjennomsnitt tjener mer enn kvinner. 72 00:06:15.490 --> 00:06:23.470 Eventuelt at kvinner i gjennomsnitt tjener mindre enn menn, som begge er beskrivelser av sammenhengen som er sanne uavhengig av kodingen.