Referat fra gruppetimen tirsdag 13. september

Her er en oppsummering av det vi gikk gjennom p? gruppetimen for de som ikke var der.

Resultater fra ukens obligkonkurranse

Det kom inn 17 bidrag, og vi testet f?rst hvordan bidragene gjorde det p? det lille datasettet med 1000 individer man hadde tilgang til i obligen:

PayWell, correct rate: 0.844, recall: 0.368, precision: 0.966, F1: 0.915
OSCAR_HR, correct rate: 0.833, recall: 0.304, precision: 0.969, F1: 0.909
dingsboms, correct rate: 0.831, recall: 0.275, precision: 0.974, F1: 0.908
croc, correct rate: 0.829, recall: 0.289, precision: 0.967, F1: 0.907
arkemopsen, correct rate: 0.825, recall: 0.255, precision: 0.971, F1: 0.904
BIG_POPPA, correct rate: 0.812, recall: 0.407, precision: 0.916, F1: 0.896
rabbit, correct rate: 0.811, recall: 0.407, precision: 0.915, F1: 0.896
Jonas, correct rate: 0.802, recall: 0.412, precision: 0.902, F1: 0.890
STOFFER_G, correct rate: 0.796, recall: 0.000, precision: 1.000, F1: 0.886
benjamre, correct rate: 0.796, recall: 0.000, precision: 1.000, F1: 0.886
AMARDEEP, correct rate: 0.794, recall: 0.000, precision: 0.997, F1: 0.885
leander, correct rate: 0.789, recall: 0.515, precision: 0.859, F1: 0.882
deltaker99, correct rate: 0.784, recall: 0.005, precision: 0.984, F1: 0.879
drugisn, correct rate: 0.755, recall: 0.025, precision: 0.942, F1: 0.860
Parzival, correct rate: 0.675, recall: 0.275, precision: 0.778, F1: 0.806

Deretter kj?rte vi p? det store ukjente datasettet med 30 000 individer:

croc, correct rate: 0.804, recall: 0.263, precision: 0.957, F1: 0.891
OSCAR_HR, correct rate: 0.804, recall: 0.265, precision: 0.956, F1: 0.891
dingsboms, correct rate: 0.802, recall: 0.245, precision: 0.960, F1: 0.890
BIG_POPPA, correct rate: 0.797, recall: 0.365, precision: 0.919, F1: 0.887
rabbit, correct rate: 0.797, recall: 0.365, precision: 0.919, F1: 0.887
Jonas, correct rate: 0.792, recall: 0.367, precision: 0.912, F1: 0.884
arkemopsen, correct rate: 0.790, recall: 0.204, precision: 0.956, F1: 0.882
PayWell, correct rate: 0.789, recall: 0.274, precision: 0.936, F1: 0.882
STOFFER_G, correct rate: 0.779, recall: 0.000, precision: 1.000, F1: 0.876
benjamre, correct rate: 0.779, recall: 0.000, precision: 1.000, F1: 0.876
AMARDEEP, correct rate: 0.778, recall: 0.000, precision: 0.999, F1: 0.875
deltaker99, correct rate: 0.773, recall: 0.002, precision: 0.992, F1: 0.872
leander, correct rate: 0.766, recall: 0.428, precision: 0.862, F1: 0.868
drugisn, correct rate: 0.743, recall: 0.028, precision: 0.945, F1: 0.852
Parzival, correct rate: 0.658, recall: 0.222, precision: 0.781, F1: 0.793

Det som er interessant er at de som gjorde det bra p? det lille datasettet ikke n?dvendigvis gjorde det bra p? det store. Dette kan skyldes at metoden er "overtrent" (tilpasset veldig bra) det lille datasettet. Vi brukte en del tid i gruppetimen p? ? snakke om hva overtrening er og hvorfor det er et viktig konsept i maskinl?ring/prediksjon.

Vi diskuterte ogs? en del ulike l?sninger p? problemet. Noen hadde regel-styrte l?sninger (if/elif/else)-setninger, mens andre vektet ulike verdier og brukte en formel til ? gj?re prediksjonen. Fordelen med ? vekte slik er at man kan tweake formelen enklere. I en ekte maskinl?ringsalgoritme vil typisk vektingen og formelen bli tweaket automatisk av et program til man har en god l?sning. Et eksempel p? et en som l?ste dette med en formel var croc (kode her).

Monty Hall

Vi presenterte ogs? l?snigen p? Monty Hall-problemet og viste et eksempel p? hvordan dette kan l?ses med funksjoner for ? f? ganske kompakt kode. L?sningsforslag vil legges ut via oppgaveteksten til oppgaven.