Temaomr?de 1 - Store spr?kmodeller og vektor-representasjoner

Vi skal i dette temaomr?det arbeide med ? forst? store spr?kmodeller, slik som GPT som ligger bak ChatGPT. Hovedvekten vil v?re ? utvikle forst?else for det vi kaller vektor-representasjoner, som er m?ten modellene bygger representasjoner av verden. Du skal l?re ? finne og analysere en tekst ved hjelp av vektor-representasjoner og kunne resonnere rundt strukturen i vektor-representasjonene.

Om vektor-representasjoner

Vi skal i dette temaet arbeide med hvordan store spr?kmodeller bygger opp indre representasjoner av spr?ket. Du skal bl.a. l?re ? kunne omforme en tekst til en vektor i et h?ydimensjonalt vektorrom, visualisere forholdet mellom tekster, finne avstander mellom tekster og bruke dette til ? analysere tekster du selv er interessert i.

I dybden p? vektor-representasjoner

Anthropic har brukt betydelig med ressurser til ? pr?ve ? forst? hvordan spr?kmodellen deres virker og hvordan den utvikler indre representasjoner for konsepter som den har l?rt om gjennom spr?ket. De har skrevet tre artikler, som vi skal fors?ke ? f? innsikt i.

F?rst b?r dere lese denne artikkelen: https://www.astralcodexten.com/p/god-help-us-lets-try-to-understand

Deretter skal vi fors?ke oss p? ? f? en viss innsikt i artiklene som er beskrevet i disse tre blog-postene:

https://www.anthropic.com/research/toy-models-of-superposition

https://www.anthropic.com/research/towards-monosemanticity-decomposing-language-models-with-dictionary-learning

https://www.anthropic.com/news/mapping-mind-language-model

Notebook

Du finner notebook'en du skal bruke i undervisningen den 28.08 her. Det kan noen ganger v?re en utfordring ? laste ned fra emnesidene. Bruk h?yreklikk og velg laste ned (control-klikk p? en mac). Hvis den har blitt lastet ned og har f?tt filnavnet embedding-hon1000-v010.ipynb.json m? du endre dette til embedding-hon1000-v010.ipynb . Deretter kan du ?pne filen lokalt p? din pc hvis du har installert den n?dvendige programvaren, du kan laste den opp p? google colab eller du kan laste den opp (eller bruke den ferdig opplastede versjonen) p? jupyterhub.uio.no som beskrevet nedenfor.

Utstyr

Dere trenger ? ha med dere egen laptop og powersupply. Vi anbefaler tre m?ter ? bruke din laptop til ? jobbe med oppgaven.

Lokal installasjon

Du kan gj?re alle kj?ringer lokalt p? din egen masking. Da kan det v?re lurt ? ha installert noen pakker p? din laptop. Vi anbefaler at du har installert Anaconda. Vi anbefaler ogs? at du lager et eget environment i conda hvis du bruker conda, f.eks. gjennom 
 
conda create --name embed
 
Her b?r du ha installert: jupyter, numpy, matplotlib, plotly, matplotlib, pickle, pandas, scikit-learn, pytorch and transformers (fra huggingface).
 
Du installerer transformers fra huggingface med (du kan ogs? installere denne fra conda-forge) 
 
conda install -c huggingface transformers
 
Noen vil foretrekke ? ha installert visual studio code hvis du ikke har det fra f?r, men det er mer smak og behag. Det er ikke n?dvendig.

Bruk av google colab

Du kan kj?re alle notebooks p? google colab som du finner p? colab.research.google.com . Du kan laste opp notebook'en som vi har laget her og kj?re den hos google.

Det enkleste er ? trykke p? denne lenken her. Du b?r f?rst lage en egen kopi av notebooken i google colab, og s? jobbe i den kopien for ? unng? problemer med at flere endrer p? samme fil.

Bruk av jupyterhub.uio.no

Vi har ogs? en lokal server p? UiO som du kan bruke til HON1000. Den skal v?re satt opp for deg slik at du finner notebook'en der n?r du logger inn. Du logger inn p? jupyterhub.uio.no

Tekster og videoer

For ? forberede dere vil vi anbefale at dere ser p? f?lgende dokumenter og videoer:
 
Enkel innf?ring
 
Litt mer teknisk innf?ring (dette er omtrent det vi skal gj?re selv i dette emnet):
 
Hvis du vil g? litt mer i dybden p? transformere er disse videoene gode, men de vil nok v?re for tekniske for mange av dere. De er interessante, men ikke n?dvendige.

3Blue1Brown: Machine learning. Chapter 1-4 is background that you do not necessarily need, but chapter 5 and chapter 6 are useful. 

Chapter 5: https://www.youtube.com/watch?v=wjZofJX0v4M&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=5 ; 

Chapter 6: https://www.youtube.com/watch?v=eMlx5fFNoYc&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=6

Publisert 21. aug. 2024 15:08 - Sist endret 28. aug. 2024 15:37