Hvordan fungerer store sprogmodeller

Store sprogmodeller er matematiske funktioner der forholder tekst til tekst.

Det er selvfølgelig en meget generel og abstrakt definition.

Det følgende tager udgangspunkt i den nu mest udbredte og succesfulde type af store sprogmodeller, nemlig

Med en inputstreng af tekst forudsiger en stor sprogmodel den tekst, der skal komme næste gang.

Magien ved store sprogmodeller er, at ved at blive trænet i at minimere denne forudsigelsesfejl over store mængder tekst, ender modellerne med at lære begreber, der er nyttige til disse forudsigelser. For eksempel lærer de:

hvordan staves hvordan grammatik fungerer hvordan man parafraserer hvordan man besvarer spørgsmål hvordan man fører en samtale hvordan man skriver på mange sprog hvordan man koder etc.

Ingen af disse egenskaber er eksplicit programmeret ind - de opstår alle som et resultat af træning.

GPT-3 driver hundredvis af softwareprodukter, herunder produktivitetsapps, uddannelsesapps, spil og mere.