Hvordan trænes Chat GPT?

Hvis du er bekendt med ChatGPT, har du måske hørt, at det er trænet på et kæmpe korpus af data. Men hvad betyder det helt præcist? I denne artikel vil vi dykke ned i detaljerne om, hvordan ChatGPT er trænet?”

ChatGPT er en forudtrænet sprogmodel, der er justeret gennem en kombination af overvåget og forstærkende læringsteknikker. Træningsprocessen for ChatGPT involverede indtastning af en stor mængde tekstdata i modellen og justering af dens parametre, så den kan generere tekst, der ligner teksten i træningskorpusset.

Til denne proces blev en tilgang med usuperviseret læring anvendt, hvilket betyder, at modellen ikke fik eksplisit feedback på om dens genererede tekst var korrekt eller forkert. I stedet justerede modellen sine parametre baseret på sandsynligheden for, at den genererede tekst var lignende den tekst, den var trænet på.

GPT-3, hovedmodellen bag ChatGPT-3, er en af de største sprogmodeller, der nogensinde er blevet skabt med 175 milliarder parametre og en kontekst på 2048 tokens. Den er trænet på hundredvis af milliarder ord fra Common Crawl, WebText2, Books1/2, Wikipedia på engelsk og eksempler på kode i CSS, JSX, Python og andre programmeringssprog.

Træningsmetoden, der anvendes til GPT-3, er generativ prætræning, hvilket betyder, at den trænes til at forudsige det næste token eller ord i input-sætningen.

Bedste Chat GPT-alternativ

Overvåget læring

ChatGPT-modellen blev finjusteret gennem en proces med overvåget læring af menneskelige trænere. Disse trænere deltog i samtaler, hvor de både påtog sig brugerens og AI-assistentens rolle.

De blev givet forslag fra modellen til at guide dem i at sammensætte deres svar, som blev blandet med InstructGPT-datasættet, der var blevet konverteret til en dialogformat.

Forstærkende læring

Modellen blev yderligere forbedret ved hjælp af forstærkende læring ved hjælp af Proximal Policy Optimization (PPO). Menneskelige trænere evaluerede svar genereret af modellen fra en tidligere samtale og brugte disse evalueringer til at udvikle belønningsmodeller. Modellen blev derefter finjusteret baseret på disse belønningsmodeller.

Processen med finjustering blev udført flere gange for at opnå bedre præstation. PPO algoritmer er omkostningseffektive i forhold til andre algoritmer og har en hurtigere ydeevne, hvilket gør dem ideelle til denne proces.

OpenAI fortsætter med at indsamle oplysninger fra brugere, der interagerer med ChatGPT, som derefter kan anvendes til at forbedre og raffinere modellen yderligere.

Brugerne har mulighed for at stemme på ChatGPT's svar ved enten at upvote eller downvote, og de har også mulighed for at give ekstra feedback. Disse data bruges til at forbedre modellens ydeevne yderligere og gøre den bedre til at generere menneskelignende tekst.

Data anvendt til at træne modellen

ChatGPT-3 er en sprogmodel finjusteret fra GPT-3.5-serien, som blev trænet ved hjælp af en Azure AI supercomputer-infrastruktur. Den blev trænet på en massiv mængde tekst, der blev hentet fra internettet, som omfatter bøger, chatfora, artikler, websteder, akademiske papirer, kode og andre kilder.

Corpusset af tekstdata, der blev brugt til at træne ChatGPT-3, var over 45 terabyte i størrelse, hvilket er ekstremt stort og bidrager til modellens evne til at generere tekster, der ligner det, en journalist eller forfatter ville kunne producere.

Hvordan trænes Chat GPT?

Overvåget læring

Forstærkende læring

Data anvendt til at træne modellen

Relaterede Artikler