A GPT esete az Élettel (ártalmatlanfilozofálgatásposzt)
Pár napja egy Facebook vita kapcsán találkoztam Ilya Sutskevernek, az OpenAI egyik alapítójának és vezetőjének egy gondolatával. Ő ma a guruk guruja a mesterséges intelligenciában, Nyizsnij-Novgorodból alijjázott Izraelbe fiatalon, majd lett Hinton tanítványa, mint valamilyen fiktív Vincent-karakter, csak ő valódi. Annyi középszerű figuráról írok a Vincenten, miért ne írnék végre egy intellektuális világsztár gondolatáról, és arról, hogy mit jelent ez számomra
Text is a projection of the world.
“On the surface, it may look like we are just learning statistical correlations in text. But, it turns out that to just learn it to compress them really well, what the neural network learns is some representation of the process that produced the text. This text is actually a projection of the world; there is a world out there and it’s as a projection on this text.”
A többi guru, Yann LeCunn és Gary Marcus ezt erősen vitatja, Marcus szerint a GPT csak a világ árnyékát látja és nem tudja megkülönböztetni az árnyékot a realitástól.
Erről jutott eszembe a Megtestesült Elme filozófusainak meglehetősen reménytelen küzdelme a hagyományos Jerry Fodor-féle elmefilozófiával.
Varela kogníció-definíciója a következő:
“A kogníció strukturális csatolások története, amely megteremt egy világot. ” (The Embodied Mind)
A kognitív ágens szenzori felületéről folyamatosan jelmintázatok indulnak az agy irányába és közben az effektori felület felé folyamatosan jelmintázatok indulnak az agyból. Ezeknek a jelmintázatoknak a csatolása az, ahogy a világ jelentkezik a kognitív ágens számára.
A Nagy Nyelvi Modellek tapasztalatait egy óriási nyelvi korpusz foglalja össze, amelynek azonban nincs a birtokában. Nem magát a korpuszt tanulja meg, hanem azt, hogy milyen valószínűséggel lépnek fel benne mintázatok, n-gramok (az n-gram az az n darab szó, vagy token sorozata). Ahogy az agy, legalábbis annak a tudatostól aránylag távol álló része, sincs birtokában az összes tapasztalatának, nincs egy memóriája, amelyikben valahogy gyűlik az összes szenzoros információ, amely az életében keletkezett.
Az agy számára a világ a szenzoros felülettől a motoros felületig tart, az, hogy “brings forth a world”, tehát megteremti a “kívül” fogalmát, ez egy igen súlyos evolúciós bónusz. Ehhez azonban semmi mást nem tudott felhasználni, csak a csatolt jelmintázati nyelvek korpuszát. Egyszerűen semmi más nem állt rendelkezésére. Sőt, az sem igazán, valahogy optimálisan el kellene azt raktároznia, és ha lenne GPT-je a kortexnek, talán jól tudná használni (erről majd később)
A hegemón elmefilozófia tézisei szerint valahol középen, a szenzoros és az effektor felület között van egy homunkulusz szerű biológiai számítógép, amelyik inputként érzékeli a szenzoros jeleket és kiszámolja belőlük az optimális motoros jelet. A homunkulusz találta ki valahogy felépítette a világot a logikai eszközeivel. Semmi nem mutat arra, hogy ez így van, de kétségkívül így a legkényelmesebb elképzelni.
A GPT-vel járó hatalmas áttörést esetleg lehet úgy értelmezni, hogy a szenzorimotoros tapasztalatokban ott van a logika, a reasoning alapja, a tapasztalatainkból eredő mintázati statisztikákból GPT can bring forth a world, amelynek része a logika szabályrendszere. A világ logikusan működik, tehát az árnyékában ott a logika, és ezt tanulja meg a bayesiánus, prediktív GPT vagy a bayesiánus, prediktív agy.
Mintha a Jerry Fodor-LeCunn-Marcus világban azért mégis csak az adatkorpusz lenne a centrumban, akkor is, ha LeCunn és Marcus persze neurális háló guruk, mintha nem tudnának ettől az adatkorpusztól elszakadni (és persze nem állíthatom, hogy nincs igazuk, csak teoretizálok egy blogon), Varela-Sutskever pedig a decoder-encoder strukturális csatolás statisztikai mintázatait már egy lehetséges implicit világmodellel azonosítaná, a mintázati statisztika a lényeg, nem az a korpusz, amiből az származik.
Ha már írok egy teljesen érthetetlen posztot, a végére még valami, ami hetek óta foglalkoztat és Reykjavíkban is beszéltem róla.
A GPT egyik feature-je a compressing, össze tud foglalni hosszú szövegekből rövid szöveget. Ehhez nem árt, ha nagy mintázatokból képes kis mintázatot csinálni, aminek hasonló az n-gram statisztikája.
Szerintem minimum jó reklám lenne a gráflimesz elméletnek, esetleg talán több is, ha n-gram statisztika és compressing irányból szemléltetjük. Esetleg néhány AI-s embernek eszébe jut erről valami.
A gráf compressing azt jelenti, hogy kapok egy gráfot, mint input szöveget (esetleg a csúcsokon még van valamiféle színezés, de ezt most hagyjuk) és ezt szeretném kompresszálni. Azaz egy kisebb gráfot akarunk konstruálni, ami statisztikailag hasonló hozzá. A gráfoknak is van mintázati statisztikája, megkérdezhetjük, hogy fajlagosan hány él van benne (élek száma osztva a csúcsok számával), hány háromszög, hány más kicsi izé. Szeretném feltételezni, hogy egy csúcsból tíznél azért nem jön ki több él. A compressing azt jelenti, hogy egy hatalmas I input gráfhoz készítek egy olyan jóval kisebb O output gráfot, amelyben mondjuk tizenöt kicsi gráf mintázati statisztikája két tizedesjegyre megegyezik az eredeti gráféval. Miért tennénk ilyet? Hát azért, mert azt szeretnénk, ha a hatalmas I gráf bizonyos invariánsait (mondjuk azt, hogy fajlagosan mekkora benne a legnagyobb olyan csúcshalmaz, ami nem tartalmaz szomszédos csúcsokat) a kicsi O gráfon számolnánk ki, és bizakodnánk benne, hogy Sutskevernek lesz igaza:
“On the surface, it may look like we are just learning statistical correlations in text. But, it turns out that to just learn it to compress them really well, what the neural network learns is some representation of the process that produced the text.“
Azaz, a statisztikai korrelációkat megértve, a gráf kompressziójából megértjük, hogyan lehet felépíteni az eredeti hatalmas gráfot.
A punchline, és ezzel a poszt vége, az, hogy síkba rajzolható gráfoknál ez tényleg így van.
Akkor ezek a gráfok fraktáljelleget mutatnak? (Körülbelül ennyit értek hozzá… A homunculusparadoxonról meg eszembe jutott az a kérdés, hogy vajon hány mackó van a mackósajton.)
@vattablz: “Akkor ezek a gráfok fraktáljelleget mutatnak?” valamilyen értelemben igen.
A mackósajt paradoxont effektíve használják, infinite regress paradox néven. De aránylag könnyen menthető azzal, hogy azért a homunkulusz által megjelenített modellben a másodrangú homunkulusz jóval egyszerűbb, mint az eredeti, és hatodrangú homunkulusz talán már nincs is.
@jotunder:: It’s homunculi all the way down.
“a bayesiánus, prediktív GPT”: Prediktívnek prediktív, de mitől bayesiánus a GPT? Mert az utolsó lépésben egy valószínűségeloszlást számol ki a következőnek jósolt szavak halmazán? Azért, ha nincs prior és likelihood (hogy van ez magyarul?), amiből poszteriort lehet számolni, akkor én nem nagyon érzem indokoltnak, hogy valamit bayesiánusnak hívjunk.
“Marcus persze neurális háló guruk”: Itt azért felnevettem, és hát Hinton és LeCun is erősen felvonnák a szemöldöküket. (Ők többek között éppen azt vetik — szerintem jogosan — Marcus szemére, hogy soha az életben nem piszkította a kezét konkrét neurális hálóval, de ehhez képest elképesztően magabiztosan nyilatkozik arról, hogy mit tudhatnak, és mit nem tudhatnak*).
* Ettől még Marcusnak lehetnek jó meglátásai, csak a bizonytalansága (helló, Bayes) / magabiztossága tűnik elképesztően rosszul kailbráltnak.
“a mintázati statisztika a lényeg, nem az a korpusz, amiből az származik”: Nehezen tudom elképzelni, hogy ezzel LeCun (vagy bármilyen magára adó AI-szakember) ne értene egyet.
@lmate: 1. én úgy érzem, hogy amikor promptokkal javítják a performance-t annak van bizonyos bayesi karaktere. 2. nem állítok semmit, ezek rohadtul nehéz dolgok, plusz nem vagyok szakember. az a példa a gráfokkal, ami nyilván egy kicsit nagyívűbb a szokásosnál, valami olyasmit fejez ki, hogy a mintázati statisztikák bizonyos speciális helyzetekben (esetünkben a síkgráfok osztályánál) sokkal mélyebb dolgot értenek meg az inputból, mint amit természetesen gondolnánk (nyilván matematikusoknak eszébe jut a szemerédi regularitási lemma , ami hasonlót jelent sűrű gráfokra). tehát arról van szó, hogy valahogy van valmiféle implicit világmodell a statisztikában. az én értelmezésemben, amelyet kicsit talán az önös érdek irányít, valami olyasmi van, hog egy idegrendszer szerű hálózatban, hogy a különböző kisülési mintázatok együtt létezésének megtanulása vezethet egy egyre explicitebb világmodell felépítéséhez az evolúciós folyamatban. X szenzoros felületi részen magas firing rate után Y motoros felületen lesz magas firing rate, majd egy Z szenzoros felületi részen lesz magas firing rate, de ha valamiért az Y-nál elmarad a magas firing rate, akkor a Z szenzorosnál is elmarad. ez implicite kifejezi azt, hogy van valami az Y-ban, ami képes arra, hogy megváltoztassa Z-t, ha meglátok valamit és fordítom a fejem változik a kép, ez az “environment” fogalmának megjelenéseként értelmezhető. esetleg.
3. mindenképpen érzem azt, hogy van ez a direkt kép a korpuszokról, a homunkulusz fogja az inputot és számol vele a tárolt adatok alapján, és van a large language model kép, mi predikciós mechanizmusokat irányíthat (mondjuk nagyon primitív transzformerek vannak egy mesterséges agyban, de elég sok, és folyamatosan előrejeleznek szenzori adatokat a tapasztalatok alapján, és ezt updatelik, beleértve az attentiont is, tehát mindig van egy elképzelésük arról, hogy honnan várható a fontos információ. jó ez még teoretizálásnak is naív, de én abban reménykedem, hogy valamilyen metaszinten talán értelmet lehet találni benne.
@jotunder: Jó, de hogy van a likelihood magyarul? Viccet félretéve:
Ja, hogy így. Erre még nem gondoltam, de érdekes felvetés. Nem vagyok biztos benne, hogy teljes mélységében átérzem az analógiát.
2a. Csak hogy én is meredek analógiával rukkoljak elő: a gráfos példáról — könnyen lehet, hogy csak azért, mert egyiket sem értem eléggé — a compressed sensing jutott eszembe: kellően sparse signal-t pár random projekcióval is rekonstruálni lehet.
2b. Igen, a szenzoros(-motoros) jelek elemzéséből nagyon sok mindent meg lehet tudni a világról, ennek komoly szakirodalma van. Mondjuk úgy, egy megfelelő “külvilág” nevű rejtett változó (ismét csak: helló, Bayes) bevezetésével nagyon parszimónius magyarázatát lehet adni ezen jelek statisztikáinak.
Hát, ha ez most élőben lenne, akkor megkérnélek, hogy ezt még egyszer, csak lassabban. Ennek hiányában csak azt tudom mondani, hogy szerintem tényleg nincs nagyon komolyanvehető szakmabeli (se a mesterséges, se a természetes intelligencia kutatói között), aki ne úgy gondolná (ha nem is pont ezekkel a szavakkal), hogy a biológiai és mesterséges agyakban nem korpusz tárolódik, hanem az (egyéni, és a biológiai esetben a törzsfejlődés során felhalmozott) tapasztalataink summary(?) statisztikái. Vagy te itt arra gondolsz, az embodied cognition crowd-ra kacsintva, hogy a bemeneteink és a kimeneteink között a külvilág által biztosított visszacsatolás a fontos? Tehát, hogy a kimeneteink által befolyásolni tudjuk a bemeneteinket (egy későbbi időpontban)? Na jó, nem találgatok tovább, csak még annyit jegyzek meg, hogy ez az egész egy kicsit a good regulator theorem-et jutatta eszembe, ami — ha jól értem — arról szól, hogy minden a külvilágot (valamilyen értelemben véve) jól kontrolláló rendszernek (aka regulátornak) szükségszerűen tartalmazni kell a külvilág (a kontrollált rendszer) modelljét (egy homomorfizmus erejéig).
@lmate: én egyáltalán nem hiszek a good regulator theoremben, és konkrétan azt gondolom, hogy ashby többszörösen tévedett. jó, ez nem igazán gondolás, mondjuk úgy, hogy én valahogy nagyon másként látom ezt, mint ashby és ennek hangot is adtam 🙂 ******
nyilván nem lehet erről erős véleményem, és ez inkább játék, mint más, de azért ezt elmondom. nem vagyok semmiféle izmus híve, de játékból azt gondolom, hogy amit reprezentációnak neveznek az egy nagyon magas szintű folyamat lehet, egy idő után annyira végtelenül okos lesz a kogniítv ágens, hogy az implicit sutskeveri világmodellek helyett elég explicit modelleket is tud gyártani, de ez egy sokadik szint lehet, a kogníció közelebb van (játsziból) varelához, mint fodorhoz vagy dennetthez. *******
a baktérium nem reprezentálja a világot, amikor megkeresi a cukorgradienst, és nincs semmiféle markov blanket vagy pearl blanket (játék, nem kinyilatkoztatás). a baktérium “receptorai azok a kis fehérjeszálak, amelyek képesek befogni a cukormolekulákat, a ganglionj pedig az, ami a membrán másik részén van és különös módon elindít enzimeket a flagella felé. ez a nagy történet valójában. a baktéium “agya” a citoplazma (és nem a dNS, ebben ő nem vesz részt) semmi mást nem csinál a citoplazma, csak hagyja, hogy az enzimek eljussanak a flagellához,mint egy folyó, amelyik hagyja, hogy az egyik partjáról egy csónak eljuthasson a másik partra. a baktérium ebben a folyamatban NEM alkotja meg a világ cukorcentrikus modelljét. ashby és randall beer “téved”, amikor úgy gondolják, hogy ebben a folyamatban csatolódik a külvilág és az ágens. ez olyan minta azt mondanák, hogy a GPT csatolódik az emberi nyelv struktúrájával. nem. a világ és a baktérium “teste” csatolja két enzimtípus kibocsátási rátáját, ami azért a firing rate-nek felel meg,. az egyik, ami közvetlenül a membránnál kelekezik,a másik,ami közvetlenül a flagella motorját éri el. nincs olyan, hogy agent-environment coupling, a világ kódja egészen más mint az ágens kódja. a világ nem informálja az ágenst, hanem irritálja, az információ az ágens szenzori felületén keletkezik. ez arra hajaz, hogy a GPT-ben is van egy receptorikus rész, ahogy a szöveg vektorrá alakul, ott már van egy okosság. a szenzorok okosak, a béka szeme mesét mond a béka agyának (lettwin). ****
én nem azt mondom, hogy ilyen a világ, tessenek a kognitív tudóskák eldobni kaszát-kapát, csak azt mondom, hogy van egy ilyen legitim szemlélet, amivel el lehet játszani.
@jotunder: Miért tűnik reménytelennek a megtestesült elme filozófusainak küzdelme a komputációs modellel szemben? (Nem vagyok sajnos igazán otthon a témában, de mintha manapság inkább az embodied mind/cognition csúszna át mainstream felfogásba?)
@jack_of_all_trades: én nem vagyok filozófus (tegnap nagyon-nagyon kicsit az lettem, megkaptuk az első kicsi scholar.google idézetünk filozófiából, basszus tényleg tudtam örülni neki) és alapvetően fogalmam sincs. ha az ember megnézi tim crane the mechanical mind-ját és szembeállítja chemero radical embodied cognitive science-szével, vagy hutto és myin könyveivel, akkor látja a problémát. crane (aki orbánnak hála nem magyar filozófus, mcc, my ass) klasszikus filozófiai problémákat érint és az emberi kognícióról szól, chemero olyan metaforákat használ (pl. a dinamikus rendszerek) amelyeknek pont olyasmivel kapcsolatban nincs semmiféle magyarázó ereje, magasabbrendű állatok szintjén. egy kognitív tudós számára az embodied mind lila köd. én, aki amatőr sem vagyok, úgy érzem, hogy most lenne a 3E világnak egy kis sansza, de ehhez új ötletek, mélyebb gondolatok kellenek.
Gratulálok a hivatkozáshoz!
Nagyon érdekes, a 3E-t meg kellett gugliznom, mert csak kettő volt meg belőle, az emergence és az embodiment; ezeket egyébként az itthon holista-kognitívnak nevezett nyelvészeti irányzat (kb. minden Chomsky állítás elé tégy egy negálást, és megkapod az alapját) pl. elég rendesen magáévá tette, és borzasztó sok mindent magyaráznak ezekkel, szóval a mag mindenképpen termékeny talajra hullott itt-ott 🙂
Szerintem egyébként – és ezzel bevallottan valamiféle optimista fizikalista álláspont felé hajlok – az egész elmefilozófia és környéke a végső válaszait a neuroscience köréből kell, hogy kapja, bár amennyire fel tudom fogni, még azért nem igazán vagyunk ott (finoman szólva).