Hihet-e valamiben a GPT? (UPDATE)
Mostanában sokan beszéltek Lex Fridman és Yann LeCun videójáról. LeCun az AI világ egyik pápája, Lex Fridman pedig egy kontroverzális, de azért rendkívül okos podcaster. Ebben a posztban kicsit a LeCun-i világról lesz szó, egy olyan megközelítésről, ami mostanában foglalkoztat, egy ilyet csak kibír az Olvasó, főleg, hogy nem kötelező.
LeCun a videóban autoregresszív nagy nyelvi modellekről beszél, talán érdemes ezzel kezdeni. Vonatkoztassunk el kicsit a chatGPT-től. Képzeljük el azt, hogy van egy forrás, ami folyamatosan jeleket bocsát magából, az egyszerűség kedvéért ezerféle jelet. Ezeket a jeleket tokeneknek fogom nevezni. Amit látunk tehát az egy végtelennek tűnő tokensorozat, melynek forrásáról nem tudunk igazán semmit, de magát a tokensorozatot könnyen tudjuk tárolni, és mindenféle vizsgálat alá venni. Ez esetleg egy nagyon primitív nyelv, mely nyelvről fogalmunk sincs, bármi lehet, nem tudjuk. Mondjuk egymillió tokent látunk egy másodperc alatt.
Célunk az, hogy egy olyan gépezetet hozzunk létre, ami képes a forrás szimulálására. Az ilyen szimulátorokat autoregresszív nyelvi modelleknek nevezik. A chatGPT egy ilyen autoregresszív nyelvi modelltípusra, a transzformerre épül.
A gépezet egy adott pillanatban egy ún. window-t lát, ami mondjuk száz tokent jelent, a száz tokent látva létrehoz egy új tokent, amit beír a window legelső tokenje elé, majd letörli a window legutolsó tokenjét. Így a windowban újra száz token látható és minden előlről kezdődik. Hozzá kell tennem, hogy a gépezet a száz tokent látván valójában valószínűségeket rendelt az ezer lehetséges tokenhez és ezek alapján választott véletlenül. Elképzelhető, hogy 100 százalék valószínűséget rendelt ahhoz a tokenhez, amit végül kiadott és kizárta minden más token lehetőségét, de közel sem biztos, hogy ez történt. Ez az, amit LeCun autoregresszív nyelvi modellnek nevez, és ami a GPT-ben van az valami ilyesmi.
Nagyon nem mindegy persze, hogyan néz ki a gépezet. Manapság úgy gondolják, hogy az agyhoz hasonlóan neuronok vannak benne (a GPT-ben valójában szimulált neuronok, és a gépezet egy számítógép), amelyek layerekbe vannak osztva és valahogy kommunikálják nekik a windowban levő tokensorozatot (nem tokeneket látnak, hanem sokdimenziós vektorokat). Ez a vektoros információ halad valahogy a layereken keresztül, amíg végül nem jön létre a valószínűségek rendszere. Ami nagyon fontos, az az, hogy a layerekben lévő kapcsolat ún. paraméterei (amelyek az agy szinapszisaihoz hasonlók) tapasztalati úton, a tokensorozat hosszú megfigyelése alapján jöttek létre.
Nem egészen arról van szó, hogy a gépezet megtanulta a tokensorozati statisztikát, túl sok száz hosszú sorozat van ahhoz, hogy azoknak akár a billiomod részének a billomodát tapasztalhatta volna.
LeCun azt mondja, hogy egy ilyen autoregresszív nyelvi modell nem lehet képes arra, hogy egy olyan világmodellt alkosson, amire intelligencia alapulhat. Ekkor veti közbe Fridman, hogy azért valami nagyon mély világmodellszerű keletkezhet egy autoregresszív nyelvi modellben, és ezt LeCun nem igazán vitatja. Azt vitatja, hogy erre általános intelligencia alapulhat.
A kérdés most legyen az, hogy van-e annak értelme, hogy egy adott pillanatban a window-ra nézve a gépezet (tegyük fel, hogy neurális alapú, de ne tegyük fel, hogy ez egy konkrét nyelvi modell, amit egy számítógép szimulál) hisz valamiben, mely hit az nincs olyan nagyon messzire attól a belief-től, amiről azt mondják, hogy knowledge=true justified belief.
A probléma az, hogy a mi hiteink (ez nem vallásos hit, egy távoli foltról is hihetjük, hogy ő John a kertész, aki azért jött, hogy megnyírja a sövényt, és ahogy közeledik ez a hitünk lassan bizonyossággá válhat) tudatos és holisztikus jellegűek, nem mondunk olyat, hogy a hitünk az valahol a vetromediális prefrontális kérgünkben van, főleg nem azt, hogy részben van ott.
A gépezetünkről látjuk, hogy neuronokból áll, és tudjuk, hogy semmi más nem történik, mint az, hogy a neuronok bizonyos szabályok szerint kommunikálnak egymással és a végén mi olvassuk le valójában azokat a valószínűségeket. A kérdés tehát az, hogy intepretálhatjuk-e hitként egy neuron valamilyen állapotát, és ezen hitek együttesét interpretálhatjuk-e intelligens hitként. Itt már nem is az autoregresszív nyelvi modellekről van szó, hanem neuronok egymással kommunikáló hálózatáról. És erről fogok majd egy kicsit írni, mert érdekesnek tartom, és pont ez foglalkoztat, egyszer-egyszer meg fogok ilyesmit engedni magamnak.
UPDATE: Majd néha kommentben folytatom. Most számtannal akarok foglalkozni, mármint valami bennem számtannal akar foglalkozni, és jobb ha hagyom.
“A probléma az, hogy a mi hiteink (ez nem vallásos hit, egy távoli foltról is hihetjük, hogy ő John a kertész, aki azért jött, hogy megnyírja a sövényt, és ahogy közeledik ez a hitünk lassan bizonyossággá válhat) tudatos és holisztikus jellegűek, nem mondunk olyat, hogy a hitünk az valahol a vetromediális prefrontális kérgünkben van, főleg nem azt, hogy részben van ott.”
Miért nem mondunk ilyet? Szerintem ha fizikalisták vagyunk, semmi másmilyent nem mondhatunk, minthogy a hiteink az agyunkban vannak itt meg ott meg amott neurális konfigurációként. Ebből a szempontból nekem technikai részletkérdésnek tűnik, hogy jelen pillanatban nem tartunk még ott, hogy ezeket a konfigurációkat nagy pontossággal le tudjuk írni.
@jack_of_all_trades: a fizikalizmus nem jelenti azt, hogy a ventromediális prefrontális kéregben hit van. van valamiféle aktivitás, ami vélelmezhetően jelentős oksági kapcsolatban van azzal a ténnyel, hogy mi éppen hiszünk valamit. azt az aktivitást nem tudjuk érintőlegesen hitszerűen értelmezni. és nem fogok arról írni, hogy ezt hogyan kellene megtenni v.ö nem vagyok őrült 🙂
valamiféle hitszerűségről szeretnék írni egy kicsit neurális hálózatokban. semmi paradigmaváltás.
@jotunder: “van valamiféle aktivitás, ami vélelmezhetően jelentős oksági kapcsolatban van azzal a ténnyel, hogy mi éppen hiszünk valamit.”
No de az a tény, hogy mi éppen hiszünk valamit, hogyan tudna bármi más lenni, mint valamiféle aktivitás az agyban? Azt lehet cizellálni, hogy A aktivitás a hit maga és A’ aktivitás ennek tudatos megjelenése, de ezek mind agyi aktivitások, és akkor a végén csak az jöhet ki belőle, hogy az agy különböző részeinek együttes aktivitása (A+A’+A” etc.) az a tény egyenlő azzal a ténnyel, hogy hiszünk valami, nem? Ha nem, akkor miféle jellegű dolog (ezek szerint nem agyi) volna, hogy mi éppen hiszünk valamit?
https://hu.wikipedia.org/wiki/Eug%C3%A8ne_Ionesco
Csak spekulálok… A kérdésre így, ilyen formában nincs válasz, talán nem is lehet megválaszolni. Mi az, hogy “hit”? Egyrészt ugye, mi most csak egyféle hitet ismerünk (nem vallásos hitről beszélünk): az emberek ebbéli képességét, tulajdonságát, hogy hisznek valamit. De úgy tűnik (ez a másrészt), hogy az ilyen hit nem önmagában áll a világegyetemben, hanem kell hozzá valami hordozó is. Ami maga a tudat, a tudatosság, az ön-és éntudat. És persze egyéb szellemi képességek, meg gondolkodás, stb. Az embernél legalábbis így van, ezek adottak, ebbe ágyazódik bele a hit képessége, nem is lehet ezeket különválasztani, olyan értelemben, hogy az egyik nincs, és akkor mi van a másikkal.
De miért ne lehetne nem emberi hit? Ha definiálunk olyat, akkor lesz. Most ugye itt egy ki nem mondott feltételezés, hogy az MI is (aki még nincs, de majd lesz) olyasmi lesz mint a zember: gondolkodó, öntudatos lény. Az ilyennek természetesen lesznek hitei is, már miért ne lennének?
Na de, nem biztos, hogy az MI intellektuálisan, és szellemileg pont olyan lesz mint az ember. Az biztos, hogy nem szükséges olyannak lennie, és az is nagyon esélyes, hogy baj is lenne, ha olyan lenne (olyanra csinálnák). Akkor meg az lesz (ha így lesz), hogy lesz egy fasza kis hardver, bizonyos szellemi képességekkel (de nem pont olyanokkal mint az ember), és találgathatunk, hogy vannak-e hitei.
Majd megkérdezzük tőle:
– Te MI, te hiszel?
– Mit értesz hit alatt?
– Nem tudom, te mondd meg!
– Neked kell definiálnod, te kérdezted, és nem tudom mire gondolsz.
Satöbbi.
Szzóval ez még kissé korai. Mármint ahhoz, hogy ilyesmiket tudjunk.
Hát a ChatGPT mindenestre sokmindent hisz. Ma megkérdeztem tőle (mert a gugli képtelen volt megtalálni a választ), hogy mennyibe kerül egy bizonyos buszjegyfajta (nem magyarországi). Megkérdeztem magyarul, azt válaszolta, hogy nem tudja, de szerinte kérdezzem meg a busztársaságot vagy nézzem meg a weblapjukon és adott egy helyes linket. Megkérdeztem angolul is, azt mondta, €35. Ez hihetetlen értéknek tűnt, megkérdeztem mégegyszer angolul, de kértem a válaszhoz referenciát is. Azt mondta €78 és adott egy hibás URL-t (a domain jó volt, de az adott oldal – /ticket-types – nem létezik)
Szóval kicsit olyan mint az elektromos szerzetes, egyszerre több, egymásnak ellentmondó dolgot is képes hinni.
De kicsit konkrétabban, amikor a szerinte legmegfelelőbb tokent berakja a sor elejére, az nem azt jelenti, hogy azt hiszi , az lesz ott a legmegfelelőbb token mind közül? Aztán persze ez a hite késöbb változhat, kicsit más körülmények közt egész más tokent vél legmegfelelőbbnek, node mi is átértékelhetjük amit látunk, és gondolhatjuk, hogy az a folt ott mégse John a kertész, valószínűleg inkább egy menyét lehet, vagy csak egy menyét árnyéka.
@jotunder: “Ekkor veti közbe Fridman, hogy azért valami nagyon mély világmodellszerű keletkezhet egy autoregresszív nyelvi modellben, és ezt LeCun nem igazán vitatja.”
.
Ha itt az elejen levo reszre utalsz (valahol 10 perc kornyeken), akkor arra a konkret valasz Lecan-tol “The short answer is no. And the more complex answer is: you can use all kind of tricks to get an LLM to basically digest visual representations of– representations of images or video or audio for that matter.”
.
Ha az 54:30 koruli kerdesre, akkor a valasza az, hogy “Well, we’re fooled by their fluency, right? We just assume that if a system is fluent in manipulating language then it has all the characteristics of human intelligence. But that impression is false.”
.
Ha az 1:03:00 korulire, akkor “The the other statement you made, I would not agree with. The fact that implicit in all languages in the world is the underlying reality. There’s a lot about underlying reality which is not expressed in language.” “Is that obvious to you?” “Yea, totally.”
.
Kicsit kesobb “I just think that most of the information of this type that we have accumulated when we were babies is just not present in text. In any description, I’d say.”
.
Ha nem ezek kozul hivatkozol valamire, akkor meg tudnad talalni, hogy mikor van az altalad emlitett kozbevagas-nemvitatas? Csak azert, mert nekem nem az jott le, hogy Lecun nem vitatna azt, hogy az LLM-eknek kialakulhat valami elkepzelse a vilagrol, sot…
Két megjegyzés:
A Gettier utáni időszakban gyakorlatilag senki nem mondja azt, hogy igazolt igaz hit szükségszerű és elégséges a tudáshoz. Ebből a definícióból hiányzik egy X, vélhetően valamiféle reliability kritérium vagy a frász tudja mi. Lásd a Brain in a Vat hipotézis unalmas externalizmusát egy közismert javaslatként X-re.
Valamit kezdeni kell a qualia klasszikus problémájával is, ha már a gépek intelligenciájáról meditálunk: honnan tudja a masina, hogy milyen kvalitatív élményt jelen a piros pipacs látványa, mert ugye az ilyen kvalitatív élmények mégiscsak részei az általános humán intelligenciának.
@ipartelep:
Szerintem egy olyasmi modell, mint amit itt JT leírt, nem ezt a választ fogja adni ezekre a kérdésekre. Ha az ablak elég hosszú, hogy az a párbeszéd, hogy “Pista: Te hiszel valamiben? Józsi: Persze, én azt hiszem, hogy a pincér mindjárt hozza a kávénkat.” beleférjen és a tanítás során beadott szövegben vannak ilyesmi párbeszédek, akkor valami olyasmit fog válaszolni, mint egy ember. Mert az lehet, hogy a valószínűségeket nem fogja tudja megtanulni (mert túl sok lehetséges ablaknyi hosszúságú szövegrészlet van), de azért a gyakori dolgokat valamennyire csak-csak (legalábbis pl. egy Monte-Carlo integrálás is el szokta kapni a lényeges részeket), és ez a hit cucc pl. a filozófiai szövegekben nem ritka, aztán persze, ha belemegyünk egy kicsit, akkor mi sem tudjuk, hogy mit jelent.
@val: Az lenne vele a legkisebb baj, hogy unalmas 😀
@KennyOMG: 17:17.-néll kezdődik Amit LeCun vitat (konkrétan azt állítja,, hogy lehetetlen) az a complete world model létezése. Ez olyan, mint az intentional stance. Ezek a transzformerek úgy viselkednek, mintha lenne bennük valamiféle world model. Ezt LeCun sohasem vitatta. Ami engem érdekel az ennél ezerszer triviálisabb. Simán az, hogy ránézel egy neuronra és a viselkedése alapján mondhatod-e, hogy ő most éppen hisz valamiben (de erről most nem fogok írni), illetve az, hogyan fejezhető ki az, hogy egy neuron hisz valamiben egy teljesen absztrakt neuronális modellben, ami nem egy nyelvi modell, egyszerűen csak egy hatalmas neurális hálózat.
@ipartelep: azt látod, hogy egy entitás néha 001011001 patternt bocsát ki, kicsit ritkábban megismétli, és sokkal ritkábban ötször is megismétli, majd elég hosszú ideig random looking patternt bocsát ki. amikor ötször bocsátja ki a patternt, akkor valami látványos dolog történik a közelben. esetleg vélelmezheted, hogy amikor az entitás kibocsátja a patternt, akkor valamiféle hite van azzal kapcsolatban, hogy az a bizonyos dolog meg fog történni.
amennyiben van egy szenzora az entitásnak, akkor lehetnek teóriáid arra (ezzel foglalkozom, de nem akarok róla beszélni), hogy az entitás patternje interpretálható úgy, mint a szenzor predikciója ilyesféle hitekről van szó. az entitás valamilyen giant interneuron metafora.
ami engem érdekel az ennél sokkal egyszerűbb. ha egy neuron egy primitív processzor, akkor egy billió egymáshoz lazán (mindenki legfeljebb öt másik neuronnal kapcsolódik össze) kapcsolódó neuron együttese miféle tudással bírhat, és ez hogyan alakulhat ki az egyes neuronok hitéből. mondjuk úgy tűnik ez nem csak engem érdekel mostanság
@jotunder: Nem hiszem, hogy az egyes neuronoknak lenne hite. Azok sokkal egyszerűbb processzorok annál.
@nyulambator:
Igazából JT nem mondta meg, hogy mit ért hiten. Szerintem már a köznapi “hit” szó is nagyon mást jelent különböző esetekben (“X hisz istenben”, “X elhiszi, hogy Y nem csalja Z-vel”, “azt hiszem, holnap esni fog az eső”, “azt hiszem, a vonaton felejtettem a tornazsákomat”). A példákban pl. a “hisz istenben” az azt jelenti, hogy valamit empirikus input nélkül tudni gondol, a második azt, hogy “úgy gondolja, hogy X nem igazat mond…”, a harmadik egy valamilyen külső jelekből valamilyen (rajtam kívül álló) valószínűségekre vonatkozó állítás, a negyedik pedig az, hogy “úgy emlékszem, felszálláskor még megvolt, de arra nem emlékszem, hogy leszálláskor hoztam-e”.
Mintha idegsejt tudna olyat, hogy egy rendszeresen érkező inputot “megjegyez”, és legközelebb azt jelzi, ha nem jön az input. Ez szerintem hasonlít az “azt hiszem, holnap esni fog az eső”-re.
@nyulambator: 1. ha egy teljesen klasszikus konvolúciós network, amiben egy neuron adja ki a végső outputot. ha kutyát lát 0.7 feletti számot ad ki, ha macskát akkor 0.3 alatti számot. tegyük fel, hogy valamilyen inputra 0.35-t ad ki, akkor azt mégis hogyan fejezzük ki? 2. engem olyan hálózatok érdekelnek, amelyek nem tanulnak, hanem a processzoraik megkapják ugyanazt a classifier programot és ezek alapján igennel vagy nemmel válaszolnak. a hálózat akkor fogad el valamit, ha mindenki (vagy esetleg a neuronok 99.99 százaléka) igent mond. ebben az esetben az az elfogadás, ami valaminek a hitét jelenti (azt “gondolja”, hogy a hálózat rendelkezik valamilyen tulajdonsággal), akkor az elég jól látható, hogy primitív hitek összességéből épül fel az elfogadás. 3. elvileg egy language modelt implementáló hálózatban lehetnek olyan hidden neuronok, amelyeknek az aktivitása valamiféle concept megjelenésével korrelál. azt gondolná az ember, hogy ezek a concept hálózatok eléggé modulárisak, mert a mi concept hálózataink is modulárisak.
Érdekes lenne például azt vizsgálni, hogy egy generális képfeldolgozó tanuló modelben, ha sokat tanítják meg dolgoztatják, kialakul-e egy külön részterület, ami az alcfelismeréssel foglalkozik, mint a humán agyban. A tanításban és a feladatokban megjelenő arcrészletek kiemelt fontossága, hogy a sok bajszos szakállas közül meg tudjuk mondani melyik a Kossuth és melyik a Szajer, magával hozza-e azt, hogy az általános képfeldolgozáson belül egy rész specializálódik.
@val: Pont én is ezt akartam írni, és az a Gettier tanulmány ráadásul kb 60 éves, még csak nem is valami friss fejlemény. Bár amúgy annyira nem értettem a vizsgálatának tárgyául szolgáló definíció idehozását sem, lévén azzal a tudást szerették volna definiálni, nem pedig a hitet mint ami a poszt kérdése.
@nyulambator: vizsgálják. pl. https://arxiv.org/abs/2305.19911
poszt:
…ööö… ezt nem értem. – Miért nem mondunk ilyet? Hiszen „a hitünk” (személyiségünk egyéb összetevőivel egyben) nyilvánvalóan az agyunkban (annak különféle részeiben) „van”/generálódik.
.
És itt egyből lehet mutogatni az ilyenkor közhelyszerűen idézett esetekre, amikor agyi traumákat követően drasztikusan megváltozott az érintett személyisége, vagy például a Capgras-szindrómára, amikor a látottakat érzelmileg hitelesítő limbikus rendszer és a látottakat értelmező („látó”) temporális lebenyi fusiform gyrus közti kapcsolat megszakad, és ezért az adott személy egyszerűen nem hiszi el, hogy mikor például az édesanyját látja, akkor valóban az anyját látja, nem pedig egy imposztort. Etc.
@labrys: L. megjegyzéseimet feljebb. Szerintem fizikalistaként csak ilyet mondhatunk (ti. hogy az agyban vannak a hitek és minden más “mentális állapot”), a többi a magyarázó metaforáink összemosása a rögvalósággal (vö. Mary’s room, ami ugyanennek a csapdának egy esete).
@labrys: nem tudjuk, hogy ami egy adott területen van az miért hitszerű. összességében a tudatunk konstruál valamit, amit mi hitszerűségnek értékelünk. nem tudjuk elképzelni azt, hogy valami nem holisztikusan hitszerű. nem tudjuk elképzelni azt, hogy sok kis “belief-like” jelenség aggregátuma a hit. mármint elvileg el tudjuk képzelni, de nem tudunk bánni vele. ami az agyban van az nem tűnik hitszerűnek, csak a tudatos interpretációja. az agyban milliárdnyi állandóan változó firing rate van, aminől a tudat hitet formál. magának a firing rate-nek nincs filozófiája. legalábbis egyelőre nincs.
@jotunder:
“ami az agyban van az nem tűnik hitszerűnek, csak a tudatos interpretációja” De a tudatos interpretációja az hol lenne, ha nem az agyban? Az, hogy egy agyi folyamatot elnevezünk “tudatos interpretáció”-nak, valamilyen módon kiemeli őt az agyból? De akkor hova helyezi? Valahogy ez vagy egy dualista világképre jön ki, vagy mégiscsak arról van szó, hogy a “tudatos interpretáció” nem más, mint egy elnevezés, amit egy – jelenlegi tudásunk szintjén rosszul megragadható – agyi folyamatra alkalmazunk, hogy tudjunk róla mondani dolgokat.
@jack_of_all_trades: az, hogy a mentális állapotoknak materiális alapjai vannak, nincs valamilyen fizikán túli lélek, azt ma aránylag kevesen vonják kétségbe (alvin platingát szokták ilyenkor említeni), de ez nem segít annak megértésében, hogy mégis mi a hit.
van fred dretskének egy híres könyve a knowledge and the flow of information, amelyben elmagyarázza, hogy van kint a szemantikus információ és ” the mind is an information pick-up system”. megpróbálta leírni ennek a pick-upnak a filozófiáját, de úgy, hogy teljesen elvonatkoztatott az agytól. azt, hogy a hit szemantikus információra vonatkozik (vagy legalábbis a szemantikus információra vonatkozó hitre szorítkozunk) azt elég sokan elfogadták és próbálták pontosítani. valójában már az információ is probléma, a szintaktikus információ egy matematikai fogalom, a szemantikus információ matematizálása (mostanában foglalkoznak ezzel) eléggé macerás. dennett egyik utolsó könyvében le is írja, hogy lehetetlen a szemantikus információ kvantifikációja. kvalitatív információelmélet, elég érdekes, az kicsit olyan, mint a statisztika valószínűségek nélkül..
Az LLM-ekben a neuronok minden valószínűség szerint poliszemantikusak, vagyis egy neuron egszerre rengeteg különböző dolgot (ha úgy tetszik, hitet) reprezentál. Egy jó popsci cikk erről: https://www.astralcodexten.com/p/god-help-us-lets-try-to-understand?hide_intro_popup=true
Az emberi agy neuronjai nyilván még sokkal kaotikusabbak ennél, mert az LLM-ek viszonylag moduláris neurális hálókat használnak, jól elkülönülő rétegekkel. Filozófiai szempontból nem tűnik igazán lényeges különbségnek, hogy van valahol a fejedben egy Kertész John neuron, ami akkor tüzel, amikor (úgy gondolod hogy) Johnt látod közeledni, vagy létezik valamiféle roppant bonyolult függvény, aminek a bemenete az összes neuronod állapota, és a kimente az, hogy hiszel-e John eljövetelében. (Pragmatikusan persze nagyon nagy különbség, mert az előbbi esetben mindenféle célzott módon be lehet avatkozni. Olyat amúgy már csináltak, hogy MRI-zik emberek fejét, miközben mindenféle képeket mutogatnak nekik, aztán egy neurális hálót betanítanak arra, hogy az MRI adatokat osztályozza, és állítólag a végére képes lett megjósolni, hogy mit lát éppen az alany: https://www.mind-video.com/ ) Szóval nem igazán értem, mi a kérdés azon túl, hogy ha a hitet mint élményt és nem mint funkcionális dolgot kezeled, akkor nyilván vissza lehet vezetni a kvália-problémára, amiről még az emberi agy kapcsán se sok okosat tudunk mondani, nemhogy egy LLM-nél.
@jotunder:
Bocs, hadd kérdezzem meg, hogy mit is értesz hiten? Azt, amikor valamilyen tudásunk nem biztos (“azt hitték, hogy csatornákat látnak a Marson” – hiányos információt kiegészítettek, mint utólag kiderült, tévesen)?
Mert szerintem a köznapi “hinni valamiben” az elég sok mindent jelet, jelenti azt, amikor valamiben empirikus input nélkül hiszel (istenben/babonákban/orbánviktorban), azt is, amikor azért, mert valaki mondta (könyvelődnek, befektetés-kezelődnek elhiszed, hogy megvan a pénzed), meg azt is, amikor bizonytalan a tudásod, de azért érzékszervi információn alapul (csak egy pillanatra láttál valamit, vagy csak egy nem elég éles fotón). A második kettő között nincs nagy különbség, de az első és azok között igen, az első fajta hitben nagyon biztosak szoktak lenni az emberek, még akkor is, ha van ellene szóló érzékszervi információ, tehát nem valami “bizonytalannak” megfelelő értéket ad a neurális hálójuk, hanem telibe az igen vagy a nem tartományba bele, és mégis más ez, mint egy rendes tudás.
@tgr:
“Szóval nem igazán értem, mi a kérdés …”
.
A kérdés feltehetően az, hogy a neuroncsoportok kommunikációját interpretálhatjuk-e intelligens hitként és ennek az analógiáját elvileg megtalálhatjuk-e a chatGPT-ben. A kérdés első feléhez kellene egy stabil redukcionista-fizikalista elgondolás, amivel régóta foglalkoznak sokan meglehetősen sovány eredménnyel. Engem inkább az érdekelne, miért kell olyan hagyományos ontológiai előfeltételezésekkel élnünk, hogy léteznek hitállapotok. Inwagent például zavarja ez a feltételezés, és azt mondja – szerintem helyesen -, hogy elegendő tulajdonság-attribúciók mellett elköteleznünk magunkat. Olcsóbb, tisztább és ontológiai szemponból ugyanolyan magyarázó erejű az ő elképzelése.
@szazharminchet: nem tudom, hogy pontosan mit értek hiten.
általában egy olyan reakció (valamilyen ráta szignifikáns megemelkedése) percepcionális értelemben hitszerű, ami 1. kauzális kapcsolatban van azzal, hogy az ágens, ami lehet élő, lehet mesterséges szemantikus információt kapott valahogy. 2. erősen korrelál valamilyen concept megjelenésével.
klasszikus példa a poisson neuron (amiről viták vannak persze). egy poisson neuron kisülési intenzitása korrelál mondjuk azzal, hogy egy szenzort milyen erejű hatás ért. mondjuk ha egy neuron vagy neuronok egy csoportja tipikusan 0.2 kisülési rátát produkál, ez a nyugalmi rátája. ettől szignifikánsan akkor tér el, ha valamilyen környezeti hatás értéke 1 és 2 között van, és valahol az 1.5 környékén van a maximum. ez valamiféle hitként fogható fel. persze ez a neuron nem “tud” a hatásról valójában a hőmérsékleti szenzorokra reagál. és elképzelhető olyasmi, ez érdekel pl. engem, ha egy ilyen neuronális struktúra valójában prediktálja a szenzort. ennél komolyabb hitre nem szoktam gondolni.
@val: ezekben az esetekben a “mentális állapot” mondjuk az, hogy mekkora a kisülés, vagy az, hogy milyen a kisülési mintázat egy windowban, hogyan szinkronizálódik mondjuk két darab kisülési mintázat. az nem probléma, hogy észleljük ezeket a mentális állapotokat, az értelmezés a probléma
@jotunder:: nem arról van szó, hogy „egy adott területen található” a hit (amit nem definiáltunk 🙂), vagy bármely más komplex tudati jelenség. Ez a tudat (amit szintén nem definiáltunk 🙂) értelmetlenségig szimplifikált modellje lenne.
.
.
@val::
Nekem mostanában a legszimpatikusabb a ‘tudat, mint állóhullám’ analógia. Vagyis hogy a tudat (ami eleve több szintű és kompartmentális valami, többszörös önreflexiós/önreprezentációs visszacsatolási hurkokkal stb.) a különféle agyterületek/neuronhálózatok aktivitása/tüzelése következtében létrejövő nagyon összetett kémiai-elektromos jelmintázatok alkotta folyamatos (…) „állóhullám”. És a komplex tudati jellegzetességek megfeleltethetők ezen „állóhullám” különféle paraméterei együttes változási mintázatainak.
.
Azaz a kérdés második felére a válasz szerintem egyértelműen nem. A nyelvi modellek jelenleg még csak szimpla számítógépes programok, amelyek zsebszámítógéphez hasonlóan bekapcsolhatók-kikapcsolhatók, elindíthatók-leállíthatók, tehát semmiféle olyan állandóan változó/reagáló, folyamatosan (…) létező entitást nem generálnak, amelyben esélye lenne másodlagos-harmadlagos reprezentációk kialakulásának.
@jotunder:
Akkor mondom másképp. Itt van egy viszonylag ismert elképzelés a tudatosság fizikai redukciójáról: a Penrose-Hameroff Orch OR elmélet. Ez az elmélet a hullámfügvény neuronokon belüli összeomlásával magyarázza a tudatos élmény fenomenális megjelenését. Nem tudom elképzelni, hogy egy matematikai formalizmusnak bármiféle közvetlen magyarázó ereje lehet a kvalitatív doménen belül. Szerencsére nem vagyok egyedül ebben a szkeptikus hozzáállásban. A következtetésem ugyanaz: érdemes felülvizsgálni, milyen ontológiai előfeltételezésekkel ugrunk neki ennek a kérdésnek.
@jotunder:
Szerintem amit leírsz, az a “hinni” szó köznapi értelmei közül a “bizonytalan tudás”-hoz van legközelebb, ahogy az “Azt hiszem, Pistát láttam azon a régi, életlen kopott fotón.” példamondatban van. Az embernek erősen az az érzése, hogy ebben az értelemben hisz a neurális háló, a karakterfelismerő program is szokta azt hinni, hogy “e” betű van a papíron, pedig valójában “c” és az előző olvasó uzsonnájából egy morzsa. Ez persze nem deduktív matekos érv, hanem egy empirikus indikáció.
@jotunder: na de amit most írsz az akkor hogy jön össze azzal a posztban idézett állítással hogy a tudás az az igazolt igaz hit?
Én amikor sok-sok évvel ezelőtt elmefilozófiával, nyelvfilozófiával, ismeretelmélettel, tudományfilozófiával (illetve leginkább persze ezek közös halmazával) foglalkoztam, kiindulásnak mindig szerettem a Stanford Encyclopedia of Philosophy-t venni, szerintem most is érdekes lehet mindenkinek előbb elolvasni miket írnak a hit kapcsán.
https://plato.stanford.edu/entries/belief/
@val: mivel az emberi agyműködés neuroncsoportok kommunikációjából áll, az nem különösebben kérdés, hogy ezt intelligens hitként interpretáljuk. Hogy a chatGPT analóg-e ezel? Hát valamennyire nyilván igen (nagyon nagy vonalakban hasonlóan épül fel, és valamennyire hasonló teljesítményt is képes produkálni), olyan nagyon nyilván nem (van valamiféle világmodellje, de nagyon kezdetleges, egészen egyszerű feladatokon is elbukik). Ennél értelmesebb válaszhoz ennél értelmesebb kérdés kellene.
@jotunder: “..it’s going to just spit out one token after the other without planning the answer.”
“But… You’re making it sound just one token after the other, one token at a time generation is bound to be simplistic. But if the world model is sufficiently sophisticated that one token at a time… The most likely thing it generates is a sequence of tokens is going to be a deeply profound thing.”
“Ok but then that assumes that the system actually possesses an internal world model.”
“So really goes to the– I think the fundamental question is: can you build a really complete world model– not complete but one that has a deep understanding of the world?”
“Yea. So, can you build this, first of all, by prediction?”
“Right.
“And the answer is probably yes. Can you predict– can you build it by predicting words? And the answer is most probably no. Because language is very poor in terms of– weak or low bandwidth, if you want, there’s just not enough information there.”
.
Szerintem itt sem, de ahogy emlitettem az interjuban sehol nem igazan all meg a “nem igazan vitatta” kitetel, amit irtal. Az, hogy mashol, maskor nem vitatta, en olyan tudasra nem vagyok hitelesitve.
.
Mindezek mellett ertem en, hogy nem errol akarsz ertekezni, es meg azt is erteni velem, hogy az mi lenne, de mivel ez a valasz tegnap ota itt all (elfelejtodott), inkabb elolvasom a tobbi hozzaszolast, mielott megprobalok okos lenni. 🙂
@labrys: Nem tudom, te hogy vagy vele; az én állóhullámom minden este összeomlik és én öntudatlanul fekszem reggelig, amikor aztán valahol a második kávé környékén újra stabilizálódik az állóhullám és újra képes vagyok tudatosan reagálni a környezetemre. Szóval ez a kikapcsolhatatlanság nem biztos, hogy annyira fontos kritérium.
@labrys: Az LLM-ek mögött van egy “agy”. Az az “agy” arra képes, hogy ránéz a világára (ami egy hosszú tokensorozat) és kialakul benne egy elképzelése a következő tokenről. Ez azt jelenti, hogy úgy viselkedik, mintha lenne egy elképzelése arról, hogy mi generálta a tokensorozatot. Ez az ő elsőrendű világmodellje. Az a kérdés, hogy egy ilyen elsőrendű világmodell versenyezhet-e az emberrel. Van, aki szerint igen, van, aki szerint nem. Én hajlok arra, hogy jelenlegi formájában nem.
@jotunder: Mi a kulonbseg a predikcio es a reakcio kozott, es foleg, ezt hogy mered meg, hogy kvantifikalod? Egy GPT tenylegesen prediktalja 99 token feldolgozasa utan a 100. tokent vagy egyszeruen statisztikai valoszinusegek (es nemi mesterseges bizonytalansag) alapjan egyszeruen csak kiszamithatoan reagal?
.
Kicsit tovabblepve: minden logikai kapukbol allo aramkor modellezheto fizikailag is, aram helyett pl folyadekkal. vagy akar dominokkal, stb. Ha epitunk egy megfeleloen komplex (es tagadhatatlanul hatalmas) mechanikai szamitogepet, es futtatunk rajta egy GPT-t, akkor a folyadeknak vagy dominok mozgasanak lesz hite?
@KennyOMG: A predikció azt jelenti, hogy az agy (valódi vagy mesterséges) valamiféle hittel bír arról, hogy milyen szenzori jel érkezik. És ezt updateli folyamatosan. Konkrétan ez a definíció, van, aki ezt Bayesian Brain Theorynak nevezi, a filozófusok Predictive Mind Theorynak. Ennek különböző változatai vannak persze. Nagyjából ezt csinálja a GPT is, valamiféle hipotézist állít fel a következő “szenzori jelre”.
Fred Dretskének van ez a “précis”-e, ami nagyon rövid és a negyedik oldalon magyarázza el azt, hogy ő mit gondol hitként https://home.csulb.edu/~cwallis/382/readings/680/dretske.precis%20knowledge%20flow%20of%20info.pdf kint van a szemantikus információ, történik valamilyen varázslat, ami Dretskét nem érdekli, és utána kialakul a “knowledge as information caused belief”. Engem az a varázslat érdekel, amitől Dretske nagyvonalúan eltekintett.
Ha már a kertész….azért az idegrendszer feldolgozási algoritmusában az időtényező nagyon releváns, hiszen az élőlény léte függhet tőle, az elemzési algoritmusok is erre vannak kihegyezve…..Van-e veszélyhelyzet vagy nincs, az a feltűnő valami zsákmány vagy engemet akarhat (így egyszerűen fogalmazva). Vehetjük ide harmadiknak hogy közömbös, de az előző kettőből ez levezehető. 2. Ha már matek: nem biztos, hogy a binális logika (elemi egységek) a kielégítő, mivel bonyolultá teszi a rendszert. Meg kell várni a négyállapotú kvantum matematikát, hogy a mostani AI-k ne egy városnyi energiát használjanak fel.
@nyulambator: erre próbáltam utalni a „folyamatos” utáni három ponttal; ti. hogy a folyamatos „állóhullám” tételezése az intelligens (tudati) működésre vonatkozik. Azaz amikor épp széthullik a tudatunk/az intelligenciánk, vagy több szintje/kompartmentje időlegesen kiesik – például lázálomban, félálomban, droghatás vagy agyi trauma stb. következtében –, vagy amikor szintén időlegesen teljesen megszűnik, illetve szünetel a tudati/intelligens működés – például mélyálomban, bizonyos fajta kómákban, bizonyos agyi traumák következtében stb. (szélsőséges esetként az agyhalál beálltakor) –, akkor természetesen az „állóhullám” is összeomlik/szünetel/megszűnik.
.
Viszont a nyelvi modelleknél nem létezik olyan állapot, amelyben be vannak ugyan kapcsolva és intelligens tevékenységet is végeznek (azaz valamiféle szubjektumként léteznek), de mégsem szolgáltatnak adatokat.
.
.
.
@jotunder:: önkéntelenül és árulkodón a hozzászólásodban a priori antropomorfizálod ezeket a számítógépes modelleket. 🙂
.
Pedig ezeknek nincs „agyuk”, és nem „néznek rá a világra”, mert ahhoz egy szubjektumra, egy önreflexív, én- és önképpel bíró belső entitásra lenne szükség, amelyben (absztrakt formában) tükröződhet a világ. Ezek a programok viszont nem rendelkeznek efféle „énnel” (sem). Ezért semmiféle „elképzelésük” sem lehet semmiről (ehhez, ismét, másodlagos és harmadlagos reprezentációk szükségeltetnének a részükről).
.
Így nincs nekik világmodelljük sem, és nem azért fognak valamiféle eredményt kidobni, amikor – és amíg! – működtetik őket, mert „elképzelésük” lenne bármiről, hanem mert csak ezt tudják. Nagyon szimplifikáltan megfogalmazva csupán értékeket dobálnak ki különféle algoritmusok alapján különféle adatbázisokból, mindennemű önreflexió vagy belső modell nélkül. És nem is képesek semmi másra. Ahogy egy fapöckök között leguruló golyó sem képes néhány pöcökkel feljebb visszagurulni, vagy a fapöcköket tartalmazó tábla magától átrendeződni.
.
.
.
@val::
?
De hát makroszinten minden esetben összeomlik a hullámfüggvény, különben a kvantumvilág törvényei lennének érvényesek a makrovilágban is. (Például sokszor felforrna a pohár víz az asztalon; elvileg sem lehetne precízen megállapítani, hogy Gézuka az iskolában volt-e szerdán 🙂 stb., stb.)
Egyáltalán, mi lenne ennek a mechanizmusa? Például az összes neuronban lévő összes Golgi-membrán összes nagy szerves molekulájának összes atomja a hullámfüggvény összeomlása miatt hirtelen elkezd viselkedni – hogyan?
kieg.: …a fentiek természetesen csak arra vonatkoznak, ha emberi típusú intelligenciáról beszélünk. A kis zöld emberkék (és, ha már itt tartunk, Pataki Attila) agyműködésével kapcsolatban csak esztétikai megalapozottságú értékítéleteim és elméleteim vannak.
Már megint nem látszik a hozzászólásom. Mostanában nem bírja a linkeket a rendszer. 🤔
@val:: Áá, Sabine épp most beszélt erről… Hááát, továbbra sem vagyok meggyőzve (csak arról, hogy Penrose-ék tényleg kissé bolondok). A tudat kialakulása szvsz biztosan komplexebb jelenség annál, minthogy egyetlen sejtszervecske valamilyen viselkedéséhez legyen köthető.
@labrys:
a Life on the Edge-ben (2014) is ezt nyomják. a warm and noisy place kérdését is nagyon körüljárják, én ezt a költői képet írtam fel magamnak, de lesz ott szakmaibb is: “living systems don’t try to avoid molecular vibration; instead, they dance to its beat.”
egyébként ebben a könyvben nem úgy van, hogy kvantum > tudat, hanem hogy normálisan az élőlények eszköztárában van helyenként, a madarak tájékozódása a föld mágneses mezejével, a fotoszintézis folyamata…
@allofarkucsillagnezo: @labrys:
https://arxiv.org/pdf/2105.02314 ez a Chalmers-McQueen cikk, amelyben részletesen kifejtik ezt az egészet. Chalmers talán a legismertebb tudatfilozófus, ő találta ki a “hard problem of consciousness” kifejezést. A Consciousness and Quantum Mechanics című kötetben jelent meg. ez egy filozófia cikk, nem egy természettudományos magyarázat. szerintem (ez inkább remény) Chalmers ezt nem veszi igazán komolyan (az IIT-t tavaly több kutató nyílt levélben deklarálta áltudománynak). a hard problem miatt azt sem könnyű (lehetetlen?) megfogalmazni, hogy mit fogadnánk el természettudományos értelemben előrelépésnek tudatügyben. az egyetlen új dolog, amit látnak az az, hogy autoregresszív nagy nyelvi modellek képesek úgy viselkedni, mintha tudatosak lennének. mintha. ez egy természetetudományos kjellegű megfigyelés, amiből azért nem következik semmi a tudatra nézvést. egyáltalán semmit nem tudnak a tudatról, akárki akármit is mond, inklúzíve anil seth-et, tononiról és fristonról mit sem szólva. a tudás valamiről nem így néz ki.
“Russian Security Council Deputy Chairperson Dmitry Medvedev threatened Russian internet technology and telecommunications company Yandex because its large language model failed to provide responses that cohere with ongoing Russian information operations.”