Magyarország esete a Nagy Nyelvi Modellekkel avagy az igazi NER
Az OpenAI balhé egyik kövekezménye, hogy három vezető kutatójuk is lelépett Sam Altmant követve: Jakub Pachocki, Aleksander Madry and Szymon Sidor. Ilya Sutskever (ő veszett össze Altmannal), és a másik érdekes figura is marad, a pozsonyi születésű Andrej Karpathy. Most nem a szuperintelligenciáról és szuperhájpról beszélek, hanem egy olyan niche-ról, egy olyan lehetőségről, amire akár Kelet-Európa is képes rámozdulni. Nem százmillió dollárokról van szó, csak nagyon okos fiúkról és lányokról (miért is ne?) akik képesek egy hétvégén megépíteni egy baby-GPT-t (azt tulajdonképpen nekem is meg kellene tudnom csinálni egy hónap alatt, de minimális gyakorlatom van, nagyon nem ez az életem, persze rohadtul érdekel).
“Azáltal pedig, hogy súlyos betegségek megelőzhetők, csak Magyarországon akár évi 1500-2000 milliárd forintot megspórolhatunk az egészségügyben azzal, hogy egyre kevesebb költséges terápia válik szükségessé. Íme, egy újabb példa: ezért éri meg, hogy világszínvonalú magyar kutatásokat és a legégetőbb társadalmi vagy gazdasági kihívásokra megoldásokat kínáló innovációkat támogassunk.”
Ezt mondja a kormányzat. Krausz Ferenc hetvenötmilliárd forinttal támogatott programjában a lézer csak eszköz. Van egy Nature-ben publikált proof of conceptjük, egy óriási adathalmazt kellene kíépíteniük, de ez a projekt még csak nem is totálisan molekuláris biológia centrumú. Nekem nem ez a szakmám, de ami Krauszéknál keletkezik, az rengeteg nyers adat (ezek valamiféle gyors fourier transzformációval nyert spektrogramok, ha jól értem), ez pedig tulajdonképpen mindenkinek megvan, százezrével írtak erről cikkeket. Krauszék jobban csinálják a lézeres részt, de a vége az, és ezt ő is elmondta, hogy újat kellene kitalálni AI-ból arra, hogy kiolvassanak valami értelmeset abből a rengeteg nyers adatból.
Itt jön a poszt kisebb okoskodása, előre is sorry. Annyi nekem azért lejött a nagy nyelvi modellekről, hogy ezek nem sztochasztikus papagájok. A sztohasztikus papagáj egy adatsor következő bitjét az empirikusan elérhető statisztikával érne el (ha valaki megnézi Andrey Karpathy 15 bites (!) korpuszon tanított baby-GPT-jét, az bizony látja, hogy ez a Markov lánc ergodikus, és simán meglátogatja pl. 000-t, aki ugye egyáltalán nem is volt benn a korpuszban), a nagy nyelvi modellek, de a transzformernél jóval egyszerűbb nyelvi modellek is, nemcsak a következő bitre tesznek javaslatot, hanem arra a sztochasztikus folyamatra, ami létrehozta a korpuszt. Arra már a nyolcvanas években rájöttek, amikor még a cseh-amerikai(hát igen) Frederick Jelinek az első bigram modellt megcsinálta, neurális hálózatok nélkül, hogy itt tipikusan olyan szituációkban kell dönteni, ami nem volt benne a korpuszban. Ezért “tud” valamit egy ilyen jószág, ezért találhat “meaninget” olyasmiben, amiben az ember nem lát semmit. Ez az, amit Binder et. al. az “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜” -ben kissé hanyagul kezelt. Szóval kellene egy nagy nyelvi modell, ami Krauszék adatai mögé tud nézni kauzalice. Okoskodás off.
Az ember azt gondolná, hogy itt több tucat AI-s fiatalra lenne szükség, akik 1. elég nagy spílerek. 2. képesek kommunikálni molekuláris biológusokkal és lézerfizikusokkal. Nekem az jött le, hogy enélkül ez az egész iszonyúan risky. Ha viszont valaki, képes olyat leírni, hogy évi 1500-2000 milliárd, akkor legyen már képes végiggondolni azt a lehetséges utat, ami ennek akár a huszadához vezethet.
Ez nem Alex Sorosos-van der Leyenes plakát, szemétkedni minden bayerzsolt tud, és nem is tudománypolitikai keménykedés, ez lenne az igazi nemzeti együttműködés, amihez a Megafon dilinyósai kicsit kevéskének tűnnek.
Nem szeretnék kekeckedni, de az “amilyük van az rengeteg adat” tagmondatban birtokos jelnek kellenne lennie… (és egy vesszőnek is)…
A többiből elég keveset értek, sajnos…
@Bogomil: kicsit kipofoztam azt a mondatot.
Erdekes kerdesfelvetes, amire viszontkerdeznek (erosen preface-elve azzal, hogy en meg nalad is nagysagrendekkel kevesebbet, ok, semmit sem tudok ezekrol a transzormerekrol): ha a Rumsfeldi “unknown unknown”-t szeretnenek megtalalni egy adathalmazban, felteteleze, hogy benne van, es feltetelezve, hogy feltetelezzuk, hogy benne van, akkor azt egy gpt hogy fogja nekunk kibanyaszni? Tehat ott van mondjuk Krausznak a sok spektrogram (de ugyanigy lehetne mondjuk a temerdek szekvenalt, de fel nem dolgozott DNS-t is mondani), amiben szerintunk van valami, de nem tudjuk, hogy mi. Egy AI-nak hogy kellene rajonnie arra, mi az, ami ebben van?
Ha ellenben azt mondjuk (elnezest, egyszerub pelda), hogy itt van 1k rakos meg 10k egeszseges ember DNS-e, mondd meg mitol lesz valaki rakos, akkor miben tobb, mint egy szofisztikalt statisztikai szoftver?
Minden is mindennel is összefügg. Vagy mégsem. Is. Az ember csak egy statisztika.
@KennyOMG: én inkább az orvosbiológia részéhez konyítok valamit… szóval ez itt az én megértésem szerint nem más mint egy klasszikus biomarker keresés, large-scale populációs hosszmetszeti vizsgálat segítségével. Nem véletlen, hogy erre nemhogy piaci, de még klasszikus K+F kompetitív grant alapú finaszírozást sem lehet szerezni, ez ugyanis egy nagy ugrás a sötétbe rettenet sok pénzért. Lényegében egy csomó embertől vesznek le rendszeresen vért, aztán követik, hogy kivel mi történik, plusz néznek már ismert egyéb biomarkert/általános laborparamétereket, a kimenetel (meg amit még kitalálnak) alapján csoportokat képeznek és ráengedik az AI-t, hogy keressen specifikus mintázatot. A UK Biobank volt egy ilyen (egyébként nagyon sikeres) populációs mintagyűjtési/tárolási projekt, az amúgy aztán rengeteg publikációt alapját képezte. Egy jól felépített, dokumentált mintatár iszonyatos érték, kérdés, hogy megvan-e ehhez az expertise (vagy legalább a felismerés, hogy ehhez tipikusan kevés 2-3 nullkilométeres PhD hallgató). Igazából postdocból/PI-ból se sok van itthon, akinek ilyesmiben tapasztalata lenne projektvezetői szinten. És ehhez vegyük hozzá, hogy ha ebből tényleg klinikumban használható eszközt akarnak fejleszteni, akkor a dokumentációs szintnek (és pl. a laborok meg a folymatok minőségbiztosításának) nem csak a publikációhoz, de egy FDA engedélyeztetési folyamathoz is elégnek (kéne) lennie… Egy ilyen projektben az orvosbiológia rész (ie. a klinikai vizsgálat – mert ez az) jellemzően sokkal drágább, mint a műszaki fejlesztés (vagy a kémia/biológia – gyógyszerfejlesztésnél). Ökölszabály szerint a gyógyszereknél a fejlesztési költség 70-80% a fázis III-ra megy el…
@deckard_r: Ezt ertem, de ez alapjan known unknown-t keresunk, ami azert annyira nem tunik fantasztikusnak, es ez az egesz projekt nem mas, mint a betanitasi fazishoz valo adatgyujtes. Nem ugy nez ki, hogy a gpt megeszi csak a spektrogramokat, es magatol kitalalja, mit keresunk, es az mitol relevans.
Abban egyebkent tokeletesen igazad van, hogy mekkora ugras a sotetbe: “Minden technológiai fejlesztés ellenére a molekuláris ujjlenyomatok által hordozott információ nem biztos, hogy elegendő az egészségi állapot átfogó vizsgálatához.”
Én ehhez annyit értek, mint hajdú a harangöntéshez, de ez pl. itt esetleg nem pont valami olyasmi, mint amit a cikk feszeget: https://www.biorxiv.org/content/10.1101/2023.11.09.566411v1 (?)
@steinerzsiga: ez egy 3-gram model, 4 karakterre (A,G,C,T nukleotidok), az egyik transzformer fajta, fogalmam sincs, hogy ebben a világban ez mennyire jó, lehet látni, hogy mekkora volt a training set, ezt valamennyire talán el tudom képzelni, ami a Krausznak kellene, azt nem tudom elképzelni.
@deckard_r: ha jól értem 15000 ember többéves követéséről lenne szó.
@KennyOMG: nem gondolod, hogy én ehhez értek. ha ez nem lenne borzalmasan nehéz ügy, akkor gondolom már megcsinálták volna. a furcsa mintázatok megkeresése úgy, hogy még sohasem láttuk őket… ilyet már csinált AI, ennyit értek az egészből.
@jotunder: szerintem igen. Viszont ez egy meglehetősen nagy és drága feladat, ha nem is különösebben innovatív, de releváns tapasztalat nem árt hozzá, azt meg vagy biobank építésben (akadémia szféra), vagy klinikai vizsgálat tervezés/szervezésben (leginkább gyógyszeriparban) eltöltött tetemesebb idővel lehet szerezni.
@jotunder: Vegre rajottem, mi motoszkalt a fejemben a az emlitett “000 vizitalos” dologgal kapcsolatban… Anno volt egy (nagyon jo, boven evjateka stb) PCs jatek UFO Enemy Unknown neven. Megszallo UFOk ellen kellett hadakozni, reszben real time strategia (bazisepitos resource management), reszben korokre osztott taktikai (kis szurke idegeneket lelovoldozni). Utobbi eseteben ugye az idegeneknek (es a human civileknek is) kellett valamifele AI, ne csak alldogaljanak magukban, hanem legyenek aktorok. Ettol az AI-tol 1994-ben konkretan mindnekinek leesett az alla: bar voltak teljesen idiota, kifejezetten elmeroggyant megoldasai is, esetenkent ugy csobe tudta huzni az embert, hogy pislogni sem volt erkezese. Senki nem tudta, hogy hogy csinaltak, relative sokaig mindenki csak talalgatott. Aztan kiderult: alkalmasint direkt nem a legoptimalisabb cselekedetet hajtotta vegre a karakter, hanem a szuboptimalisakbol mazsolazott veletlenszeruen.
Szoval a kicsit hosszura nyult kerdes: a 000 az nem csak egy percepcios teljesitmeny-e (mi latjuk bele azt, hogy…), ahogy az UFO szuboptimalis megoldasainal is “magasabb intelligencia” (jobban kidolgozott rutinok) jelenletet felteteleztek a juzerek egyszeruen azert, mert nem fert bele a gondolatvilagba, hogy egy szamitogepes jatekban nem a legjobb megoldast hasznaljak? (Chess Genius ugyanabban az evben volt, Deep Blue ket evvel kesobbi, csak a korszellemhez emlekezteto)
@KennyOMG: a 000 nem teljesítmény. mit tudhatja az bárki, hogy mi ez a 15 bit, lehet, hogy egy olyan reguláris nyelv egy darabja, amiben le van tiltva a 000. 🙂 van valamiféle q optimalizációs függvény, ami méri azt, hogy egy kísérlet mennyire “jó” és 50 round után előállított egy ilyen Markov-láncot. mivel a training set az, ami, hát csak a q-ra nézvést lenne értelme annak, hogy megmondjuk, hogy akkor ez most mennyire jó. mivel két token van és nagyon rövid a training set, nem igazán csoda, hogy egy látszólag kizárt konfigurációt megjelentít. én ezt nem látom át, amit én szeretnék megírni, azt sajnos pont nem tudom, annál az bonyolultabb 🙁