Q*
Gaga in AI-land
tech | Wes Roth,YouTube | 26 nov 23
Tot nu toe werken Large Language Models aan de hand van mensen, die antwoorden controleren, vragen stellen, grenzen stellen. Zou het niet handiger en sneller zijn als we ze lieten opvoeden door een ander computer, een andere LLM?
Dat gebeurt al. Dat heet nu 'Reinforcement Learning AI Feedback' (RLAIF).
En het bestaat al jaren, zij het in een andere variant.
Google Deep Mind maakte Alpha Go, dat in 2016 een grootmeester in Go versloeg. Dat programma trainde eerst door duizenden spellen na te spelen. Maar zo werd hij niet slimmer dan mensen. Dat gebeurde pas doordat hij zichzelf ging verbeteren.
Een OpenAI techneut vraagt zich nu af: moeten we niet dit zelflerende element toevoegen aan LLM's? Dan zouden we eerst twee ingewikkelde systemen aan elkaar koppelen voordat we de volgende sprong in AI kunnen maken.
Dat kan, maar hoeft niet. Bestaande LLM's kunnen nu al veel, alleen langzamer en duurder. (Terzijde: Alpha Go in 2015 speelde beter toen hij bij iedere zet een minuut bedenktijd kreeg.) Dit geeft een hoopvol perspectief: je kunt een schuur met computers volbouwen die zich aan een beperkte taak wijden. Die zou dan, heel langzaam en voor enkele tientallen miljoenen euro's, als een verrekijker een blik kunnen geven in wat de toekomst van AI zou brengen. Dat zou weer kunnen helpen bij het bedenken van manieren om toekomstige AI-modellen veiliger te maken.
We weten ook dat bestaande modellen beter worden als je ze groter maakt. Dat hebben ze bij OpenAI met modellen bewezen. Een beetje zoals vroeger de Amerikaanse autofabrikanten redeneerden: 'There ain't no substitute for cubic inches.'
Dus misschien is het best mogelijk dat Q*, het veelbesproken model van OpenAI, al een grote sprong heeft gemaakt. Maar een LLM die kan rekenen ('can formulate a non-trivial mathematical conjecture' correct gezegd), zoals nu wordt gespeculeerd, daar is toch meer voor nodig?
Nee, ook daar is al een voorbeeld van. Er is nu al een AI die uit triljoenen opties de goede kan kiezen. We kunnen al een tijdje aminozuren identificeren, de bouwstenen van proteïnen. Maar om een protein te worden moeten ze zich configureren ('vouwen) in een eindeloos ingewikkeld driedimensionaal patroon. Daar zijn triljoenen variaties mogelijk - letterlijk: meer vouwen dan er atomen in het heelal zijn. Maar er is een AI die dat aan kan. Die heet AlphaFold (gelanceerd in 2022) en kan voorspellen welke vorm een bepaalde set aminozuren zal aannemen. (Luister deze Economist podcast om te leren waarom dat belangrijk is voor medische wetenschap).
Dus de prestaties van Q*, als ze al bestaan, zijn niet zo ver verwijderd van wat al bestaat, en ook goed voor te stellen voor mensen die dagelijks met AI werken.