Az AI következő szakasza: méretnövekedés, akciók és agentek

Mihályi Antal, a Google budapesti fejlesztőközpontjának vezetője a technológiai forradalomra helyezte a hangsúlyt, amely meghatározza a mai mesterséges intelligencia gyakorlati értékét.

Az utóbbi időszak kulcsfejlesztései: drasztikusan nagyobb kontextus‑ablakok, amelyek könyveket és hosszú videókat tesznek feldolgozhatóvá; valós idejű streaming a természetes, élőbeszéd‑szerű interakcióhoz (például Gemini Live); valamint a modellek képessége külső eszközök meghívására és feladatok elvégzésére (repülőjegy‑foglalás, naptárbejegyzés stb.). Ezek együtt a nyelvi modelleket passzív válaszadóból multimodális, cselekvőképes platformmá alakítják.

Gazdasági szempontból az agentek jelentik a megtérülést: skálázható, személyre szabott marketingkampányok, automatizált naplóelemzés biztonsági célokra, valamint kreatív munkaautomatizálás (képszerkesztés, videógyártás), amelyek már most reklámokban jelennek meg. A benchmarkok a Gemini‑t az élmezőnybe sorolják; a modellcsaládok iránya a gyorsabb, olcsóbb verziók felé megy, míg a nyílt forráskódú kisebb modellek asztali gépeken és telefonokon is futtathatók. A budapesti Agent Space gyakorlati megoldásként, a biztonság és ellenőrizhetőség hangsúlyozásával mutatja be, hogyan lehet a fejlesztést vállalati alkalmazásokká fordítani.