Google Assistant: The Evolution of AI Agents

Az utóbbi időben egyre több szó esik olyan AI ügynökökről, amelyek parancsokat tudnak végrehajtani és fizikailag is képesek feladatokat elvégezni, beleértve a telefonon való érintést és csúsztatást. Ez a beszélgetés az AI ügynökök építéséről az „új Google Asszisztensre” emlékeztet, amelyet 2019-ben jelentettek be a Pixel 4-gyel egy időben.

A Google a 2019-es I/O-n először mutatta be ezt az új asszisztenst. Az alapötlet az volt, hogy az eszközön belüli beszéd feldolgozás „majdnem varázslatos érzést keltő érintésvezérlést tesz lehetővé a telefonhoz”.

A Google bemutatta az egyszerű parancsokat, amelyek appok megnyitását és vezérlését jelentették, míg egy bonyolultabb koncepcióban az volt a kérdés, hogy „hogyan tudná az Asszisztens, beépítve az eszközbe, kezelni a feladatokat különböző appok között.” Egy példa az volt, amikor beérkező üzenetet kapott, hangban válaszolt, majd javaslatokat tett és elküldött egy kapcsolódó fényképet. Az „állítások kezelése” és a „több feladat végrehajtása” képessége mellett természetes képességgel bírt az „íráskészség” Gmailben.

Az új asszisztens megjelent a Pixel 4-en ugyanabban az évben, és azóta minden további Google eszközön elérhető.

„Mutass magadról egy szelfit.” Ezután mondd: „Oszd meg Ryannal.”

Egy beszélgetés során mondd: „Válaszolok, már úton vagyok.”

„Keresés jógaórák után a YouTube-on.” Ezután mondd: „Oszd meg anyunak.”

„Mutass Michelle e-maileket a Gmailben.”

Amikor a Google Fotók alkalmazás van nyitva, mond: „Mutass képeket New Yorkból.” Ezután mondd: „Azokat a Central Parkból.”

Amikor egy receptoldal van nyitva a Chrome böngészőben, mond: „Keresés csokis csipkebogyós kekszre.”

Amikor egy utazási alkalmazás van nyitva, mond: „Szállodák Párizsban.”

Ez az AI ügynökök alapötlete. Az Alphabet első negyedéves eredményhívásán Sundar Pichai-t arról kérdezték, hogy hogyan hat az AI modellezés az Asszisztensre. Azt mondta, hogy lehetővé teszi a Google Asszisztensnek, hogy „idővel inkább ügynök-szerűen viselkedjen” és „ne csak egyetlen válaszra korlátozódjon, hanem segítsen a felhasználóknak.”

A legfrissebb információk szerint az OpenAI dolgozik a ChatGPT ügynökre:

„Ezek a lekérdezések azokat a műveleteket eredményeznék, amelyeket egy személy végezne a különböző alkalmazásokkal való munka során, beleértve a kattintásokat, kurzormozgatásokat, szövegbevitelt és más műveleteket” – mondta valaki, aki ismeri ezeket a műveleteket.

A Rabbit is egy nagy műveleti modelllel (LLM) rendelkezik, amelynek célja a meglévő mobil és asztali felületekkel történő interakció a szükséges feladat elvégzése érdekében.

Az 2019-es Google Asszisztens verzió nagyon rögzítettnek tűnt és konkrét kifejezések használatát követte, ahelyett, hogy lehetővé tette volna az emberek számára a természetes beszéd felismerését és az automatikus cselekvések végrehajtását. A Google akkoriban azt mondta, hogy az Asszisztens „zökkenőmentesen működni fog sok apppalkal” és „idővel továbbfejlesztjük az app integrációkat.” Azonban a mi tudásunk alapján ez nem valósult meg, és néhány a Google bemutatott képessége közül nem működött, amikor az app megváltozott. Az igazi ügynöknek képesnek kell lennie az alkalmazkodásra a konkrét feltételek helyett.

Könnyen látható, hogyan javíthatna ez a helyzeten az LLM. Tavaly a Google Research bemutatta a „Conversational Openings lehetővé tétele mobil felületeken, nagy nyelvi modellek használatával” című munkáját.

A Google Research bemutatta megközelítését, amely képes volt „gyorsan megérteni a mobil felület szándékát”:

Érdekes módon megfigyeltük, hogy az LLM korábbi ismereteit felhasználva arra is következtetéseket vont le, hogy olyan információk nem jelentek meg a felületen, amelyek hiányoztak. Például az alábbi példában az LLM következtetett arra, hogy a metróállomások London Tube rendszer részei, még akkor is, ha a bemeneti felület nem tartalmazott ilyen információt.

Válaszolhat kérdésekre a felületen megjelenő tartalommal kapcsolatban és manipulálhatja azt természetes nyelvű utasítások alapján.

Az Android eszközökön elérhető Google Asszisztens egy természetes fejlődése lenne a Google korábbi kísérletének, amely nem vált népszerűvé olyan sokoldalú asszisztensként, amely új módot kínál a telefon használatára. Azonban olyan funkciók, mint az üzenet válaszának átírása és a „küldés” live még mindig létezik a Gboard hangbevitelében.

Úgy tűnik, hogy a Google korábbi erőfeszítései talán túl koraiak voltak és hiányzott belőle a szükséges technológia. Most, hogy itt van, a Google okosan csoportosítson erre a törekvésre, hogy az ágazat élén vezetésre törekedjen.

Gyakran Ismételt Kérdések (FAQ) a cikkben bemutatott kulcsfontosságú témák és információk alapján:

1. Mik az AI ügynökök?
Az AI ügynökök olyan programok, amelyek parancsokat és feladatokat hajtanak végre, például érintési és csúsztatási műveleteket végeznek mobil eszközökön.

2. Mi az az „új Google Asszisztens”?
Az „új Google Asszisztens” egy fejlettebb hangalapú asszisztens, amely lehetővé teszi a felhasználók számára a telefonjuk vezérlését hangutasítások segítségével.

3. Mi volt a cél az új Google Asszisztens bevezetésével?
Az új Google Asszisztens bevezetésének fő célja az volt, hogy lehetővé tegye a felhasználók számára a „telefonkezelést érintés segítségével”, azaz különböző műveletek végrehajtását hangutasításokkal.

4. Mi volt néhány példa a használati esetekre az új Google Asszisztens számára?
Az új Google Asszisztens használati példái közé tartozott az appok megnyitása és vezérlése, hangos üzenetek fogadása és válaszolása, fotók keresése és megosztása, valamint különböző feladatok végrehajtása különböző appokban.

5. Hogyan működtek a korábbi Google Asszisztens verziók?
A korábbi Google Asszisztens verziók szkriptebbnek tűntek és megkövetelték a felhasználók számára, hogy konkrét kifejezéseket mondjanak, ahelyett, hogy felismernék a természetes nyelvet. Nem minden a Google által bemutatott funkció működött a várt módon.

6. Hogyan javíthatnak az AI ügynökök a Google Asszisztens funkcionalitásán?
Az AI ügynökök, mint a ChatGPT és a Rabbit with Large Action Model (LLM), javíthatják a Google Asszisztens funkcionalitását azzal, hogy olyan műveleteket végeznek, mint a kattintások, kurzormozgatások és más műveletek, amelyeket egy ember is végezne különböző appokkal való munka során.

7. Hogyan segíthet az új technológia egy jobb Google Asszisztens létrehozásában?
Az új technológiák, mint például a nagy nyelvi modellek, segíthetnek egy jobb Google Asszisztens létrehozásában, amely gyorsan megérti a felhasználói felületek szándékát és végrehajtja a műveleteket a természetes nyelvű parancsok alapján.

Ajánlott Kapcsolódó Hivatkozások:

– Google.com
– Google Asszisztens
– OpenAI