The Kangaroo Framework: A Leap Forward in Real-Time Language Processing

A természetes nyelvfeldolgozásban (NLP) történő innovatív lépések továbbra is javulnak a nagy nyelvi modellek (LLM) terén, és a legújabb fejlesztés a Kangaroo keretrendszerben jelentkezik. A kutatók azon dolgoznak, hogy megoldást találjanak azokra a késleltetett következtetések sebességére, amelyek akadályozzák a LLM-ek valós idejű alkalmazási lehetőségeit.

A szöveggenerálás gyorsításának tipikus megközelítései spekulatív dekódolási módszereket foglalnak magukba, amelyek különálló vázlattárs modellekre támaszkodnak. Habár ezek a módszerek párhuzamosan gyorsítják a token generálást, továbbra is korlátozottak a magas képzési költségek és a késedelem problémák miatt, amelyek az további vázlatmodellek fenntartásával járó nagy számítási igények miatt jelentkeznek.

Az előugró technikák, mint a Medusa és a Lookahead, hatékonyabb megközelítést próbálnak alkalmazni azáltal, hogy a vázlattámogató modellek méretét csökkentik a késedelem minimalizálása érdekében. Ezek a módszerek az elsődleges LLM-ekkel együtt működnek, azonban hátrányaik is vannak, mivel a leegyszerűsített modellek is jelentős számítási erőforrásokat igényelnek.

Válaszul a Huawei Noah’s Ark Lab bemutatja a forradalmi megoldást a Kangarooval. Ez a keretrendszer túllép a spekulatív dekódolás magas késésén olyan új, veszteség nélküli önspekulatív módszerrel, amely eltávolítja az összetett vázlatmodellek iránti függést, és helyette egy könnyű és fix sekély összehálózatot alkalmaz az LLM-ből egy vázlattámogató modellként. Egy adaptermodul, amelyet arra képeznek ki, hogy összekapcsolja ezt a szubhálózatot a teljes modellal, megkönnyíti a gyors, mégis pontos token előállítást.

A Kangaroo hatékonyságát növeli egy korai kilépési mechanizmus, amely leállítja a kis modell predikcióját, ha egy token iránti bizalom egy bizonyos küszöb alá csökken, minimalizálva ezzel a szükségtelen számítási erőfeszítéseket. A többfejes figyelemmechanizmusból és két normalizációs rétegből álló adaptermodul felügyeli a tokenek elfogadásának és a vázlalkozási sebesség fenntartásának egyensúlyát.

A Kangaroo keretrendszer tesztelése a Spec-Bench nevű intenzív benchmark tesztekkel jelentős eredményeket mutatott. Kiemelkedően egy 1,7× sebességfokozódást biztosított, miközben 88,7%-kal kevesebb további paramétert igényelt más modellekhez képest, mint például a Medusa. Az ef

Ha valaki több információra vágyik az NLP és a kapcsolódó technológiák terén, érdemes lehet megfontolni a következő linkek felfedezését:

Szövegfeldolgozásért Alakított Szövetség
Mesterséges Intelligencia Előrejuttatásaért Alakított Szövetség
NVIDIA (információk az AI hardvergyorsításról)