The Kangaroo Framework: A Leap Forward in Real-Time Language Processing

Les progrès innovants dans le traitement du langage naturel (NLP) se poursuivent avec des avancées dans les grands modèles de langage (LLM), et le plus récent développement se présente sous la forme du cadre Kangaroo. Les chercheurs s’attaquent aux vitesses d’inférence retardées qui ont entravé le potentiel d’application en temps réel des LLM.

Les approches typiques pour accélérer la génération de texte impliquent des méthodes de décodage spéculatif qui reposent sur des modèles de brouillon séparés. Bien que ces méthodes de génération de jeton parallèle accélèrent le processus dans une certaine mesure, elles sont toujours limitées par des coûts de formation élevés et des problèmes de latence dus aux importantes exigences computationnelles liées à la maintenance de modèles de brouillon supplémentaires.

Des techniques émergentes telles que Medusa et Lookahead tentent de trouver un chemin plus efficace en réduisant la taille des modèles de brouillon pour diminuer la latence. Ils fonctionnent de concert avec les LLM principaux mais ne sont pas sans inconvénients, car même les modèles simplifiés sollicitent les ressources computationnelles.

En réponse, le laboratoire Noah’s Ark de Huawei introduit un processus révolutionnaire avec Kangaroo. Ce cadre contourne la latence élevée du décodage spéculatif avec une méthode spéculative auto-exempte novatrice. Kangaroo se sépare de la dépendance aux modèles de rédaction externes et emploie à la place un sous-réseau léger et fixe du LLM pour servir de modèle brouillon. Un module adaptateur, formé pour relier ce sous-réseau avec le modèle complet, facilite une production de jetons rapide mais précise.

L’efficacité de Kangaroo est renforcée par un mécanisme de sortie précoce qui arrête la prédiction du petit modèle lorsque la confiance en un jeton chute en dessous d’un certain seuil, minimisant les efforts computationnels inutiles. Composé d’un mécanisme attention multi-tête et de deux couches de normalisation, le module adaptateur gère l’équilibre entre l’acceptation des jetons et le maintien de la vitesse de rédaction.

Les tests du cadre Kangaroo à travers des benchmarks intensifs comme Spec-Bench ont montré des résultats remarquables. Notamment, il a offert un 1,7× gain de vitesse tout en nécessitant 88,7% de paramètres supplémentaires en moins par rapport à d’autres modèles tels que Medusa. La combinaison de la conception efficace du réseau adaptateur et d’un mécanisme de double sortie précoce soutient ces avancées.

Kangaroo établit une nouvelle norme pour les LLM dans les environnements en temps réel, combinant une latence réduite avec une précision maintenue, prêt à révolutionner la façon dont nous implémentons de grands modèles de langage dans les applications instantanées.

The source of the article is from the blog coletivometranca.com.br