La compañía norteamericana NVIDIA ha publicado de forma oficial su modelo Llama-3.1-Nemotron-70B-Instruct. El modelo Nemotron, basado en Llama3.1 70B de META, consiste en un gran modelo de lenguaje personalizado por NVIDIA para mejorar la utilidad de las respuestas generadas por LLM.
Para ello, NVIDIA utiliza datos estructurados de ajuste fino que dirigen el modelo y le permiten generar respuestas más útiles. El modelo, con solo 70.000 millones de parámetros, supera con creces su categoría. Según la compañía, el modelo está superando a los mejores modelos actuales de laboratorios punteros como GPT-4o de OpenAI y Claude 3.5 Sonnet de Antrophic, que actualmente son los líderes en los benchmarks de IA.
Así, en evaluaciones como Arena Hard, la NVIDIA Llama3.1 Nemotron 70B logra 85 puntos, mientras que GPT-4o y Sonnet 3.5 obtienen 79,3 y 79,2, respectivamente. En otros benchmarks, como AlpacaEval y MT-Bench, NVIDIA también ocupa el primer puesto, con 57,6 y 8,98 puntos obtenidos. Por su parte, Claude y GPT alcanzan 52,4 / 8,81 y 57,5 / 8,74, justo por debajo de Nemotron.
Este modelo lingüístico se entrenó mediante el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), utilizando específicamente el algoritmo REINFORCE. Para ello, se utilizó un modelo de recompensa basado en una arquitectura de modelo lingüístico de gran tamaño y se diseñaron indicaciones de preferencias personalizadas para guiar el comportamiento del modelo.
Como punto de partida, el entrenamiento comenzó con un modelo de lenguaje preexistente ajustado a las instrucciones. Como política inicial, se entrenó con las instrucciones Llama-3.1-Nemotron-70B-Reward y HelpSteer2-Preference sobre un modelo Llama-3.1-70B-Instruct. Para ejecutar el modelo localmente se requieren cuatro GPUs de 40 GB o dos de 80 GB de VRAM y 150 GB de espacio libre en disco.
Vía: TechPowerUp