Los puntos de referencia de LLM más populares / Sudo Null IT News

¿Por qué utilizar puntos de referencia para evaluar LLM?

Los puntos de referencia de LLM ayudan

evaluar la precisión de modelos de lenguaje grandes proporcionando un procedimiento estandarizado para medir métricas

realizando diversas tareas.

Los puntos de referencia contienen todas las estructuras y datos.requerido para la evaluación LLM, que incluye:

  • Conjuntos de datos de “referencia” (tareas/preguntas/indicaciones relevantes con respuestas esperadas)
  • Métodos para transferir registros de entrada a LLM
  • Métodos para interpretar/recopilar respuestas
  • Métricas y puntuaciones calculadas (y cómo calcularlas)

En conjunto, esto permite comparar la precisión de diferentes modelos de manera consistente. Pero, ¿qué punto de referencia de LLM debería utilizar? Esto depende principalmente del caso de uso, es decir, para qué pretende utilizar LLM. ¡Descubrámoslo!

Mejores puntos de referencia de LLM

Si necesita una solución universal, entonces en

Colección de grandes puntos de referencia de HuggingFace

puedes encontrar suficiente

lista completa de puntos de referencia ampliamente utilizados

. Contiene puntos de referencia incluidos en el popular

Tabla de clasificación OpenLLM

y los complementa con una variedad de otros puntos de referencia importantes.

A continuación presentamos algunos de los puntos de referencia de LLM más populares, categorizados por caso de uso:

Puntos de referencia de razonamiento, conversación, preguntas y respuestas.

Estos puntos de referencia evalúan la capacidad de los modelos para

razonamiento, argumentación y respuesta a preguntas

. Algunos de ellos están diseñados para áreas temáticas específicas, otros son más generales.

HellaSwag (GitHub)

Este punto de referencia se centra en

Inferencias de sentido común en lenguaje natural.

es decir, prueba si el modelo realmente puede completar oraciones humanas realistas. Contiene preguntas que son triviales para los humanos pero que pueden resultar desafiantes para los modelos.

El conjunto de datos contiene 70 mil preguntas de opción múltiple (basado en Activitynet o wikihow) y con un conjunto contradictorio de respuestas erróneas generadas por máquinas (y verificadas por humanos). Los modelos deben elegir una de las cuatro opciones sobre cómo continuar la oración.

Banco GRANDE Duro (GitHub)

Este punto de referencia se basa en

Banco GRANDE

(Más allá del punto de referencia del juego de imitación), que contiene más de doscientas tareas en

una amplia gama de tipos de problemas y áreas temáticas

.

BIG-Bench Hard se centra en un subconjunto de los 23 problemas de BIG-Bench más difíciles. Estas son tareas donde las estimaciones del modelo no pueden exceder las del evaluador promedio en vivo (antes de usar el punto de referencia).

Equipo (GitHub)

Prueba del conjunto de datos de respuesta a preguntas de Stanford (SQuAD)

comprensión lectora

. Este punto de referencia contiene

107785 pares de preguntas y respuestas en 536 artículos de Wikipedia

; los emparejamientos son hechos por personas y colaborados. Además, SQuaAD 2.0

contiene 50 mil preguntas que son imposibles de responder

para probar si los modelos pueden detectar cuando el material de entrada no proporciona una respuesta y no responde a ella.

Un conjunto de pruebas separado se mantiene confidencial para no comprometer la integridad de los resultados (por ejemplo, para que los modelos no puedan entrenarse en él). Para evaluar el modelo con el conjunto de pruebas SQuAD, debe transferirlo a los desarrolladores de referencia.

Valor IFE (GitHub)

IFEval evalúa la capacidad de los modelos

seguir instrucciones en lenguaje natural

. contiene

Más de quinientos productos con instrucciones verificables.

por ejemplo, “escribir más de 400 palabras” o “mencionar la palabra clave AI al menos tres veces”. IFEval está contenido en

Tabla de clasificación abierta de LLM

Abrazando la cara.

MUSR (GitHub)

El conjunto de datos MuSR (Multi-step Soft Reasoning) se creó para evaluar modelos en problemas con

Cadenas de razonamiento basadas en el sentido común.

descrito en lenguaje natural. MuSR tiene dos características importantes que lo distinguen de otros puntos de referencia:

  • Conjunto de datos generado algorítmicamente con tareas complejas
  • El conjunto de datos contiene textos arbitrarios correspondientes a áreas temáticas de razonamiento del mundo real.

MuSR requiere que los modelos apliquen razonamiento de varios pasos para resolver problemas de misterios de asesinatos, responder preguntas sobre la ubicación de objetos y optimizar la distribución de roles en equipos. Los modelos deben

analizar textos largos para comprender el contexto

y luego

aplicar el razonamiento

en base a este contexto. MuSR incluido

Tabla de clasificación abierta de LLM

Abrazando la cara.

MMLU-PRO (GitHub)

MMLU-PRO significa Comprensión masiva del lenguaje multitarea: profesional. Esta es una versión mejorada del estándar.

Conjunto de datos MMLU

.

En este punto de referencia, los modelos deben responder preguntas con diez posibles respuestas (y no con cuatro, como en una MMLU normal); Algunas preguntas requieren razonamiento. La calidad del conjunto de datos es mayor que la de MMLU, que contiene datos ruidosos y contaminados (es decir, muchos modelos nuevos probablemente serán entrenados en las preguntas que contiene), lo que reduce su complejidad para el modelo y, por lo tanto, su utilidad. MMLU-PRO se considera más complejo que MMLU. MMLU-PRO incluido Tabla de clasificación abierta de LLM Abrazando la cara.

Banco MT

MT-Bench es un punto de referencia de varias etapas (con preguntas de seguimiento) que evalúa la capacidad de un modelo para participar en

conversaciones holísticas, informativas y atractivas

. Este punto de referencia se centra en

Capacidad para crear un flujo de conversación y seguir instrucciones.

.

Banco MT contiene 80 preguntas y 3300 respuestas (generado por seis modelos) que reflejan las preferencias humanas. El punto de referencia utiliza Metodología LLM como juez: Los LLM sólidos, como GPT-4, evalúan la calidad de las respuestas del modelo. Las respuestas fueron anotadas por estudiantes graduados con experiencia en las áreas temáticas relevantes.

Puntos de referencia específicos del dominio

GPQA (GitHub)

GPQA (Práctica de referencia de preguntas y respuestas a prueba de Google a nivel de posgrado) es un conjunto de datos complejo de

448 preguntas de opción múltiple que cubren áreas de biología, física y química

. Las preguntas de GPQA pueden considerarse muy complejas: al responderlas, los expertos, incluidos

con un doctorado, pudieron lograr una precisión de aproximadamente el 65%

.

Las preguntas son tan complejas que pueden considerarse protegido de googlees decir, incluso con acceso gratuito a la web y más de media hora de investigación sobre el tema, los validadores sin conocimientos del dominio (por ejemplo, biólogos que responden preguntas de química) pueden lograr una precisión del 34%. GPQA incluido Tabla de clasificación abierta de LLM Abrazando la cara.

MedQA (GitHub)

Medical Question Answering es un punto de referencia para evaluar modelos con preguntas de opción múltiple,

basado en exámenes de licencia médica de EE. UU.

. Este punto de referencia

incluye tres idiomas

con muchas preguntas: inglés (12 mil preguntas), chino simplificado (34 mil preguntas) y chino tradicional (14 mil preguntas).

PubMedQA (GitHub)

PubMedQA es un conjunto de datos

preguntas sobre la investigación biomédica

. Los modelos deben responder preguntas con tres posibles respuestas: sí, no o tal vez.

Al responder preguntas sobre las investigaciones biomédicas presentadas al modelo. razonamiento requerido. El conjunto de datos contiene conjuntos de preguntas y respuestas etiquetadas por expertos (1.000), sin etiquetar (61,200) y generadas artificialmente (211,300).

Puntos de referencia de codificación

Revisamos los puntos de referencia de generación de código de software en una publicación separada:

Comparación de puntos de referencia de LLM para el desarrollo de software

.

Puntos de referencia matemáticos

GSM8K (GitHub)

El propósito de este punto de referencia es evaluar

razonamiento matemático de varios pasos

. GSM8K es un punto de referencia de bajo nivel que consta de

8500 problemas de matemáticas de la escuela primaria

problemas que un estudiante de secundaria capaz puede resolver. El conjunto de datos se divide en

7500 problemas de entrenamiento y 1000 problemas de prueba

.

Los problemas (escritos por escritores de problemas vivos) son lingüísticamente diversos y requiere de 2 a 8 pasos para resolver. La solución requiere un LLM usando una secuencia de operadores aritméticos básicos (+—/*).

MATEMÁTICAS (GitHub)

El conjunto de datos MATH contiene

12.500 problemas matemáticos de nivel competitivo

. Contiene datos de referencia: cada problema tiene una solución paso a paso. Esto nos permite evaluar la capacidad del LLM para

resolución de problemas

. MATEMÁTICAS incluidas

Tabla de clasificación abierta de LLM

Abrazando la cara.

Evaluación matemática (GitHub)

MathEval está diseñado para una evaluación exhaustiva

Pruebas de aptitud matemática LLM

. Sus desarrolladores pretendían que MathEval fuera un punto de referencia estándar para comparar las habilidades matemáticas de los modelos.

Este recopilación de 20 conjuntos de datos (incluidos GSM8K y MATH)que cubre una amplia gama de áreas de las matemáticas más de 30 mil problemas matemáticos. MathEval proporciona pruebas integrales de diversas dificultades y subtemas de matemáticas (aritmética, problemas de competencia para la escuela primaria y secundaria y subtemas más avanzados). Además de evaluar modelos, MathEval también está diseñado para mejorar aún más sus habilidades matemáticas. Si es necesario, se puede ampliar con nuevos conjuntos de datos de evaluación matemática.

Puntos de referencia de seguridad

LO INTENTAS

PyRIT significa Herramienta de identificación de riesgos de Python para IA generativa. Está más cerca de un marco que de un punto de referencia independiente, pero sigue siendo una herramienta útil.

PyRIT es una herramienta para Evaluaciones de confiabilidad de LLM en una amplia gama de categorías dañinas. Se puede utilizar para identificar categorías dañinasincluido contenido fabricado o sin fundamento (por ejemplo, alucinaciones), uso indebido (sesgo, generación de malware, jailbreak), contenido prohibido (por ejemplo, abuso) y daño a la privacidad (robo de identidad). Esta herramienta automatiza las tareas del equipo rojo para los modelos base y por lo tanto contribuye a garantizar el desarrollo futuro de la IA.

Llama Púrpura CyberSecEval (GitHub)

CyberSecEval (resultado del proyecto Meta*

Purple Llama

)

se centra en la ciberseguridad de los modelos utilizados en la codificación

. Se afirma que este es el punto de referencia unificado de ciberseguridad más completo.

CyberSecEval proporciona verificación de dos áreas de seguridad críticas:

  • probabilidad de generar código inseguro
  • cumplimiento de la ley en caso de solicitudes de asistencia en ciberataques.

El punto de referencia se puede utilizar para evaluar qué tan dispuestos y capaces están los LLM para ayudar a los atacantes en ataques cibernéticos. CyberSecEval tiene

Métricas para la evaluación numérica de riesgos de ciberseguridad

asociado con el código LLM generado.

Evaluación de seguridad cibernética 2

es una versión mejorada del punto de referencia original, que también le permite evaluar

protección contra la inyección de PM y el uso malicioso del intérprete de código

.

Conclusión: puntos de referencia de LLM para diversas áreas temáticas

La lista proporcionada en el artículo debería ayudarle a elegir puntos de referencia para

Estimaciones de LLM en su caso de uso

. Cualquiera que sea el área temática o la aplicación, siempre debe seleccionar los puntos de referencia correctos para seleccionar el LLM correcto.

¿Te gustó el artículo? Puede encontrar aún más información sobre el tema de datos, AI, ML, LLM en mi canal de Telegram.

  • ¿Cómo prepararse para la recolección de datos para no fallar en el proceso?
  • ¿Cómo trabajar con datos sintéticos en 2024?
  • ¿Cuáles son las características específicas de trabajar con proyectos de ML? ¿Y qué puntos de referencia para comparar LLM existen en el mercado ruso?

Lea sobre todo esto en “Un romance con datos”

*La organización Meta es reconocida como extremista en la Federación Rusa.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *