top of page
bg.webp

Google lanza FACTS, diseñada para detectar las mentiras de la IA

Con la creciente prevalencia de las aplicaciones de IA generativa, el problema más problemático de las "alucinaciones" de los grandes modelos lingüísticos (LLM), es decir, la IA que emite disparates, sigue siendo un problema que la industria se esfuerza por resolver.


ree

Para cuantificar con mayor precisión la honestidad de la IA, Google, en colaboración con sus equipos de Google DeepMind, Google Cloud y Kaggle, ha publicado un conjunto de algoritmos llamado FACTS (Evaluación de la Factualidad para la Síntesis de Textos Contemporáneos).


Este punto de referencia, considerado la "prueba definitiva" de la autenticidad de la IA, no solo evalúa preguntas sencillas de preguntas y respuestas, sino que también abarca la comprensión de imágenes y el uso de herramientas. Cabe destacar que incluso el Gemini 3 Pro, que actualmente cuenta con las especificaciones más robustas, solo logró una precisión promedio de aproximadamente el 69 % en esta prueba, lo que indica que, en esta etapa, la IA aún tiene un margen considerable que superar para lograr una fiabilidad total.


Cuatro grandes retos: no sólo hay que ser capaz de responder, sino también hay que "saber lo que se sabe".


ree

A diferencia de las pruebas tradicionales que solo apuntan a la generación de texto, el punto de referencia FACTS consta de cuatro subpruebas que apuntan a diferentes capacidades, similar a un chequeo integral de IA:

• M-FACTS (Pruebas multimodales):Esto pone a prueba la visión de la IA y su capacidad para combinar conocimientos. Por ejemplo, al mostrarle a una IA la imagen de un modelo específico de tren, esta no solo debería poder identificarlo, sino también responder preguntas sobre información más detallada, como el año de fabricación, en lugar de simplemente describir la apariencia de la imagen.

• P-FACTS (Pruebas paramétricas):Se trata de un examen sorpresa. La IA debe responder preguntas difíciles sin conexión, basándose únicamente en su base de conocimientos de entrenamiento. Google emplea específicamente un método de "filtración adversarial", que conserva únicamente las preguntas que los modelos existentes tienden a responder incorrectamente, lo que garantiza su capacidad de discriminación.

• S-FACTS (Pruebas de búsqueda):Simular la capacidad de la IA como agente. La IA debe ser capaz de descomponer problemas complejos (p. ej., "¿Cuál fue la primera película que estrenó un guionista?"), realizar múltiples búsquedas e integrar información.

• D-FACTS (Prueba de comprensión de documentos):Pon a prueba la fidelidad de la IA. Dado un documento, la IA debe responder estrictamente según el contenido y tiene estrictamente prohibido completar información no mencionada en el documento.


Resultados de la prueba: Gemini 3 Pro gana por poco; GPT-5 demuestra "ignorancia honesta".

Después de implementar un mecanismo de evaluación automática dual (con jueces de IA que verifican la cobertura y las contradicciones de los hechos fundamentales), los resultados de las pruebas muestran que incluso los mejores modelos actualmente en el mercado todavía tienen una tasa de error de alrededor del 30%.


El propio Gemini 3 Pro de Google encabezó la lista con una precisión del 68.8%, seguido por Gemini 2.5 Pro (62.1%) y GPT-5 de OpenAI (61.8%).


Curiosamente, las pruebas revelaron diferencias en la "personalidad" de los distintos modelos. La serie Gemini suele proporcionar información detallada (prefiriendo ser más exhaustiva), pero esto a veces puede generar imprecisiones en las pruebas multimodales. Las series GPT-5 y Claude, por otro lado, muestran un enfoque de "precisión", tendiendo a admitir "no sé" o a negarse a responder preguntas inciertas. Esta "ignorancia honesta" puede ser más valiosa que una respuesta forzada en ciertas situaciones profesionales.


ree

Análisis y perspectiva: establecimiento de un «índice de confianza» para la IA

En mi opinión, la importancia estratégica del lanzamiento del benchmark FACTS por parte de Google en este momento radica en redefinir las reglas de la competencia en IA.


En los últimos dos años, las grandes empresas han competido principalmente en función del tamaño de los parámetros del modelo, la velocidad de generación o la amplitud de las aplicaciones multimodales. Sin embargo, a medida que la IA comienza a incorporarse a campos tan importantes como la salud, el derecho y la toma de decisiones corporativas, la precisión y la credibilidad serán la clave del éxito en la siguiente etapa.


La aparición del parámetro FACTS equivale a establecer un estándar de seguridad más riguroso para la industria de la IA. Si bien una tasa de precisión del 69 % puede no parecer alta, refleja fielmente que LLM sigue siendo, en esencia, un modelo probabilístico.


Para los desarrolladores, esto proporciona una dirección clara para la optimización (como mejorar las estrategias de búsqueda o mejorar los mecanismos de rechazo); para los usuarios, al elegir herramientas de IA en el futuro, además de observar qué tan bien pueden escribir, también deberían observar qué tan honestos son.


Comentarios

Obtuvo 0 de 5 estrellas.
Aún no hay calificaciones

Agrega una calificación
bottom of page