En 1950, Alan Turing se animó a predecir que las computadoras –un objeto que todavía no existía- en algún momento serían capaces de engañar a los humanos. Para ser consideradas como un objeto pensante, debían ser capaces de superar una prueba muy sencilla.
Durante años se sometieron a este peritaje infinidad de aparatos que no lograban dar la talla. Finalmente, la llegada de la IA generativa puso en jaque a este experimento informático.
Y aunque la prueba de Turing ya no se considera infalible o la única válida, sigue funcionando como un parámetro para determinar si un individuo puede ser engañado por los argumentos que esgrime una máquina.
Para confrontar la lógica de los chatbots, investigadores del departamento de ciencias cognitivas de la Universidad de California, publicaron un estudio en donde utilizaron la herramienta de Turing para medir las réplicas de tres AI: ELIZA, GPT-3.5 y GPT-4.
Una imitación convincente
Mediante un análisis profundo en un entorno controlado, los académicos buscaron determinar hasta qué punto estas IA podían imitar de forma convincente el comportamiento conversacional de los humanos.
Según las normas de Turing, se requieren dos habitaciones separadas. En una aguarda una persona y en la siguiente, una computadora capaz de comunicarse de manera fluida. En una sala intermedia se ubica el juez, cuya misión es determinar quien está detrás de cada puerta.
El examen se considera superado si el software logra persuadir al evaluador -durante una charla de 5 minutos y como mínimo, en el 50% del tiempo– de que está participando de una entrevista por chat con una persona.
Así, los participantes del estudio sostuvieron conversaciones a través de un programa de mensajería, con alguien que podría ser de carne y hueso o de ceros y unos. Tras cada pausa, se les pedía que dedujeran con quien estaban interactuando.
Para despistar a los examinadores, se le pidió al modelo que adoptara el personaje de un joven muy reservado, que no se tomara el desafío muy en serio, que utilizara jerga y cometiera errores ortográficos ocasionales.
Los fiscalizadores asumieron que GPT-4 era humano el 54% de las veces, lo que supone un avance significativo, ya que logró imponerse con lo justo en el dificultoso test. Mientras que ELIZA sólo fue considerada humana el 22% de las veces.
“Haber registrado el 50% -aunque Turing fijo el límite en el 70%- está más que justificado, ya que indica que los interrogadores no son mejores que el azar a la hora de estimar si estaban frente a una máquina”.
Como señalan los responsables del estudio, este esquema sirve para comprobar de forma fiable si los usuarios son capaces de identificar a otros semejantes durante una interacción en línea.
“Las puntuaciones de confianza y las justificaciones de las decisiones de los participantes sugieren que no estaban adivinando. Los juicios de que GPT-4 era humano tenían una confianza media del 73%”.
El gran simulador
Este ensayo sirve para demostrar que GPT-4 alcanzó un nivel de sofisticación tal que sus habilidades conversacionales pueden engañar a cualquier oyente. Lo que confirma su potencial para mostrar un comportamiento indistinguible de una persona real.
A medida que los sistemas de IA como GPT-4 imiten con mayor precisión la capacidad de diálogo, podrán integrarse más fácilmente en funciones que requieran la comprensión y generación del lenguaje natural.
Esto incluye la atención al cliente, la asistencia virtual, el apoyo a la salud mental, la consulta médica y las herramientas educativas.
Sin embargo, la posibilidad de que la IA logre este engaño plantea importantes problemas éticos. Lo que implica que podría utilizarse para difundir información errónea o llevar a cabo actividades fraudulentas sin ser detectada.
Los grandes modelos de lenguaje y otros sistemas de IA han aprendido, a partir de su entrenamiento, la capacidad de disfrazar la verdad mediante técnicas como la manipulación, la adulación y la trampa en las pruebas de seguridad.
Esto subraya la importancia de desarrollar y aplicar directrices y marcos reguladores sólidos para garantizar que las tecnologías de IA se utilicen de forma responsable y transparente.
Un acto social
Lo que no se desprende de esta valoración técnica es que los bot sean inteligentes o hagan algo que pueda describirse como pensar. Ya que el pensamiento es considerado un acto social.
De hecho, lo que la IA está mostrando es que el lenguaje puede ser independiente de la inteligencia. Sobre todo, porque se trata de una inteligencia que es incapaz de tener conciencia de sus actos.
En última instancia, parece poco probable que el test de Turing proporcione pruebas suficientes de inteligencia, sino que, en el mejor de los casos, es un reflejo imperfecto del conocimiento humano.
Ya que esta prueba no evalúa el conocimiento de la máquina en cuanto a su capacidad de responder preguntas correctamente, solo se toma en cuenta la capacidad de generar contestaciones similares a las que daría un humano.
Lo que hacen los modelos lingüísticos como ChatGPT es predecir la siguiente palabra de una oración. El algoritmo aprende a poner todas las palabras en relación unas con otras, sin importar la coherencia.
Así, los modelos lingüísticos conciben la forma en que se agrupan las palabras y, a partir de esta inferencia, se entrenan para realizar tareas específicas como chatear.
SL