Harry Collins, Cardiff University para The Conversation

Estamos entrando en la era de la inteligencia artificial. Y a medida que los programas de IA se vuelven cada vez mejores para actuar como humanos, nos enfrentaremos cada vez más a la pregunta de si realmente hay algo tan especial en nuestra propia inteligencia, o si sólo somos máquinas de un tipo diferente. ¿Podría todo lo que sabemos y hacemos un día ser reproducido por un programa informático suficientemente complicado instalado en un robot lo suficientemente complicado?

En 1950, Alan Turing, pionero de la informática e inventor de códigos en tiempos de guerra, hizo uno de los intentos más influyentes para resolver este problema. En un documento de referencia, sugirió que la vaguedad podría eliminarse de la cuestión de la inteligencia humana y de las máquinas con una simple prueba. Este «Turing Test» evalúa la capacidad de un ordenador para imitar a un ser humano, juzgado por otro ser humano que no podía ver la máquina pero que podía hacerle preguntas escritas.

En los últimos años, se ha dicho que varios programas de IA han superado la prueba de Turing. Esto ha llevado a algunos a argumentar que la prueba es demasiado fácil para ser una herramienta útil para juzgar la inteligencia artificial. Pero yo diría que la prueba de Turing no ha sido aprobada en absoluto. De hecho, no se aprobará en un futuro previsible. Pero si un día se aprueba una Prueba de Turing debidamente diseñada, tendremos motivos para preocuparnos por nuestro estado único.

Algunos aseguran que Google software ha pasado la prueba de Turing.

La Prueba de Turing es realmente una prueba de fluidez lingüística. Entendida correctamente, puede revelar lo que podría decirse que es lo más distintivo de los seres humanos: nuestras diferentes culturas. Esto da lugar a enormes variaciones en las creencias y comportamientos que no se ven entre los animales o en la mayoría de las máquinas. Y el hecho de que podamos programar este tipo de variación en las computadoras es lo que les da el potencial para imitar las habilidades humanas. Al juzgar la fluidez de la mímica, el Test de Turing nos permite buscar la capacidad de los ordenadores para compartir la cultura humana demostrando su dominio del idioma en un contexto social.

Turing basó su prueba en el «juego de imitación», un juego de fiesta en el que un hombre se hacía pasar por una mujer y un juez intentaba adivinar quién era quién haciendo preguntas a los jugadores ocultos. En la prueba de Turing, el juez trataba de adivinar quién era una computadora y quién era un ser humano real.

No sorprende que en 1950, Turing no elaborara el protocolo detallado necesario para juzgar el software de IA actual. Para empezar, sugirió que la prueba podría hacerse en sólo cinco minutos. Pero tampoco se dio cuenta de que el juez y el jugador humano tenían que compartir una cultura y que la computadora tendría que tratar de emularla. Esto ha llevado a muchas personas a afirmar que la prueba ha sido aprobada y a otras a afirmar que la prueba es demasiado fácil o que debería incluir la emulación de las habilidades físicas.

El primer aprobado

Algo de esto se hizo evidente hace casi 50 años con la construcción del programa conocido como ELIZA por el informático Joseph Weizenbaum. ELIZA se utilizó para simular un tipo de psicoterapeuta conocido como Rogerian, o terapeuta centrado en la persona. Varios pacientes que interactuaron con él pensaron que era real, lo que llevó a la afirmación más temprana de que la prueba de Turing había sido aprobada.

Pero Weizenbaum tenía claro que ELIZA era, en efecto, una broma. La configuración ni siquiera siguió el pequeño protocolo que Turing proporcionó porque los pacientes no sabían que estaban buscando fraude y no hubo respuestas simultáneas de un psicoterapeuta real. Además, el cultivo no fue parte de la prueba porque los terapeutas Rogerianos dicen lo menos posible. Cualquier prueba que valga la pena debe tener al juez y al jugador humano actuando de la manera más humana posible.

Dado que se trata de una prueba de comprensión de texto, los ordenadores deben ser juzgados en función de las capacidades de los pocos mejores editores de textos. Si las preguntas son correctas, pueden indicar si la computadora ha entendido la cultura material de los otros participantes.

Los Esquemas de Winograd

El tipo correcto de pregunta podría basarse en la idea de 1975 de los «Esquemas de Winogrado», pares de frases que difieren por una o dos palabras que requieren un conocimiento del mundo para ser comprendidas. Una prueba para la IA basada en ellas se conoce como Winograd Schema Challenge y fue propuesta por primera vez en 2012 como una mejora de la prueba de Turing.

Considere la siguiente oración con dos posibles finales: «El trofeo no cabía en la maleta porque era demasiado pequeño/grande.» Si la palabra final es «pequeño», entonces «se refiere a la maleta». Si la palabra final es «grande», entonces «se refiere al trofeo».

Para entender esto, hay que entender el mundo cultural y práctico de los trofeos y las maletas. En la sociedad angloparlante, utilizamos el lenguaje de tal manera que, aunque un pequeño trofeo no encaje exactamente en una maleta grande, no es lo que un angloparlante normal entendería por «encajar» en este contexto. Es por eso que en inglés normal, si la palabra final es «small», «it» tiene que referirse a la maleta.

También tienes que entender el mundo físico de los trofeos y las maletas, así como si los hubieras manipulado. Así que una prueba de Turing que tomara este tipo de enfoque haría que una prueba que incluyera una evaluación de la capacidad de una IA para emular las capacidades físicas de un ser humano fuera redundante.

Un desafío más complejo

Esto significa que una prueba de Turing basada en los esquemas de Winograd es una manera mucho mejor de evaluar la fluidez lingüística y cultural de una computadora que una simple conversación de cinco minutos. También establece una dificultad mucho más alta. Todos los ordenadores de una de estas competiciones en 2016 fracasaron estrepitosamente, y no se inscribió ningún competidor de las grandes empresas de IA porque sabían que fracasarían.

Ninguna de las afirmaciones de que el Test de Turing ya ha sido aprobado significa nada si se establece como una prueba seria de las capacidades distintivas de la humanidad para crear y entender la cultura. Con un protocolo adecuado, la prueba es tan exigente como necesita serlo. Una vez más, Alan Turing tiene razón. Y, tal como estamos, no hay una ruta obvia para crear máquinas que puedan participar en la cultura humana con la profundidad suficiente para pasar el tipo correcto de prueba lingüística.

Harry Collins, Profesor de Ciencias Sociales, Cardiff University

Este artículo fue publicado en The Conversation bajo la licencia de Creative Commons. Puedes leer el artículo original aquí.


Traducción del inglés por Nicolás Soto