Todos los datos del presente artículo han sido tomados de la red e inclusive de la misma IA. Esta no solo es una herramienta, es mucho más que eso. Nadie se atrevería a dudar los aspectos positivos de la misma y lo importante que puede ser para la humanidad. Lógico que exige regulación y control, pues también en malas manos generara muchos problemas. Empezaré por lo básico.
La inteligencia artificial (IA en adelante) es una colección de componentes computacionales que permiten construir sistemas que emulan funciones realizadas por el cerebro humano. Podríamos decir que es la rama de las ciencias computacionales que se encarga del diseño y construcción de sistemas capaces de realizar tareas asociadas con la inteligencia humana. Sus aplicaciones van desde el reconocimiento en imágenes o video de objetos y personas, hasta el habla y la traducción automática de textos, pasando por el diagnóstico y tratamiento de enfermedades y la toma de decisiones. En términos coloquiales, IA se usa cuando una máquina es capaz de imitar las funciones cognitivas propias de la mente humana, como: creatividad, sensibilidad, aprendizaje, entendimiento, percepción del ambiente y uso del lenguaje.
Como todo lo cierntifico, la IA, tiene una historia. El modelo matemático de la máquina de Turing, desarrollado por el británico Alan Turing, inspiró la creación de los primeros prototipos de computadoras del siglo XX y lo convirtió en pionero y fundador de la rama de la Inteligencia Artificial (IA). Turing y otros científicos y filósofos de su época fueron los primeros en buscar una respuesta rigurosa a la pregunta: ¿pueden las máquinas pensar?. Responderla implica contar con una definición formal del concepto de inteligencia; un paso fundamental para delinear rigurosamente las fronteras de la computación.
La década fundacional para la Inteligencia Artificial fue la de los cincuenta. En 1951 el profesor Marvin Minsky --a quien tuve el honor de conocer en el MIT-- construyó la primera red neuronal computacional como parte de su doctorado en la Universidad de Princeton. Se trataba de una máquina con válvulas, tubos y motores que emulaba el funcionamiento de neuronas interconectadas, y lograba simular el comportamiento de ratas que aprenden a orientarse en un laberinto. La máquina, con sus 40 neuronas, fue uno de los primeros dispositivos electrónicos construidos con capacidad de aprender.
Apenas cinco años más tarde, en 1956, tuvo lugar la mítica convención de Dartmouth (New Hampshire, EE. UU.), en la que participaron figuras legendarias de la informática como John McCarthy, Marvin Minsky, Claude Shannon, Herbert Simon y Allen Newell, todos ellos ganadores del premio Turing, el más prestigioso en computación, equivalente al Nobel galardón que, además, ganó Simon.
Dartmouth marca un hito porque es en este encuentro donde se define la Inteligencia Artificial y se establecen las bases para su desarrollo, identificando preguntas clave que incluso hoy día nos sirven de mapa conceptual a los investigadores en esta área (Ver recuadro Las siete cuestiones fundacionales de la IA).
Es en Dartmouth donde McCarthy acuña el término de Inteligencia Artificial, para referirse a "la disciplina dentro de la Informática o la Ingeniería que se ocupa del diseño de sistemas inteligentes", esto es, sistemas con la capacidad de realizar funciones asociadas a la inteligencia humana como percibir, aprender, entender, adaptarse, razonar e interactuar imitando un comportamiento humano inteligente.
McCarthy quiso diferenciar la Inteligencia Artificial del concepto de cibernética, impulsado por Norbert Wiener --también profesor del MIT--, y en el que los sistemas inteligentes se basan en el reconocimiento de patrones, la estadística, y las teorías de control y de la información. McCarthy, en cambio, quería enfatizar la conexión de la Inteligencia Artificial con la lógica. Esta diferencia dio lugar a dos escuelas distintas dentro del desarrollo de la IA, como explico más adelante.
Participantes de la convención de Dartmouth, incluyendo a Marvin Minsky (en el centro del grupo, con gafas), Claude Shannon (primero por la dcha.) y Ray Solomonoff (tercero por la izda.) (Cortesía de la familia Minsky).
Entre las más controvertidas y citadas declaraciones realizadas en los albores de la Inteligencia Artificial se cuentan las del psicólogo Frank Rosenblatt, creador del Perceptrón en el Laboratorio Aeronáutico de Cornell. El Perceptrón se presentó a la prensa en 1958, como un programa instalado en un ordenador de IBM, el 704, que por cierto ocupaba una estancia entera.
Según la crónica publicada el 8 de julio de 1958 en el New York Times, el Perceptrón habría de convertirse en "el primer ordenador capaz de pensar como el cerebro humano", equivocándose al principio, pero "volviéndose más sabio con la experiencia". Rosenblatt --señala el Times-- lo describió como el "embrión" de un ordenador en el futuro capaz de "caminar, hablar, ver, escribir, reproducirse y ser consciente de su existencia"
Ejemplos de sistemas* top-down *y sistemas* bottom-up*.*
En 1956, después de la convención de Dartmouth, Herbert Simon predijo que "en veinte años, las máquinas serán capaces de hacer el trabajo de una persona". Marvin Minsky, por su parte, declaró en 1970 a la revista Life que "dentro de tres a ocho años tendremos una máquina con la inteligencia general de un ser humano". Hasta mediados de los años setenta predominó el optimismo en todo lo relativo a la Inteligencia Artificial y su impacto.
De hecho, el periodo entre 1956 y 1974 suele conocerse como la primera etapa dorada de la Inteligencia Artificial. Fueron los años en que Edward Feigenbaum --uno de los fundadores del departamento de informática de la Universidad de Stanford-- lideró el equipo que construyó el primer sistema experto, implementado en LISP, el programa de ordenador desarrollado por McCarthy.
El nombre de este sistema experto era DENDRAL, y fue fruto del deseo del biólogo molecular Joshua Lederberg, también de Stanford, de disponer de un sistema que facilitara su investigación sobre compuestos químicos en el espacio. DENDRAL ayudaba a los químicos orgánicos a identificar moléculas desconocidas a partir de su espectro de masas, gracias a que le había sido transferido el conocimiento de un prestigioso químico --en concreto Carl Djerassi, creador de la píldora anticonceptiva--. DENDRAL era experto en química porque atesoraba el conocimiento químico y la experiencia de un humano experto en este campo.
Pero tarde o temprano llega la primavera. El interés por la Inteligencia Artificial, y los fondos disponibles para su desarrollo, empezaron a aumentar de nuevo a principios de los 80. Durante esa década llegaron al mercado los primeros sistemas expertos, con éxito apreciable. En 1985 el gasto en sistemas de IA en las empresas era de miles de millones de dólares.
Dentro del acercamiento simbólico-lógico, en 1984 nació el primer esfuerzo científico por implementar en una máquina el razonamiento de sentido común, mediante una gigantesca base de datos con todo el conocimiento sobre el mundo que tiene, de media, una persona. Llamado Cyc, hoy en día sigue activo en la compañía Cycorp y atesora decenas de millones de aserciones, reglas o ideas del sentido común aportadas por humanos --por ejemplo, el agua causa humedad y la humedad pudre la comida--, que pueden ser usadas por otros programas.
Sin embargo, de nuevo aparecieron obstáculos. Durante el congreso de 1984 de la Asociación Americana de Inteligencia Artificial, Minsky y Roger Schank alertaron de que el entusiasmo y la inversión en Inteligencia Artificial conducirían a una nueva decepción. En efecto, en 1987 comenzó el segundo invierno de la Inteligencia Artificial, que alcanzaría su momento más oscuro en 1990.
Mientras tanto la comunidad científica seguía avanzando en las dos escuelas de pensamiento. Uno de los hitos más importantes de la estrategia bottom-up y, en particular, del conexionismo, fue el uso del algoritmo de backpropagation por parte de David Rumelhart, Geoffrey Hinton y Ronald Williams en 1986.
Gracias al algoritmo de backpropagation es posible entrenar redes mucho más complejas que el Perceptrón, con numerosas capas de neuronas ocultas --llamadas así en la jerga-- operando entre las capas de entrada y salida y con capacidad, esta vez sí, de modelar problemas complejos. Hoy en día el algoritmo de backpropagation es la base de la gran mayoría de modelos de redes neuronales profundas.
El funcionamiento, en términos muy básicos, es el siguiente. Las redes nacen ignorantes, no saben nada sobre el problema que tienen que resolver a partir de los datos que se les van a proporcionar --volviendo al ejemplo de los gatos, no saben si hay o no un gato en la foto--, pero se lanzan y hacen una predicción; esa predicción es cotejada con la realidad, y se mide su grado de error. En función de esta medida se ajustan los pesos en la red, es decir, los coeficientes que deben ser procesados por la neurona.
Se llama backpropagation porque se propagan los errores hacia atrás en la red, desde las neuronas de salida (las que están más a la derecha a las neuronas de entrada. Por tanto, los errores que comete la red neuronal al entrenarse sirven, gracias al algoritmo backpropagation, para determinar los valores de los pesos que lograrían reducir tales errores. Es un proceso iterativo: en cada iteración se van ajustando los pesos en función de los errores cometidos, de forma que estos, y la propia corrección a que se les debe someter, se van reduciendo.
Aunque Rumelhart, Hinton y Williams no fueron los primeros en publicar un artículo sobre backpropagation, fue su trabajo el que logró calar en la comunidad científica por la claridad con que presenta esta idea.
Igualmente cabe destacar el trabajo de Judea Pearl a finales de los 80, cuando incorporó a la Inteligencia Artificial las teorías de la probabilidad y de la decisión. Algunos de los nuevos métodos propuestos incluyen modelos clave en mi investigación, como las redes bayesianas (una red bayesiana es un modelo gráfico probabilístico que representa una serie de variables y sus dependencias probabilísticas en forma de un gráfico donde los nodos son las variables, y las conexiones entre nodos representan las dependencias entre variables) y los modelos ocultos de Markov (un modelo estadístico de un sistema dinámico que puede representarse como la red bayesiana dinámica más sencilla), así como la teoría de la información, el modelado estocástico y la optimización. También se desarrollaron los algoritmos evolutivos, inspirados en conceptos de la evolución biológica como la reproducción, las mutaciones, la recombinación de genes y la selección.
En los algoritmos evolutivos se generan soluciones candidatas al problema que se quiere resolver. Cada solución juega el papel de un individuo en una población; se van seleccionando las soluciones de mayor calidad aplicando ciertos criterios predefinidos, y estas soluciones se hacen evolucionar aplicando los conceptos anteriores de reproducción, mutaciones, etcétera.
El objetivo es que, tras un cierto número de generaciones, las soluciones encontradas sean cada vez mejores. La ventaja es que estos algoritmos se pueden aplicar para resolver multitud de problemas. La desventaja es su complejidad computacional, que dificulta su aplicación a muchos problemas reales.
Desde mediados de los años 90, hasta hoy en día --y especialmente en la última década--, se ha producido un avance muy significativo en las técnicas de aprendizaje estadístico por ordenador basadas en datos (statistical machine learning), que pertenecen al enfoque bottom-up.
El acceso a cantidades ingentes de datos --Big Data--; la disponibilidad de procesadores muy potentes a bajo coste; y el desarrollo de redes neuronales profundas y complejas, los modelos llamados de deep learning, son los tres factores que han confluido para instalar hoy día a la Inteligencia Artificial en una "primavera perpetua", en palabras del profesor de la Universidad de Stanford Andrew Ng, con quien también coincidí en MIT.
Cronología de la Inteligencia Artificial. Puede observarse la alternancia en la prevalencia de los modelos simbólico-lógicos (en azul) y los modelos* bottom-up *(en naranja).*
En los últimos años --como puede observarse en la Figura 10--, con el éxito de los métodos de aprendizaje de deep learning se ha producido un fuerte resurgir del acercamiento bottomup y en particular del conexionismo, dentro de la Inteligencia Artificial. Así lo atestigua el hecho de que los pioneros del deep learning Yoshua Bengio, Geoffrey Hinton y Yann LeCun hayan recibido en 2019 el premio Turing, el equivalente al Nobel en informática.
La Inteligencia Artificial --no queda ya alguna duda-- forma parte de nuestro presente.
10 Ejemplos de diferentes arquitecturas de redes neuronales profundas (fuente: asimovinstitute.org, Fjodor van Veen).
Importante dejar en claro. Desde los albores de la IA ha existido cierto enfrentamiento entre dos escuelas de pensamiento. El enfoque simbólico-lógico o top-down --de arriba a abajo-- postula que las máquinas deben seguir reglas predefinidas. La idea es programar en la máquina el conocimiento humano y las reglas de la lógica. Por su parte, la escuela conexionista o bottom-up --de abajo a arriba-- propone que la IA debe inspirarse en la biología, aprendiendo a partir de la observación y la experiencia. Curiosamente, en un guiño del destino, la propuesta de Wiener basada en datos y estadística se ha convertido en la dominante, pero utilizando la terminología de McCarthy.
Es un hecho. Desde mediados de los años noventa, y especialmente en la última década, se ha producido un avance extraordinario. Tres factores han confluido para instalar hoy día a la Inteligencia Artificial en una "primavera perpetua", en palabras de Andrew Ng: el acceso a cantidades ingentes de datos --lo que llamamos Big Data--; la disponibilidad de procesadores muy potentes a bajo coste; y el desarrollo de redes neuronales profundas y complejas, los modelos de deep learning. Inicialmente el enfoque bottom-up no tuvo mucho éxito práctico porque no había datos ni computación. Pero ahora sí, y eso lo ha cambiado todo.