inteligencia artificial

¿Cómo llegamos a ChatGPT? Desde Alan Turing hasta GPT4

Al parecer, hoy para ser popular hay que hablar de Inteligencia Artificial y ChatGPT. Lee este resumen veloz de la historia de las IA si quieres romperla en tu siguiente carrete(?)

Rodolfo Redlich

31 de jul. de 2023 • 6 min read

Photo by Levart_Photographer / Unsplash

En esta pequeña publicación quiero contarles algo de la historia de las inteligencias artificiales y cómo este viaje nos llevó a lo que hoy conocemos como ChatGPT.

Este post te puede interesar si:

ChatGPT te pilló por sorpresa
Eres nerd de la historia tecnológica como yo
Quieres contar una historia en un carrete para ser la persona más popular(?) del lugar

Algo de historia

Pónganse el casco, vamos a tomar un viaje de 60 años a alta velocidad.

1950. Test de Turing

Alan Turing propone el Test de Turing, una prueba de comunicación entre un evaluador humano y una máquina que evalúa la capacidad del segundo de hacerse pasar por un humano. Según Turing, esto dotaría de inteligencia a esta máquina.

1958. Perceptrones

Nace el Perceptron y el NYT decía:

La Marina demostró la semana pasada el embrión de una computadora electrónica llamada Perceptron que, cuando se complete en aproximadamente un año, se espera que sea el primer mecanismo no vivo capaz de "percibir, reconocer e identificar su entorno sin entrenamiento ni control humano".

Obviamente, iba a quitar todos los trabajos de la época.

meme-alguien-quiere-pensar-en-los-trabajos

from Imgflip Meme Generator

1969. Invierno de las IA

Marvin Minsky y Seymour Papert escriben Perceptrons, un trabajo fundamental sobre las redes neuronales artificiales.

Hablaban de las cosas que eran y no eran capaces de hacer las redes neuronales de una capa. Entre ellas, que no podían interpretar algunas funciones booleanas básicas como la puerta XOR.

Esto último contribuyó en medida al "invierno de las IA".

Más tarde se descubrió que redes de dos o más capas sí podían interpretar la puerta XOR usando algoritmos de entrenamiento como backpropagation.

1996. Deep Blue

La supercomputadora Deep Blue, creada por IBM, vence al campeón del mundo de ajedrez Gary Kasparov.

2000 a 2011. Datos y computación

Nvidia introduce las GPU como unidades de procesamiento genérico y se convirtieron en dispositivos informáticos para procesamiento paralelo.

Por su parte, el internet se está convirtiendo en una de las mayores fuente de datos escritos, imágenes y videos.

2012. AlexNet

AlexNet, una red neuronal convolucional de 8 capas de profundidad, gana el ImageNet Large Scale Visual Recognition Challenge. La red logró un error 15,3%, más de 10,8 puntos porcentuales menos que su siguiente competidor.

La gente volvió a ponerle ojo a las redes neuronales

2013. Word2vec

Word2vec fue creado y publicado por un equipo de investigadores en Google en dos artículos. Este modelo de red neuronal permitía aprender asociaciones de palabras de un gran corpus de texto.

Ya no se necesitaban grandes computadores para hacer cosas interesantes

2015. AlphaGo y Attention

AlphaGo se convirtió en el primer programa Go de computadora en vencer a un jugador humano profesional.

La atención es una técnica que pretende imitar la atención cognitiva. Este efecto realza algunas partes de los datos de entrada mientras disminuye otras.

2017. Attention is all you need

El documento de 2017 "La atención es todo lo que necesitas" presentó la arquitectura Transformer, que revolucionó el campo de la IA generativa.

La historia fue que desarrollaron "atención", una forma para que la red pudiera dar importancia a una palabra y decidir cuál es la mejor respuesta dada esa palabra. Esto lo hacía junto con otros mecanismos de inteligencia artificial.

Hasta que decidieron descartar los mecanismos y dejar solo la atención. El paper habla sobre si atención es lo único importante, y los resultados de hoy al parecer dicen que sí.

Esto permitió a Transformers procesar datos en paralelo, lo que resultó en un entrenamiento más rápido y un mejor rendimiento.

2018. BERT

BERT (Bidirectional Encoder Representations from Transformers) o Representación de Codificador Bidireccional de Transformadores es una técnica basada en redes neuronales para el pre-entrenamiento del procesamiento del lenguaje natural (PLN), desarrollada por Google.

2019 GTP-2

GPT-2 (Generative Pre-trained Transformer 2) es un Large Language Model (LLM) que hace uso de la inteligencia artificial para generar textos creada por OpenAI.

El modelo tenía 1.5 billones de parámetros que generan texto prediciendo palabra a palabra.

BERT vs GPT

Movie gif. In a scene from Godzilla vs. Kong, Kong punches Godzilla in the face as the two title heavyweights fight on top of a battleship.

Acá empieza la batalla de los dos modelos.

BERT de Google y GPT de OpenAI, ambos transformers pre-entrenados. BERT de representación (trataba de entender lo que el texto decía) y GPT generativo (autocompletado con esteroides).

Ambas aprovechaban un beneficio de los transformers, entrenarlos para una tarea muy general para después resolver tareas específicas. Sólo entrenarte en el gimnasio para después ir a jugar al futbol.

En Julio 2020 publican "Language Models are Few-Shot Learners", el Pre-entrenamiento llevado al extremo.

GPT-3 mostró la capacidad realizar tareas únicamente a través de la interacción de texto. Estas tareas incluían few-shot, one-shot y zero-shot learning, donde el modelo recibe una definición de tarea y algunos ejemplos y debe realizar la tarea sin capacitación adicional.

Esta analogía para explicar los few-shot learners se la escuché a Jorge Perez, co-fundador de CeroAI y con un curso de Deep Learning en youtube, muy bueno.

Few-shot learning. Un equivalente a entrenar en el gimnasio, veo a alguien jugando al futbol y juego bien al futbol.
One-shot learning. Un equivalente a ir al gimnasio, veo a alguien pateando la pelota y juego bien al futbol.
Zero-shot learning. Un equivalente a voy al gimnasio, miro la pelota y juego bien al futbol.

ChatGPT ganó la batalla

ChatGPT fue el resultado de muchos parámetros y muchos datos. Pero además un ingrediente especial: el modelo incorporaba RLHF (Reinforcement Learning Human Feedback).

RLHF es otra red neuronal, un modelo de recompensa. La idea es premiarlo o castigarlo según las palabras que usa. De esta forma incentivar al modelo generar textos que sean aceptables para el evaluador.

El 30 de Noviembre 2022 OpenAI lanza ChatGPT, una interfaz donde podías conversar de forma gratuita con el modelo.

Y la cosa explotó.

El 4 de diciembre de 2022, ChatGPT tenía más de un millón de usuarios. Un mes después, llegó a más de 100 millones de usuarios. Convirtiéndose en ese momento en la aplicación de más rápido crecimiento en la historia.

BERT nunca llegó a las manos de los usuarios, y la clave fue la interacción.

Una muy buena interfaz y permitir que la gente pueda jugar con esto hizo que OpenAI se comiera casi toda la torta.

Ellos pusieron toda su confianza en el RLHF. Hubo algunas banderas rojas, pero esto ya había explotado.

Lo que se viene con ChatGPT

Al día de hoy, ChatGPT tiene su modelo en la versión 4. Esta versión es multimodal, es decir, puede procesar textos e imágenes.

Su calidad de generación de texto es mejor que la versión 3.5, sin embargo, sufre de los mismos problemas de sus versiones anteriores.

La comunidad le ha puesto el ojo a cómo esta herramienta puede acrecentar problemas de desinformación, comportamientos discriminatorios debido a problemas de sesgo en los datos e incluso a cómo el phishing podría escalar debido al uso de esta tecnología.

Probablemente veremos más regulaciones respecto a quién deba tomar las responsabilidades a los efectos dañinos que pueda generar.

De cualquier forma, esta herramienta está acá y debemos aprender a convivir con ella, para bien o para mal, va a tocar nuestras vidas de alguna forma.

¿Te gustó esta publicación?

Si te gustó lo que leíste, 📢 corre la voz y comparte este link a alguien que le pueda interesar. Y si no te has suscrito, 📩 anótate abajo para recibir este tipo de contenidos directo en tu correo.

👋