Introducción a la IA Generativa

La IA Generativa es un tipo de tecnología de inteligencia artificial que puede producir varios tipos de contenido como imágenes, texto, audio, y datos sintéticos.

Inteligencia Artificial

Es una rama de la ciencias de la computación, que trabaja con la creación de sistemas inteligentes capaces de aprender y actuar de forma autónoma. En resumen, la IA estudia métodos y teorías relacionadas con la construcción de máquinas que piensen y actúen como humanos.

Machine Learning

Es un subcampo de la inteligencia artificial. Se puede denominar como un programa o un sistema que entrena un modelo a partir de datos de entrada. Machine learning otorga al computador la habilidad de aprender sin la necesidad de programación explícita.

Imagen1

Diferencia entre inteligencia artificial, machine learning y deep learning

Nota: Tomada de https://www.masterdatascienceucm.com/que-es-machine-learning/.

Clases de modelos de machine learning

Los principales tipos de modelos de machine learning se denominan supervisados y no supervisados.

Modelos Supervisados: Se caracterizan porque los datos usados en este modelo están etiquetados y son del tipo nombre, tipo o número. En los modelos de aprendizaje supervisado, el modelo aprende tomando como referencia ejemplos pasados para predecir valores futuros.

Modelos No Supervisados: Se caracterizan porque los datos usados en este modelo no están etiquetados. Los modelos no supervisados trabajan a partir del descubrimiento de patrones que permitan agrupar la información.

Deep Learning

Es un tipo de machine learning que usa redes neuronales artificiales, que le permiten procesar patrones más complejos de los que machine learning puede procesar. Las redes neuronales artificiales están inspiradas en el funcionamiento del cerebro humano.

Las redes neuronales, tipicamente están compuestas por múltiples capas de neuronas que le permiten aprender patrones más complejos que los modelos tradicionales de machine learning.

Los modelos de deep learning pueden dividirse en dos tipos:

Generativos: Los modelos de datos generativos, generan nuevas instancias de datos basados en una probabilidad de distribución aprendida de los datos existentes. Los modelos generativos generan nuevo contenido.

Discriminativos: Los modelos discriminativos son usados para clasificar o predecir etiquetas de datos. Se entrenan con sets de datos que contienen puntos de datos etiquetados, y aprende las relación entre las funciones de los puntos de datos y las etiquetas.

Imagen2

Arquitectura de una red neuronal

Nota: Tomada de https://aws.amazon.com/es/what-is/neural-network/

Las redes neuronales pueden usar datos etiquetados o no etiquetados, y a esto se le conoce como aprendizaje semi-supervisado.

En el aprendizaje no supervisado, la red neuronal se entrena con una pequeña cantidad de datos etiquetados y una grán cantidad de datos no etiquetados.

En el aprendizaje semisupervisado, los datos etiquetados ayudan a la red neuronal a aprender los conceptos básicos de las tareas, mientras que los datos no etiquetados ayudan a la red neuronal a generalizar a nuevos ejemplos.

IA Generativa

La IA generativa es un subcampo de Deep Learning, que usa redes neuronales artificiales y que puede procesar datos etiquetados y no etiquetados usando metodos de aprendizaje supervisado, no supervisado y semisupervisado.

La IA generativa es un tipo de inteligencia artificial que crea nuevo contenido a partir de lo que ha aprendido de los datos existentes. El proceso de aprendizaje a partir de los datos existentes se llama entrenamiento y resulta en la creación de un modelo estadístico.

Imagen3

IA Generativa

Nota: Tomada de https://www.youtube.com/watch?v=tNBvUvsScAA

Como resultado de la aplicación de IA generativa se obtiene información que puede ser clasificada como lenguaje natural, o imágenes o audio.

No es IA generativa, aquella que produce un número, o una clase o una probabilidad.

El modelo de IA generativa puede tomar código entrenado, datos etiquetados, datos no etiquetados y todos los tipos de datos y construir un modelo modelo básico("foundation model"). Este modelo básico es capaz de generar nuevo contenido de texto, imágenes, audio y más.

En la programación tradicional se usan atributos para distinguir un objeto, por ejemplo de tipo carro. Dichos atributos definen la cantidad de neumáticos que usa, la cantidad de puestas, si tiene motor, el color, etc. En contraste las redes neuronales reciben una foto de un carro preguntando, ¿Esto es un carro?. Como resultado la red neuronal predice, es un carro o nó es un carro.

Es así como, un modelo de IA Generativa, puede recibir una imagen como entrada y generar como salida otra imágen, o texto, incluso video construido a partir de lo aprendido con los datos existentes.

El poder de la IA generativa viene de los transformadores. Un transformador esta compuesto por un codificador y un decodificador; el codificador codifica la secuencia de entrada y se la pasa al decodificador para que aprenda cómo decodificar la representación para una tarea relevante.

Alucinaciones

Se denomina alucinaciones a los errores que puede generar un transformador. Son palabras o frases que genera el transformador y que pueden no tener sentido o ser gramaticalmente incorrectas. Son causadas por diferentes factores, como por ejemplo un modelo incorrectamente entrenado, o datos sucios o ruidosos usados para entrenar el modelo.

Prompts (Instrucciones)

Los propts son pequeñas piezas de texto que se le pasan a un LLM(Large Language Model), y que pueden ser usadas para controlar la salida del modelo en una variedad de formas. Se denomina diseño de prompt al proceso de crear un mensaje que genera la salida deseada en el modelo LLM.

Tipos de modelos para procesar entradas de texto

Existen diferentes tipos de modelos disponibles cuando la entrada del modelo es un texto.

Text-to-text: Toma una entrada en lenguaje natural y produce un texto como resultado. Se entrenan para aprender el mapeo entre un par de textos.

Text-to-image: Se entrenan con una gran cantidad de imagenes las cuales tienen texto descriptivo.

Text-to-video: Generan representaciones de video a partir del texto que se le ingresa al modelo.

Text-to-3D: Generan objetos tridimencionales que corresponden al téxto descriptivo que el usuario le ingresa al modelo.

Text-to-Task: Son entrenados para ejecutar una acción o una tarea, basados en el texto de entrada.

Foundation Models

Los foundation models son modelos más grandes que los mencionados anteriormente. Son modelos grandes de IA preentrenados con una enorme cantidad de datos y diseñados para ser adaptados a un rango amplio de tareas relacionadas entre otros aspectos, con el análisis de sentimientos, descripciónd de imágenes, y reconocimiento de objetos.

Los foundation models de lenguaje incluyen chat, texto y código.

Los foundation models de visión son usados por la herramienta Stable Difussion, la cual ha demostrado ser efectiva para generar imágenes de alta calidad a partir de descripciones de texto.

Herramientas

Vertex AI Studio

Es una herramienta de google que permite explorar y personalizar modelos de IA generativa que se pueden apalancar en aplicaciones de Google Cloud. Ayuda a crear y desplegar modelos de IA generativa.

Vertex AI

Permite crear chatbots, asistentes digitales, y máquinas de búsqueda personalizadas, bases de conocimiento, aplicaciones de entrenamiento, entre otras.

Recursos Relacionados

Qué es IA Generativa - Mckinsey

Fuentes

https://www.youtube.com/watch?v=tNBvUvsScAA

https://www.masterdatascienceucm.com/que-es-machine-learning/

https://aws.amazon.com/es/what-is/neural-network/

Buscar este blog

INTELIGENCIA ARTIFICIAL