La IA china DEEPSEEK: una explicación A FONDO

Name: La IA china DEEPSEEK: una explicación A FONDO
Uploaded: 2025-01-31T17:56:44.000Z
Duration: 1 h 52 min 6 s

Impacto de DeepSeek en la Inteligencia Artificial

Preparación de China para la IA

China tiene un sistema eléctrico que permite grandes inversiones en inteligencia artificial, lo que facilita su globalización y democratización.

Países con restricciones en la importación de chips pueden desarrollar modelos propios utilizando chips menos avanzados.

Beneficios para Empresas Tecnológicas

Meta se beneficia al haber orientado sus esfuerzos hacia modelos de inteligencia artificial open source desde el principio.

Microsoft está invirtiendo 80.000 millones de dólares en servicios de inferencia a través de Azure, beneficiándose del cambio hacia modelos como DeepSeek.

Amazon también gana al alojar múltiples modelos open source, facilitando su uso por empresas y personas.

Valor de los Datos

Los datos poseen un valor superior al costo tecnológico; compañías como YouTube y farmacéuticas obtienen beneficios significativos por sus datos.

Productos fáciles de usar y con gran capacidad de distribución también se benefician, ya que ofrecer estos servicios costará menos.

Inteligencia Artificial Local (Edge AI)

La inteligencia artificial ejecutada localmente (Edge AI) es una tendencia creciente; Apple se posiciona bien gracias a su integración hardware-software.

Paradoja de Jevons y Aceleración Tecnológica

Satya Nadella menciona la paradoja de Jevons: el aumento en eficiencia puede llevar a un mayor consumo total, aplicable a la IA.

Las grandes tecnológicas están acelerando sus planes debido a la reducción en costos asociados con el uso de modelos IA.

Consecuencias para Competidores

El gobierno estadounidense y las Big Tech pierden ante la innovación china impulsada por restricciones comerciales.

OpenAI, Anthropic y XAI enfrentan desafíos debido al alto costo del entrenamiento de modelos fundacionales; DeepSeek podría convertir estos modelos en commodities.

Futuro incierto para Proyectos Existentes

Microsoft parece distanciarse de OpenAI permitiendo que Oracle participe en proyectos como Stargate.

¿Estamos cerca de la inteligencia artificial general?

Avances en Inteligencia Artificial

Se menciona que estamos próximos a alcanzar un nivel de inteligencia artificial capaz de generar grandes avances para la humanidad, conocido como inteligencia artificial general o superinteligencia.

A corto y medio plazo, se espera que NVIDIA continúe vendiendo GPUs a precios elevados y en grandes volúmenes durante 2025 y 2026.

Perspectivas sobre NVIDIA

La sostenibilidad del alto nivel de demanda para NVIDIA a largo plazo es cuestionada, dado el rápido avance tecnológico observado en empresas más pequeñas.

El surgimiento de DeepSeek sugiere que la ventaja competitiva no radica únicamente en el hardware, lo cual podría indicar una burbuja en las valoraciones actuales del mercado.

Impacto de DeepSeek en el mercado

Cambios en la Inversión

Las valoraciones de empresas tecnológicas han estado basadas en la expectativa de inversiones exponenciales en IA; sin embargo, con DeepSeek, esto podría cambiar.

Se advierte sobre los ciclos cíclicos del negocio de chips y cómo NVIDIA ha estado desafiando esta tendencia hasta ahora.

Nuevas Oportunidades

Los inversores comenzarán a enfocarse más en ingresos generados por aplicaciones y servicios relacionados con IA, además de las infraestructuras tradicionales.

Se plantea si es necesaria una gran inversión inicial (CAPEX) para desarrollar IA y cuánto tiempo tomará recuperar dicha inversión.

Innovaciones tecnológicas introducidas por DeepSeek

Modelos Desarrollados

Se describen tres modelos desarrollados por DeepSeek: V2, V3 y R1. El modelo V2 introduce conceptos clave que se aplican posteriormente al V3.

Modelo V2: Mezcla de Expertos

El modelo V2 incorpora dos innovaciones principales: DeepSeek MOE (Mezcla de Expertos) y DeepSeq MLA.

La arquitectura "mezcla de expertos" permite abrir solo partes específicas del modelo según la consulta realizada, mejorando así la eficiencia.

Eficiencia Mejorada

Innovaciones en el Modelo V2 y V3 de DeepSeek

DeepSeek MLA y Ventana de Contexto

El modelo V2 incluye el DeepSeek MLA (Multi-Head Latent Attention), una modificación a la arquitectura de transformadores de Google.

Al realizar inferencias, se carga un modelo junto con la ventana de contexto, que almacena memoria de conversaciones previas y documentos compartidos, lo que requiere un uso intensivo de memoria.

Compresión y Eficiencia en el Modelo V3

DeepSeek ha innovado en su modelo V3 mediante la compresión dramática de la ventana de contexto, facilitando así las inferencias.

Se han implementado tres enfoques clave: balanceo del tráfico de datos, compresión de tokens para predicciones, y destilación de otros modelos IA.

Destilación y Aprendizaje entre Modelos

La técnica de destilación permite que un modelo aprendiz (DeepSeek) aprenda a partir del conocimiento proporcionado por un modelo maestro (probablemente OpenAI).

Este proceso implica que el modelo aprendiz envía preguntas al modelo maestro, quien responde, optimizando así el aprendizaje sin necesidad del mismo volumen inicial de datos.

Uso Estratégico de APIs

Los grandes modelos como OpenAI permiten a otras compañías utilizar sus modelos a través de APIs, facilitando conexiones con diversas organizaciones.

Aunque es posible realizar técnicas similares mediante chatbots, esto requeriría más recursos computacionales y sería costoso.

Optimización Técnica en DeepSeek

DeepSeek ha utilizado técnicas avanzadas para reducir tiempos de entrenamiento y mejorar la calidad del output mediante destilación.

Han optimizado chips H800 NVIDIA evitando el ecosistema CUDA, utilizando PTX para operar directamente sobre los chips.

Aprendizaje por Refuerzo Sin Intervención Humana

Para entrenar su modelo R1 rápidamente, DeepSeek aplica aprendizaje por refuerzo sin intervención humana.

¿Cómo aprende un modelo de inteligencia artificial?

Métodos de Aprendizaje

Se discuten dos formas de aprender a montar en bicicleta:

Aprendizaje por refuerzo con supervisión humana.

Aprendizaje por refuerzo sin intervención humana, donde el sistema aprende mediante recompensas o castigos. Este último método fue utilizado por DeepSeek para entrenar su modelo R1.

Proceso de Aprendizaje del Modelo

El modelo ha aprendido a reflexionar y pensar por sí mismo, basándose en sus errores.

La validez de sus razonamientos se verifica mediante un sistema de recompensas que premia respuestas correctas solo si incluyen una explicación del razonamiento detrás.

Momentos Eureka en el Aprendizaje

El modelo R1 ha experimentado lo que se denomina un "momento aha" o "momento eureka", aprendiendo a pensar sin la influencia del pensamiento humano.

DeepSeek ha descubierto nuevos paradigmas de reflexión que no se conocían previamente.

Implicaciones Futuras de DeepSeek

La llegada de DeepSeek implica:

Mayor competencia global en el campo de la inteligencia artificial.

Disminución del valor competitivo de los modelos fundacionales, convirtiéndose en commodities intercambiables.

Factores Críticos para el Futuro

Los elementos clave para la competitividad futura incluyen:

Importancia continua de los chips y talento humano.

Capacidad para desarrollar centros de datos con millones de chips.

La infraestructura eléctrica necesaria para soportar el consumo energético creciente asociado con estos laboratorios.

Reflexiones Finales sobre la IA

Se abre un nuevo capítulo en la competencia dentro del ámbito de la inteligencia artificial, comparándolo con un "juego de tronos".