La IA china DEEPSEEK: una explicación A FONDO

La IA china DEEPSEEK: una explicación A FONDO

Impacto de DeepSeek en la Inteligencia Artificial

Preparación de China para la IA

  • China tiene un sistema eléctrico que permite grandes inversiones en inteligencia artificial, lo que facilita su globalización y democratización.
  • Países con restricciones en la importación de chips pueden desarrollar modelos propios utilizando chips menos avanzados.

Beneficios para Empresas Tecnológicas

  • Meta se beneficia al haber orientado sus esfuerzos hacia modelos de inteligencia artificial open source desde el principio.
  • Microsoft está invirtiendo 80.000 millones de dólares en servicios de inferencia a través de Azure, beneficiándose del cambio hacia modelos como DeepSeek.
  • Amazon también gana al alojar múltiples modelos open source, facilitando su uso por empresas y personas.

Valor de los Datos

  • Los datos poseen un valor superior al costo tecnológico; compañías como YouTube y farmacéuticas obtienen beneficios significativos por sus datos.
  • Productos fáciles de usar y con gran capacidad de distribución también se benefician, ya que ofrecer estos servicios costará menos.

Inteligencia Artificial Local (Edge AI)

  • La inteligencia artificial ejecutada localmente (Edge AI) es una tendencia creciente; Apple se posiciona bien gracias a su integración hardware-software.

Paradoja de Jevons y Aceleración Tecnológica

  • Satya Nadella menciona la paradoja de Jevons: el aumento en eficiencia puede llevar a un mayor consumo total, aplicable a la IA.
  • Las grandes tecnológicas están acelerando sus planes debido a la reducción en costos asociados con el uso de modelos IA.

Consecuencias para Competidores

  • El gobierno estadounidense y las Big Tech pierden ante la innovación china impulsada por restricciones comerciales.
  • OpenAI, Anthropic y XAI enfrentan desafíos debido al alto costo del entrenamiento de modelos fundacionales; DeepSeek podría convertir estos modelos en commodities.

Futuro incierto para Proyectos Existentes

  • Microsoft parece distanciarse de OpenAI permitiendo que Oracle participe en proyectos como Stargate.

¿Estamos cerca de la inteligencia artificial general?

Avances en Inteligencia Artificial

  • Se menciona que estamos próximos a alcanzar un nivel de inteligencia artificial capaz de generar grandes avances para la humanidad, conocido como inteligencia artificial general o superinteligencia.
  • A corto y medio plazo, se espera que NVIDIA continúe vendiendo GPUs a precios elevados y en grandes volúmenes durante 2025 y 2026.

Perspectivas sobre NVIDIA

  • La sostenibilidad del alto nivel de demanda para NVIDIA a largo plazo es cuestionada, dado el rápido avance tecnológico observado en empresas más pequeñas.
  • El surgimiento de DeepSeek sugiere que la ventaja competitiva no radica únicamente en el hardware, lo cual podría indicar una burbuja en las valoraciones actuales del mercado.

Impacto de DeepSeek en el mercado

Cambios en la Inversión

  • Las valoraciones de empresas tecnológicas han estado basadas en la expectativa de inversiones exponenciales en IA; sin embargo, con DeepSeek, esto podría cambiar.
  • Se advierte sobre los ciclos cíclicos del negocio de chips y cómo NVIDIA ha estado desafiando esta tendencia hasta ahora.

Nuevas Oportunidades

  • Los inversores comenzarán a enfocarse más en ingresos generados por aplicaciones y servicios relacionados con IA, además de las infraestructuras tradicionales.
  • Se plantea si es necesaria una gran inversión inicial (CAPEX) para desarrollar IA y cuánto tiempo tomará recuperar dicha inversión.

Innovaciones tecnológicas introducidas por DeepSeek

Modelos Desarrollados

  • Se describen tres modelos desarrollados por DeepSeek: V2, V3 y R1. El modelo V2 introduce conceptos clave que se aplican posteriormente al V3.

Modelo V2: Mezcla de Expertos

  • El modelo V2 incorpora dos innovaciones principales: DeepSeek MOE (Mezcla de Expertos) y DeepSeq MLA.
  • La arquitectura "mezcla de expertos" permite abrir solo partes específicas del modelo según la consulta realizada, mejorando así la eficiencia.

Eficiencia Mejorada

Innovaciones en el Modelo V2 y V3 de DeepSeek

DeepSeek MLA y Ventana de Contexto

  • El modelo V2 incluye el DeepSeek MLA (Multi-Head Latent Attention), una modificación a la arquitectura de transformadores de Google.
  • Al realizar inferencias, se carga un modelo junto con la ventana de contexto, que almacena memoria de conversaciones previas y documentos compartidos, lo que requiere un uso intensivo de memoria.

Compresión y Eficiencia en el Modelo V3

  • DeepSeek ha innovado en su modelo V3 mediante la compresión dramática de la ventana de contexto, facilitando así las inferencias.
  • Se han implementado tres enfoques clave: balanceo del tráfico de datos, compresión de tokens para predicciones, y destilación de otros modelos IA.

Destilación y Aprendizaje entre Modelos

  • La técnica de destilación permite que un modelo aprendiz (DeepSeek) aprenda a partir del conocimiento proporcionado por un modelo maestro (probablemente OpenAI).
  • Este proceso implica que el modelo aprendiz envía preguntas al modelo maestro, quien responde, optimizando así el aprendizaje sin necesidad del mismo volumen inicial de datos.

Uso Estratégico de APIs

  • Los grandes modelos como OpenAI permiten a otras compañías utilizar sus modelos a través de APIs, facilitando conexiones con diversas organizaciones.
  • Aunque es posible realizar técnicas similares mediante chatbots, esto requeriría más recursos computacionales y sería costoso.

Optimización Técnica en DeepSeek

  • DeepSeek ha utilizado técnicas avanzadas para reducir tiempos de entrenamiento y mejorar la calidad del output mediante destilación.
  • Han optimizado chips H800 NVIDIA evitando el ecosistema CUDA, utilizando PTX para operar directamente sobre los chips.

Aprendizaje por Refuerzo Sin Intervención Humana

  • Para entrenar su modelo R1 rápidamente, DeepSeek aplica aprendizaje por refuerzo sin intervención humana.

¿Cómo aprende un modelo de inteligencia artificial?

Métodos de Aprendizaje

  • Se discuten dos formas de aprender a montar en bicicleta:
  • Aprendizaje por refuerzo con supervisión humana.
  • Aprendizaje por refuerzo sin intervención humana, donde el sistema aprende mediante recompensas o castigos. Este último método fue utilizado por DeepSeek para entrenar su modelo R1.

Proceso de Aprendizaje del Modelo

  • El modelo ha aprendido a reflexionar y pensar por sí mismo, basándose en sus errores.
  • La validez de sus razonamientos se verifica mediante un sistema de recompensas que premia respuestas correctas solo si incluyen una explicación del razonamiento detrás.

Momentos Eureka en el Aprendizaje

  • El modelo R1 ha experimentado lo que se denomina un "momento aha" o "momento eureka", aprendiendo a pensar sin la influencia del pensamiento humano.
  • DeepSeek ha descubierto nuevos paradigmas de reflexión que no se conocían previamente.

Implicaciones Futuras de DeepSeek

  • La llegada de DeepSeek implica:
  • Mayor competencia global en el campo de la inteligencia artificial.
  • Disminución del valor competitivo de los modelos fundacionales, convirtiéndose en commodities intercambiables.

Factores Críticos para el Futuro

  • Los elementos clave para la competitividad futura incluyen:
  • Importancia continua de los chips y talento humano.
  • Capacidad para desarrollar centros de datos con millones de chips.
  • La infraestructura eléctrica necesaria para soportar el consumo energético creciente asociado con estos laboratorios.

Reflexiones Finales sobre la IA

  • Se abre un nuevo capítulo en la competencia dentro del ámbito de la inteligencia artificial, comparándolo con un "juego de tronos".
Video description

Usa el código GUSTAVO en http://nordpass.com/GUSTAVO para acceder a una prueba gratuita de 3 meses de NordPass Business. No requiere introducir un número de tarjeta de crédito. ============================================================ DeepSeek ha irrumpido en el mundo de la IA como un terremoto y Silicon Valley todavía no se ha recuperado del impacto. En menos de un mes, este pequeño laboratorio chino ha puesto patas arriba el tablero de la inteligencia artificial con un modelo que compite con ChatGPT… con una inversión de apenas 5 millones de dólares. El 20 de enero, mientras Trump y Sam Altman anunciaban Stargate, la mayor inversión de la historia en IA (500 mil millones de dólares), China lanzaba su contraataque con un mensaje claro: “Nuestro modelo es tan bueno como ChatGPT o1… y es completamente gratis”. 🚀 Millones de personas ya están usando DeepSeek. Su app es la más descargada. Pero surgen muchas preguntas: 🔹 ¿Cómo han conseguido esto con tan poca inversión? 🔹 ¿Es verdad lo que dicen o hay algo más detrás? 🔹 ¿Estamos entregando nuestros datos a China sin saberlo? 🔹 ¿Tienen sentido las mega-inversiones que creíamos necesarias para la IA General? 📌 En este video te traigo la guía definitiva sobre el fenómeno DeepSeek. Vamos a analizar todos los detalles y responder con rigor a las preguntas que el mundo se está haciendo. ⏯ ¡Dale play y descúbrelo! 0:00 Intro 2:32 DeepSeek 6:46 Restricciones USA 11:06 ¿Han robado chips? 15:58 ¿Es bueno? 19:28 ¿Cómo lo han conseguido? 21:44 Implicaciones 24:20 ¿Quién está detrás? 26:33 ¿Nueva BIG TECH? 28:51 ¿Open-source? 30:03 ¿Mis datos a CHINA? 33:04 ¿Quién gana? ¿quién pierde? 41:19 ¿inversores en IA? 43:44 Las innovaciones de DEEPSEEK 54:23 Futuro de la IA #DeepSeek #InteligenciaArtificial #ChatGPT #China #IA #Tecnología #DeepSeekVsChatGPT ============================================================ ENLACES EN EL VÍDEO: Papers científicos de los modelos de DeepSeek: V2 https://arxiv.org/pdf/2405.04434 V3 https://arxiv.org/pdf/2412.19437 R1https://arxiv.org/pdf/2501.12948 Entrevista con Liang Wenfeng, fundador de DeepSeek https://thechinaacademy.org/interview-with-deepseek-founder-were-done-following-its-time-to-lead/ ============================================================ SOBRE GUSTAVO ENTRALA Gustavo Entrala es Board Member y Senior Advisor en Estrategia e Innovación Tecnológica de empresas de España y Latinoamérica. En su carrera ha asesorado a un centenar de marcas en 17 paises en los sectores Banca, Alimentación, Cosmética, Bebidas, Seguros, Energía, Media, Tecnología y Retail. BIO: https://inspirinas.com/acerca-de/ SERVICIOS COMO SPEAKER: http://inspirinas.com/inspirinas-en-t... CONTACTO: Blog: http://www.inspirinas.com Newsletter: https://inspirinas.com/suscribete-a-i... X: / gentrala LinkedIn: / gustavoentrala