AI News: 12 Days of OpenAI, Genie-2 AI Video Games, Hunyuan Video Gen and More!

AI News: 12 Days of OpenAI, Genie-2 AI Video Games, Hunyuan Video Gen and More!

Новые модели текст-видео и их влияние на игры

Введение в Genie2 от Google Deep Mind

  • Обсуждение новых моделей текст-видео, включая Genie2, выпущенную сегодня.
  • Genie2 — это игровая модель, способная генерировать играбельные 3D-среды на основе одного изображения.
  • Модель позволяет управлять персонажем с помощью клавиатуры и мыши, создавая разнообразные игровые сценарии.

Демо-примеры и возможности Genie2

  • Показаны различные демо-версии игры с разными реакциями на управление (вперед, назад, прыжок).
  • Примеры включают робота в лесу и на пустыне, а также вид от первого лица на различных планетах.
  • Генерация сложных сред из одного кадра: например, лодка движется по озеру с реалистичной физикой.

Инновации в памяти и динамике мира

  • Genie2 может запоминать части мира вне поля зрения и точно воспроизводить их при возвращении в кадр.
  • Сравнение с Sora: объекты исчезают за другими объектами и снова появляются там, где ожидалось.

Спонсорство и возможности для бизнеса

  • Реклама платформы Build Your Store AI для создания онлайн-магазинов без предварительных затрат.

Примеры игр с использованием AI

  • Демонстрация RPG стиля игры с персонажем в городе; показ красивой гоночной игры.
  • Пример самурая, который взаимодействует с окружающей средой (разбивает воздушный шар).

Впечатляющие демонстрации AI в видеоиграх

Реалистичное освещение и создание миров

  • Демонстрация реалистичного освещения в игре, где персонаж с факелом освещает всю сцену.
  • Возможность загружать реальные изображения для создания игровых миров; переход от концепт-арта к играбельной игре мгновенно.
  • Упоминание о компании World Labs, которая разрабатывает AI-систему для генерации 3D-миров из одного изображения.

Интерактивные 3D-сцены

  • Примеры ранних результатов работы World Labs, где пользователи могут взаимодействовать со сценами прямо в браузере.
  • Подход к предсказанию сцены как единого целого вместо предсказания каждого пикселя; это позволяет сохранять физические правила 3D-графики.

Новые возможности изменения сцен

  • Генерация всей сцены позволяет изменять элементы, такие как освещение, в реальном времени.
  • Возможность перемещения по известным картинам и исследование окружающей среды с детализированной графикой.

Переход к разговорному AI

  • Обсуждение новых возможностей разговорного AI от компании 11 Labs, сопоставимого с Advanced Voice от OpenAI.
  • Легкость создания разговорных агентов с низкой задержкой и высокой конфигурируемостью.

Простота интеграции и развертывания

  • Процесс создания агентов стал проще благодаря библиотекам высококачественных голосов и возможности интеграции собственных серверов.

Обзор новых технологий AI

Инновации в голосовых технологиях

  • Обсуждается возможность извлечения сигналов из тональности голоса, что позволяет улучшить качество взаимодействия в голосовых системах.
  • Упоминается о возможности использования различных языковых моделей (LLM) для оптимизации под конкретные задачи пользователей.
  • 11 Labs представила функцию генерации подкастов из текстового контента, включая PDF и статьи на 32 языках с помощью приложения 11 Reader.

Генерация подкастов и новые функции

  • Пример нового формата подкаста, где обсуждаются персонажи сказки "Золушка", демонстрируя креативный подход к контенту.
  • Подчеркивается доступность Gen FM в кармане пользователя, что делает создание контента более удобным.

Новые модели текст-видео

  • Представлена новая открытая модель текст-видео от Tencent, которая позволяет создавать короткие видеоролики на основе текста.
  • Примеры работы модели показывают высокое качество визуализации, хотя клипы имеют ограниченную длину.

Открытые источники и новые разработки

  • Обсуждение новой модели Mochi для локального запуска текст-видео, предлагающей пользователям больше возможностей для творчества.
  • Введение в модель qwq от команды Quen — экспериментальная модель с открытыми весами, обладающая уникальными аналитическими способностями.

Ограничения и возможности новых моделей

  • Модель qwq имеет ограничения: смешивание языков и проблемы с логикой могут привести к неожиданным результатам.

Думки о моделях и децентрализованных системах

Процесс мышления и выводы

  • Обсуждение процесса размышлений, который привел к получению окончательного ответа. Упоминается, что время, затраченное на размышления, не указано.
  • Переход к обсуждению децентрализованных обученных моделей, которые могут уменьшить необходимость в крупных дата-центрах для обучения новых поколений моделей.

Децентрализованные модели

  • Упоминание проекта под названием Pedals и его схожести с новым проектом от Prime Intellect — открытым децентрализованным 10B моделью.
  • Подчеркивается важность этого проекта для сообщества с открытым исходным кодом, так как он позволяет тренировать модели без значительных финансовых затрат со стороны компаний.

Вклад Prime Intellect

  • Возможность использования вычислительных мощностей обычных пользователей для обучения моделей. Приводится пример использования RTX A6000 для поддержки таких проектов.
  • Инновация в распределении вычислительных ресурсов между множеством машин по всему миру.

Протокол контекста модели от Anthropic

Новый стандарт взаимодействия

  • Введение протокола mCP (модель контекста протокола), который стандартизирует доступ агентов к реальным инструментам и данным.
  • Целью является улучшение качества ответов от фронтальных моделей за счет лучшего взаимодействия с данными из различных источников.

Разработка и интеграция

  • Множество компаний работают над созданием стандартов для взаимодействия AI с цифровым миром.
  • Разработчики могут использовать mCP-серверы или создавать приложения AI для подключения к этим серверам.

Инновации в генерации изображений

Генеративные шахматные наборы от Google

  • Презентация проекта Gen Chess от Google, позволяющего генерировать шахматные наборы на основе любых тем.

Новая модель генерации изображений от Runway

Новые достижения в области генерации изображений и текстов

Презентация нового текстово-изображенческого модели

  • Обсуждение новой модели, которая демонстрирует впечатляющее качество и реализм изображений, создаваемых на основе текста. Модель имеет стильный визуальный подход, который напоминает кино.

Примеры работ модели

  • Показаны примеры работ, включая обложки альбомов 1970-х годов и японский дзен. Упоминается о высоком уровне детализации изображений.
  • Обсуждаются фотографии природы и изображения с использованием одноразовых камер, которые сохраняют зернистый вид, что создает уникальную эстетику.

Новый LLM от AWS

  • Представление нового языкового моделирования Amazon Nova Frontier Intelligence с высокой производительностью по низкой цене. Модель поддерживает как текстовые, так и визуальные данные.

Характеристики моделей Amazon

  • Описание трех различных размеров моделей: Micro (128k токенов), Light (мультимодальная модель для быстрого обработки данных), Pro (300K входных токенов).

Инвестиции в технологии

  • Обсуждение расширения сотрудничества между Anthropic и AWS с новым инвестиционным пакетом в $4 миллиарда для разработки будущих поколений чипов Tranimum.

Анонсы от OpenAI

Video description

Get your free AI store builder: https://buildyourstore.ai/matthew-berman/ Now with 3 months Shopify plan for only $1/month! Join My Newsletter for Regular AI Updates 👇🏼 https://forwardfuture.ai My Links 🔗 👉🏻 Subscribe: https://www.youtube.com/@matthew_berman 👉🏻 Twitter: https://twitter.com/matthewberman 👉🏻 Discord: https://discord.gg/xxysSXBxFW 👉🏻 Patreon: https://patreon.com/MatthewBerman 👉🏻 Instagram: https://www.instagram.com/matthewberman_ai 👉🏻 Threads: https://www.threads.net/@matthewberman_ai 👉🏻 LinkedIn: https://www.linkedin.com/company/forward-future-ai Media/Sponsorship Inquiries ✅ https://bit.ly/44TC45V Chapters: 0:00 - Genie-2 3:23 - Sponsor 4:46 - Genie-2 Continued 6:57 - World Labs Release 9:15 - Elevenlabs Conversational AI 12:28 - Elevenlabs "NotebookLM" Clone 14:07 - Hunyuan Video 15:45 - Open-Source "Thinking" Model QwQ 18:26 - Distributed Training! 20:12 - Anthropic's Model Context Protocol 22:41 - Google's GenChess 23:27 - Runway Frames 25:02 - Amazon Nova Model 26:21 - AWS + Anthropic 27:13 - 12 Days of OpenAI Links: https://x.com/LTXStudio/status/1859964100203430280 https://x.com/AnthropicAI/status/1859964653486612585 https://x.com/appltrack/status/1859871977487597870 https://techcrunch.com/2024/11/22/openai-is-funding-research-into-ai-morality https://www.bloomberg.com/news/articles/2024-11-21/apple-readies-more-conversational-llm-siri-in-bid-to-rival-openai-s-chatgpt https://x.com/LumaLabsAI/status/1861054912790139329 https://anthropic.com/news/model-context-protocol https://labs.google/genchess https://runwayml.com/research/introducing-frames https://x.com/elevenlabsio/status/1861833756027297965 https://qwenlm.github.io/blog/qwq-32b-preview/ https://x.com/primeintellect/status/1862607165669900407?s=46 https://x.com/theworldlabs/status/1863617989549109328 https://x.com/elevenlabsio/status/1864011712795468094 https://aivideo.hunyuan.tencent.com/ https://aws.amazon.com/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/ https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/ https://x.com/sama/status/1864335461268754712