AI News: 12 Days of OpenAI, Genie-2 AI Video Games, Hunyuan Video Gen and More!

Name: AI News: 12 Days of OpenAI, Genie-2 AI Video Games, Hunyuan Video Gen and More!
Uploaded: 2024-12-05T16:41:52.000Z
Duration: 54 min 54 s

Новые модели текст-видео и их влияние на игры

Введение в Genie2 от Google Deep Mind

Обсуждение новых моделей текст-видео, включая Genie2, выпущенную сегодня.

Genie2 — это игровая модель, способная генерировать играбельные 3D-среды на основе одного изображения.

Модель позволяет управлять персонажем с помощью клавиатуры и мыши, создавая разнообразные игровые сценарии.

Демо-примеры и возможности Genie2

Показаны различные демо-версии игры с разными реакциями на управление (вперед, назад, прыжок).

Примеры включают робота в лесу и на пустыне, а также вид от первого лица на различных планетах.

Генерация сложных сред из одного кадра: например, лодка движется по озеру с реалистичной физикой.

Инновации в памяти и динамике мира

Genie2 может запоминать части мира вне поля зрения и точно воспроизводить их при возвращении в кадр.

Сравнение с Sora: объекты исчезают за другими объектами и снова появляются там, где ожидалось.

Спонсорство и возможности для бизнеса

Реклама платформы Build Your Store AI для создания онлайн-магазинов без предварительных затрат.

Примеры игр с использованием AI

Демонстрация RPG стиля игры с персонажем в городе; показ красивой гоночной игры.

Пример самурая, который взаимодействует с окружающей средой (разбивает воздушный шар).

Впечатляющие демонстрации AI в видеоиграх

Реалистичное освещение и создание миров

Демонстрация реалистичного освещения в игре, где персонаж с факелом освещает всю сцену.

Возможность загружать реальные изображения для создания игровых миров; переход от концепт-арта к играбельной игре мгновенно.

Упоминание о компании World Labs, которая разрабатывает AI-систему для генерации 3D-миров из одного изображения.

Интерактивные 3D-сцены

Примеры ранних результатов работы World Labs, где пользователи могут взаимодействовать со сценами прямо в браузере.

Подход к предсказанию сцены как единого целого вместо предсказания каждого пикселя; это позволяет сохранять физические правила 3D-графики.

Новые возможности изменения сцен

Генерация всей сцены позволяет изменять элементы, такие как освещение, в реальном времени.

Возможность перемещения по известным картинам и исследование окружающей среды с детализированной графикой.

Переход к разговорному AI

Обсуждение новых возможностей разговорного AI от компании 11 Labs, сопоставимого с Advanced Voice от OpenAI.

Легкость создания разговорных агентов с низкой задержкой и высокой конфигурируемостью.

Простота интеграции и развертывания

Процесс создания агентов стал проще благодаря библиотекам высококачественных голосов и возможности интеграции собственных серверов.

Обзор новых технологий AI

Инновации в голосовых технологиях

Обсуждается возможность извлечения сигналов из тональности голоса, что позволяет улучшить качество взаимодействия в голосовых системах.

Упоминается о возможности использования различных языковых моделей (LLM) для оптимизации под конкретные задачи пользователей.

11 Labs представила функцию генерации подкастов из текстового контента, включая PDF и статьи на 32 языках с помощью приложения 11 Reader.

Генерация подкастов и новые функции

Пример нового формата подкаста, где обсуждаются персонажи сказки "Золушка", демонстрируя креативный подход к контенту.

Подчеркивается доступность Gen FM в кармане пользователя, что делает создание контента более удобным.

Новые модели текст-видео

Представлена новая открытая модель текст-видео от Tencent, которая позволяет создавать короткие видеоролики на основе текста.

Примеры работы модели показывают высокое качество визуализации, хотя клипы имеют ограниченную длину.

Открытые источники и новые разработки

Обсуждение новой модели Mochi для локального запуска текст-видео, предлагающей пользователям больше возможностей для творчества.

Введение в модель qwq от команды Quen — экспериментальная модель с открытыми весами, обладающая уникальными аналитическими способностями.

Ограничения и возможности новых моделей

Модель qwq имеет ограничения: смешивание языков и проблемы с логикой могут привести к неожиданным результатам.

Думки о моделях и децентрализованных системах

Процесс мышления и выводы

Обсуждение процесса размышлений, который привел к получению окончательного ответа. Упоминается, что время, затраченное на размышления, не указано.

Переход к обсуждению децентрализованных обученных моделей, которые могут уменьшить необходимость в крупных дата-центрах для обучения новых поколений моделей.

Децентрализованные модели

Упоминание проекта под названием Pedals и его схожести с новым проектом от Prime Intellect — открытым децентрализованным 10B моделью.

Подчеркивается важность этого проекта для сообщества с открытым исходным кодом, так как он позволяет тренировать модели без значительных финансовых затрат со стороны компаний.

Вклад Prime Intellect

Возможность использования вычислительных мощностей обычных пользователей для обучения моделей. Приводится пример использования RTX A6000 для поддержки таких проектов.

Инновация в распределении вычислительных ресурсов между множеством машин по всему миру.

Протокол контекста модели от Anthropic

Новый стандарт взаимодействия

Введение протокола mCP (модель контекста протокола), который стандартизирует доступ агентов к реальным инструментам и данным.

Целью является улучшение качества ответов от фронтальных моделей за счет лучшего взаимодействия с данными из различных источников.

Разработка и интеграция

Множество компаний работают над созданием стандартов для взаимодействия AI с цифровым миром.

Разработчики могут использовать mCP-серверы или создавать приложения AI для подключения к этим серверам.

Инновации в генерации изображений

Генеративные шахматные наборы от Google

Презентация проекта Gen Chess от Google, позволяющего генерировать шахматные наборы на основе любых тем.

Новая модель генерации изображений от Runway

Новые достижения в области генерации изображений и текстов

Презентация нового текстово-изображенческого модели

Обсуждение новой модели, которая демонстрирует впечатляющее качество и реализм изображений, создаваемых на основе текста. Модель имеет стильный визуальный подход, который напоминает кино.

Примеры работ модели

Показаны примеры работ, включая обложки альбомов 1970-х годов и японский дзен. Упоминается о высоком уровне детализации изображений.

Обсуждаются фотографии природы и изображения с использованием одноразовых камер, которые сохраняют зернистый вид, что создает уникальную эстетику.

Новый LLM от AWS

Представление нового языкового моделирования Amazon Nova Frontier Intelligence с высокой производительностью по низкой цене. Модель поддерживает как текстовые, так и визуальные данные.

Характеристики моделей Amazon

Описание трех различных размеров моделей: Micro (128k токенов), Light (мультимодальная модель для быстрого обработки данных), Pro (300K входных токенов).

Инвестиции в технологии

Обсуждение расширения сотрудничества между Anthropic и AWS с новым инвестиционным пакетом в $4 миллиарда для разработки будущих поколений чипов Tranimum.

Анонсы от OpenAI