AI News: 12 Days of OpenAI, Genie-2 AI Video Games, Hunyuan Video Gen and More!
Новые модели текст-видео и их влияние на игры
Введение в Genie2 от Google Deep Mind
- Обсуждение новых моделей текст-видео, включая Genie2, выпущенную сегодня.
- Genie2 — это игровая модель, способная генерировать играбельные 3D-среды на основе одного изображения.
- Модель позволяет управлять персонажем с помощью клавиатуры и мыши, создавая разнообразные игровые сценарии.
Демо-примеры и возможности Genie2
- Показаны различные демо-версии игры с разными реакциями на управление (вперед, назад, прыжок).
- Примеры включают робота в лесу и на пустыне, а также вид от первого лица на различных планетах.
- Генерация сложных сред из одного кадра: например, лодка движется по озеру с реалистичной физикой.
Инновации в памяти и динамике мира
- Genie2 может запоминать части мира вне поля зрения и точно воспроизводить их при возвращении в кадр.
- Сравнение с Sora: объекты исчезают за другими объектами и снова появляются там, где ожидалось.
Спонсорство и возможности для бизнеса
- Реклама платформы Build Your Store AI для создания онлайн-магазинов без предварительных затрат.
Примеры игр с использованием AI
- Демонстрация RPG стиля игры с персонажем в городе; показ красивой гоночной игры.
- Пример самурая, который взаимодействует с окружающей средой (разбивает воздушный шар).
Впечатляющие демонстрации AI в видеоиграх
Реалистичное освещение и создание миров
- Демонстрация реалистичного освещения в игре, где персонаж с факелом освещает всю сцену.
- Возможность загружать реальные изображения для создания игровых миров; переход от концепт-арта к играбельной игре мгновенно.
- Упоминание о компании World Labs, которая разрабатывает AI-систему для генерации 3D-миров из одного изображения.
Интерактивные 3D-сцены
- Примеры ранних результатов работы World Labs, где пользователи могут взаимодействовать со сценами прямо в браузере.
- Подход к предсказанию сцены как единого целого вместо предсказания каждого пикселя; это позволяет сохранять физические правила 3D-графики.
Новые возможности изменения сцен
- Генерация всей сцены позволяет изменять элементы, такие как освещение, в реальном времени.
- Возможность перемещения по известным картинам и исследование окружающей среды с детализированной графикой.
Переход к разговорному AI
- Обсуждение новых возможностей разговорного AI от компании 11 Labs, сопоставимого с Advanced Voice от OpenAI.
- Легкость создания разговорных агентов с низкой задержкой и высокой конфигурируемостью.
Простота интеграции и развертывания
- Процесс создания агентов стал проще благодаря библиотекам высококачественных голосов и возможности интеграции собственных серверов.
Обзор новых технологий AI
Инновации в голосовых технологиях
- Обсуждается возможность извлечения сигналов из тональности голоса, что позволяет улучшить качество взаимодействия в голосовых системах.
- Упоминается о возможности использования различных языковых моделей (LLM) для оптимизации под конкретные задачи пользователей.
- 11 Labs представила функцию генерации подкастов из текстового контента, включая PDF и статьи на 32 языках с помощью приложения 11 Reader.
Генерация подкастов и новые функции
- Пример нового формата подкаста, где обсуждаются персонажи сказки "Золушка", демонстрируя креативный подход к контенту.
- Подчеркивается доступность Gen FM в кармане пользователя, что делает создание контента более удобным.
Новые модели текст-видео
- Представлена новая открытая модель текст-видео от Tencent, которая позволяет создавать короткие видеоролики на основе текста.
- Примеры работы модели показывают высокое качество визуализации, хотя клипы имеют ограниченную длину.
Открытые источники и новые разработки
- Обсуждение новой модели Mochi для локального запуска текст-видео, предлагающей пользователям больше возможностей для творчества.
- Введение в модель qwq от команды Quen — экспериментальная модель с открытыми весами, обладающая уникальными аналитическими способностями.
Ограничения и возможности новых моделей
- Модель qwq имеет ограничения: смешивание языков и проблемы с логикой могут привести к неожиданным результатам.
Думки о моделях и децентрализованных системах
Процесс мышления и выводы
- Обсуждение процесса размышлений, который привел к получению окончательного ответа. Упоминается, что время, затраченное на размышления, не указано.
- Переход к обсуждению децентрализованных обученных моделей, которые могут уменьшить необходимость в крупных дата-центрах для обучения новых поколений моделей.
Децентрализованные модели
- Упоминание проекта под названием Pedals и его схожести с новым проектом от Prime Intellect — открытым децентрализованным 10B моделью.
- Подчеркивается важность этого проекта для сообщества с открытым исходным кодом, так как он позволяет тренировать модели без значительных финансовых затрат со стороны компаний.
Вклад Prime Intellect
- Возможность использования вычислительных мощностей обычных пользователей для обучения моделей. Приводится пример использования RTX A6000 для поддержки таких проектов.
- Инновация в распределении вычислительных ресурсов между множеством машин по всему миру.
Протокол контекста модели от Anthropic
Новый стандарт взаимодействия
- Введение протокола mCP (модель контекста протокола), который стандартизирует доступ агентов к реальным инструментам и данным.
- Целью является улучшение качества ответов от фронтальных моделей за счет лучшего взаимодействия с данными из различных источников.
Разработка и интеграция
- Множество компаний работают над созданием стандартов для взаимодействия AI с цифровым миром.
- Разработчики могут использовать mCP-серверы или создавать приложения AI для подключения к этим серверам.
Инновации в генерации изображений
Генеративные шахматные наборы от Google
- Презентация проекта Gen Chess от Google, позволяющего генерировать шахматные наборы на основе любых тем.
Новая модель генерации изображений от Runway
Новые достижения в области генерации изображений и текстов
Презентация нового текстово-изображенческого модели
- Обсуждение новой модели, которая демонстрирует впечатляющее качество и реализм изображений, создаваемых на основе текста. Модель имеет стильный визуальный подход, который напоминает кино.
Примеры работ модели
- Показаны примеры работ, включая обложки альбомов 1970-х годов и японский дзен. Упоминается о высоком уровне детализации изображений.
- Обсуждаются фотографии природы и изображения с использованием одноразовых камер, которые сохраняют зернистый вид, что создает уникальную эстетику.
Новый LLM от AWS
- Представление нового языкового моделирования Amazon Nova Frontier Intelligence с высокой производительностью по низкой цене. Модель поддерживает как текстовые, так и визуальные данные.
Характеристики моделей Amazon
- Описание трех различных размеров моделей: Micro (128k токенов), Light (мультимодальная модель для быстрого обработки данных), Pro (300K входных токенов).
Инвестиции в технологии
- Обсуждение расширения сотрудничества между Anthropic и AWS с новым инвестиционным пакетом в $4 миллиарда для разработки будущих поколений чипов Tranimum.
Анонсы от OpenAI