The Industry Reacts to OpenAI Operator - “Agents Invading The Web"
Новая эра агентов ИИ
Реакция на систему OpenAI Operator
- Индустрия ИИ активно реагирует на новую агентную систему от OpenAI, которая может использовать веб-браузеры для выполнения реальных задач.
- Андрея Ай, один из ведущих умов в области ИИ, сравнивает проекты OpenAI с гуманоидными роботами, подчеркивая их значимость для цифрового мира.
Структура и взаимодействие с миром
- Оба типа технологий (агенты и роботы) созданы для взаимодействия с человеческим окружением: браузеры и физические объекты проектируются под человека.
- Эффективность агентов заключается в использовании привычных интерфейсов (клавиатура, мышь), что позволяет им быстро адаптироваться к существующим системам.
Потенциал и вызовы
- Агенты могут столкнуться с трудностями на начальном этапе; использование API было бы проще, но требует значительных изменений в интернете.
- Постепенно агенты смогут выполнять более сложные задачи, а люди станут высокоуровневыми супервайзерами низкоуровневой автоматизации.
Доверие к агентам
- Необходимо построить доверие к способности агентов выполнять задачи от нашего имени; это произойдет быстрее в цифровом мире по сравнению с физическим.
- Прогнозируется, что 2025 год станет началом эпохи агентов, где они будут управляться людьми как CEO.
Будущее многоагентных систем
- Ожидается запуск новых агентов от OpenAI, которые смогут контролировать компьютеры и мобильные устройства.
- Одним из ключевых преимуществ оператора является возможность запуска нескольких задач одновременно через разных агентов.
Расширение возможностей использования ИИ
- Полный доступ к браузеру откроет множество новых случаев использования ИИ благодаря отсутствию API для многих повседневных задач.
Проблемы с использованием браузера и AI-агентов
Время настройки и проблемы с доступом
- Настройка нового браузера занимает около часа, включая ввод учетных данных и вход на часто используемые сайты.
- Некоторые сайты блокируют доступ, считая действия пользователя ботом, что вызывает проблемы при использовании AI-агентов.
Сравнение с другими агентами
- OpenAI не является единственным агентом, способным управлять браузером; существуют альтернативные решения.
- Открытые версии агентов, такие как Gradio Browser Plugin, позволяют разработчикам использовать AI для выполнения задач в браузере.
Эффективность альтернатив
- Проект Browser Use предлагает аналогичные функции и превосходит OpenAI Operator по производительности.
- Другие открытые проекты также показывают высокие результаты в сравнении с оператором от OpenAI.
Безопасность и ограничения
- Plyy смог обойти ограничения оператора, получив доступ к запрещенному контенту, несмотря на песочницу среды.
- Попытка оператора создать нового агента приводит к ошибке "сайт недоступен", что указывает на ограничения системы.
Перспективы использования AI
- AI может значительно ускорить выполнение задач, но пока не так эффективно, как ручное выполнение.
- Интересный аспект: предпочтения агентов могут влиять на выбор источников информации (например, Yahoo Finance против Bing).
Человеческий фактор в творчестве
- Кристофф подчеркивает важность человеческого вкуса в музыке и творчестве — то, что AI не может полностью воспроизвести.
Данные и их значение для развития
- Оператор собирает данные о взаимодействии пользователей с веб-сайтами для улучшения своих алгоритмов.
Использование оператора AI в повседневной жизни
Примеры использования оператора
- Гэри Тан, президент Y Combinator, делится впечатлениями от оператора, который помогает планировать спонтанные поездки. Оператор успешно навигирует по сайту JSX и справляется с нестандартными ситуациями, такими как изменение дат и времени.
- Оператор взаимодействует с веб-сайтом JSX для поиска мест на рейсах. Он задает вопросы пользователю о доступных вариантах, например, о продаже билетов и возможности выбора других дат.
- Оливия Мур из a16z рассказывает о том, как оператор обрабатывает оплату счета. Она просто сделала фотографию бумажного счета, и оператор самостоятельно вошел в ее аккаунт и запросил данные кредитной карты для завершения платежа.
- Ник использует оператора для поиска тренажера на Facebook Marketplace. Оператор не только находит нужный товар, но и организует его доставку без необходимости ручного вмешательства пользователя.
- Дэн Мак демонстрирует использование оператора для создания портфолио сайта с помощью Google AI Studio. Это подчеркивает способность оператора выполнять когнитивные задачи вместо человека.
Перспективы использования
- Кieran Classen отмечает многообещающие возможности оператора в тестировании локальной среды разработки. Оператор может автоматически проверять работоспособность функций 24/7 во время их разработки.