LLMs & Fine-tuning
Введение в LLM и их настройка
Введение
- Приветствие участников и благодарность Адаму за участие в сессии.
- Обсуждение формата встречи, включая использование английского языка для общения.
Основные темы обсуждения
- Адам представляется как эксперт по ML и главный AI-офицер в Omah, а также делится информацией о своих стартапах.
- Основная тема сессии — это LLM (Large Language Models) и способы их настройки.
Что такое токены и их значение
Токенизация
- Токены являются "валютой" для взаимодействия с LLM; каждое слово преобразуется в токены при вводе текста.
- Пример: слово "learn" имеет свои уникальные идентификаторы токенов, которые используются для обработки текста.
Сравнение языков
- Использование различных языков влияет на количество потребляемых токенов; например, узбекский язык требует больше токенов по сравнению с английским.
Настройка моделей LLM
Локальные решения против облачных API
- Обсуждение преимуществ локальных решений по сравнению с облачными API, такими как OpenAI или Gemini API.
- Упоминание о том, что многие пользователи используют готовые API без кастомизации или настройки под свои нужды.
Получение кредитов на облачные решения
- Информация о том, как стартапы могут получить кредиты на использование облачных сервисов Google до $200k через программу Google for Startups.
Финетюнинг моделей
Что такое финетюнинг?
- Финетюнинг — это процесс адаптации модели к специфическим наборам данных для улучшения ее работы в определенной области.
Стратегии финетюнинга
- Две основные стратегии: полное финетюнинг (настройка всех параметров) и параметрически эффективное финетюнинг (заморозка некоторых весов).
Проблемы переобучения и недообучения
Переобучение vs Недообучение
- Переобучение происходит, когда модель слишком точно запоминает обучающие данные, что приводит к плохим результатам на новых данных; недообучение — когда модель не учится должным образом из-за недостаточной сложности модели или недостаточного объема данных.
Заключительные мысли и вопросы участников
Вопросы от участников
- Участники задают вопросы о получении кредитов на AWS или Google для стартапов и делятся своим опытом получения таких кредитов.
Как начать изучение машинного обучения?
Основные термины в машинном обучении
- Для начала изучения машинного обучения важно освоить алгоритмы, такие как контролируемое и неконтролируемое обучение.
- Рекомендуется пройти курс по машинному обучению от Эндрю НГ на Coursera, который подходит для всех уровней.
Мульти-источники обучения
- При изучении тем стоит использовать несколько источников, например, сочетать курсы с YouTube для сравнения материалов.
Работа в Google
- Спикер является экспертом-разработчиком Google и участвует в мероприятиях, связанных с открытыми решениями и услугами Google.
Как применить знания к финальному проекту?
Применение знаний к проектам
- Участникам предлагается создать либо стандартный проект из документации Google, либо разработать собственный стартап.
Использование эмбеддингов и дообучения
- Знания о эмбеддингах можно применять для локализации моделей без использования сторонних API.
- Примеры применения включают создание Q&A систем с использованием эмбеддингов без необходимости дообучения.
Примеры использования данных Hugging Face
Конкретные примеры дообучения
- Спикер делится опытом работы с наборами данных для моделей распознавания речи, которые понимают диалекты.
Доступность наборов данных
- Hugging Face предоставляет доступ к различным наборам данных и моделям, включая Whisper и Web.
Когда использовать локальные решения?
Запросы от государственных структур
- Государственные организации часто требуют локальные решения без подключения к интернету из-за правил хранения персональных данных.
Другие возможности Hugging Face
Хостинг моделей
- Hugging Face предлагает возможность хостинга и развертывания моделей бесплатно на определенный период времени.
Безопасность использования публичных LLM
Ответственность за безопасность кода
- Использование публичных LLM может быть небезопасным из-за возможности использования ваших данных для обучения их моделей.
Заключительные мысли и рекомендации
Итоги встречи
- Спикер подчеркивает важность дальнейшего общения через Telegram для ответов на вопросы участников после завершения сессии.