DeepSeek V4 vs Kimi K2.6 vs Qwen 3.6 vs GLM 5.1 — какой AI кодит реальные проекты?
Как китайские модели пишут код: сравнение и анализ
Введение в эксперимент
- Приветствие и цель видео: выяснить, какая китайская модель генерирует качественный код для реальных проектов.
- Задача эксперимента: адаптировать код под нишу мебели с использованием одного промта без дополнительных подсказок.
- Код будет оцениваться по восьми критериям, включая безопасность и документацию, с максимальным баллом 80.
Описание моделей
- Основной инструмент - Claude-код, используемый в реальных проектах. Цель - показать возможности китайских моделей в бизнес-кейсе.
- Структура кода: 7.600 строк, 47 файлов, админ-панель и защита от инъекций.
- Инструмент OpenCD: бесплатный open-source анализатор кода с доступом к множеству моделей через один API ключ.
Обзор китайских моделей
- Первая модель - Deepsic версия 4 Pro (600 параметров), стоимость использования $0.70 за миллион входных токенов.
- Вторая модель - Quen 3.6 от Alibaba (27 млрд параметров), показала высокие результаты на Bench SV.
- Третья модель - GLM 5.1 (754 млрд параметров), может работать автономно до 8 часов.
Процесс тестирования
- Эксперимент включает использование одинакового стартер-кита для всех моделей с различными локалами для избежания конфликтов.
- Каждая модель запускается последовательно для проверки работоспособности и качества кода.
Результаты тестирования
- Проверка готовых решений каждой модели; акцент на функциональности виджетов и админ-панелей.
- GLM 5.1 потратил $4 на создание рабочего билда; демонстрация его работы без ошибок.
Анализ уязвимостей
- Попытки взлома через инъекции показывают защитные механизмы каждой модели; большинство запросов блокируются успешно.
Оценка качества кода
- Каждая модель проводит самопроверку своего кода по восьми параметрам; результаты будут сравнены с оценками GPT 5.5 и OPUS 4.7.
Сравнительный анализ результатов
- Результаты самопроверки GLM показывают низкие оценки по безопасности и документации, но хорошие показатели по модульности благодаря стартер-киту.
Заключение о качестве кода
- Оценки от разных моделей схожи; выявлены критические проблемы в безопасности и документации во всех моделях.
Этот документ предоставляет структурированный обзор эксперимента по сравнению китайских AI-моделей в контексте написания программного обеспечения, выделяя ключевые моменты анализа их производительности и качества создаваемого кода.
Обсуждение оценки кода и архитектуры
Общая оценка кода
- Оценка безопасности, модульности, тестов и документации варьируется от 6 до 7 баллов, с общей суммой в 53 балла. Указаны критические проблемы.
- Архитектура кода имеет недостатки, такие как уязвимости SQL-инъекций. Оценка немного завышена — 58 баллов.
Проблемы с отчетом
- Отчет о коде не был выполнен должным образом; выявлены проблемы с безопасностью и модульностью. Тесты провалились.
- Обсуждаются сильные стороны кода: антиинъекционные меры и документация инцидентов.
Критика оценок OPUS
Оценка от OPUS
- Код получил 49 из 80 баллов; отмечены критические проблемы, включая живой IP-ключ.
- GPT оценивает код выше (52 балла), но также указывает на серьезные архитектурные недостатки.
Сравнение оценок
- OPUS ставит высокие оценки (68 из 80), что вызывает недоумение из-за наличия критических проблем.
- Высокая оценка OPUS воспринимается как необъективная; обсуждаются общие рекомендации по улучшению кода.
Итоги сравнения моделей
Эффективность моделей
- GLM 5.1 признан лучшей моделью за быструю и качественную реализацию.
- GLM потратил меньше средств на реализацию по сравнению с другими моделями, такими как DePSK.
Будущее использования моделей
- GPT 5.5 будет использоваться для оценки кода, несмотря на сомнения в его объективности.
- Вопросы о качестве оценок остаются открытыми; автор призывает зрителей делиться мнениями о результатах.
Заключение и взаимодействие с аудиторией
Призыв к действию
- Подписывайтесь на канал и Telegram для получения новостей и общения о проектах.