DeepSeek V4 vs Kimi K2.6 vs Qwen 3.6 vs GLM 5.1 — какой AI кодит реальные проекты?

Name: DeepSeek V4 vs Kimi K2.6 vs Qwen 3.6 vs GLM 5.1 — какой AI кодит реальные проекты?
Uploaded: 2026-05-07T13:55:21.000Z
Duration: 1 h 6 min 32 s

Как китайские модели пишут код: сравнение и анализ

Введение в эксперимент

Приветствие и цель видео: выяснить, какая китайская модель генерирует качественный код для реальных проектов.

Задача эксперимента: адаптировать код под нишу мебели с использованием одного промта без дополнительных подсказок.

Код будет оцениваться по восьми критериям, включая безопасность и документацию, с максимальным баллом 80.

Описание моделей

Основной инструмент - Claude-код, используемый в реальных проектах. Цель - показать возможности китайских моделей в бизнес-кейсе.

Структура кода: 7.600 строк, 47 файлов, админ-панель и защита от инъекций.

Инструмент OpenCD: бесплатный open-source анализатор кода с доступом к множеству моделей через один API ключ.

Обзор китайских моделей

Первая модель - Deepsic версия 4 Pro (600 параметров), стоимость использования $0.70 за миллион входных токенов.

Вторая модель - Quen 3.6 от Alibaba (27 млрд параметров), показала высокие результаты на Bench SV.

Третья модель - GLM 5.1 (754 млрд параметров), может работать автономно до 8 часов.

Процесс тестирования

Эксперимент включает использование одинакового стартер-кита для всех моделей с различными локалами для избежания конфликтов.

Каждая модель запускается последовательно для проверки работоспособности и качества кода.

Результаты тестирования

Проверка готовых решений каждой модели; акцент на функциональности виджетов и админ-панелей.

GLM 5.1 потратил $4 на создание рабочего билда; демонстрация его работы без ошибок.

Анализ уязвимостей

Попытки взлома через инъекции показывают защитные механизмы каждой модели; большинство запросов блокируются успешно.

Оценка качества кода

Каждая модель проводит самопроверку своего кода по восьми параметрам; результаты будут сравнены с оценками GPT 5.5 и OPUS 4.7.

Сравнительный анализ результатов

Результаты самопроверки GLM показывают низкие оценки по безопасности и документации, но хорошие показатели по модульности благодаря стартер-киту.

Заключение о качестве кода

Оценки от разных моделей схожи; выявлены критические проблемы в безопасности и документации во всех моделях.

Этот документ предоставляет структурированный обзор эксперимента по сравнению китайских AI-моделей в контексте написания программного обеспечения, выделяя ключевые моменты анализа их производительности и качества создаваемого кода.

Обсуждение оценки кода и архитектуры

Общая оценка кода

Оценка безопасности, модульности, тестов и документации варьируется от 6 до 7 баллов, с общей суммой в 53 балла. Указаны критические проблемы.

Архитектура кода имеет недостатки, такие как уязвимости SQL-инъекций. Оценка немного завышена — 58 баллов.

Проблемы с отчетом

Отчет о коде не был выполнен должным образом; выявлены проблемы с безопасностью и модульностью. Тесты провалились.

Обсуждаются сильные стороны кода: антиинъекционные меры и документация инцидентов.

Критика оценок OPUS

Оценка от OPUS

Код получил 49 из 80 баллов; отмечены критические проблемы, включая живой IP-ключ.

GPT оценивает код выше (52 балла), но также указывает на серьезные архитектурные недостатки.

Сравнение оценок

OPUS ставит высокие оценки (68 из 80), что вызывает недоумение из-за наличия критических проблем.

Высокая оценка OPUS воспринимается как необъективная; обсуждаются общие рекомендации по улучшению кода.

Итоги сравнения моделей

Эффективность моделей

GLM 5.1 признан лучшей моделью за быструю и качественную реализацию.

GLM потратил меньше средств на реализацию по сравнению с другими моделями, такими как DePSK.

Будущее использования моделей

GPT 5.5 будет использоваться для оценки кода, несмотря на сомнения в его объективности.

Вопросы о качестве оценок остаются открытыми; автор призывает зрителей делиться мнениями о результатах.

Заключение и взаимодействие с аудиторией

Призыв к действию

Подписывайтесь на канал и Telegram для получения новостей и общения о проектах.