DeepSeek V4 vs Kimi K2.6 vs Qwen 3.6 vs GLM 5.1 — какой AI кодит реальные проекты?

DeepSeek V4 vs Kimi K2.6 vs Qwen 3.6 vs GLM 5.1 — какой AI кодит реальные проекты?

Как китайские модели пишут код: сравнение и анализ

Введение в эксперимент

  • Приветствие и цель видео: выяснить, какая китайская модель генерирует качественный код для реальных проектов.
  • Задача эксперимента: адаптировать код под нишу мебели с использованием одного промта без дополнительных подсказок.
  • Код будет оцениваться по восьми критериям, включая безопасность и документацию, с максимальным баллом 80.

Описание моделей

  • Основной инструмент - Claude-код, используемый в реальных проектах. Цель - показать возможности китайских моделей в бизнес-кейсе.
  • Структура кода: 7.600 строк, 47 файлов, админ-панель и защита от инъекций.
  • Инструмент OpenCD: бесплатный open-source анализатор кода с доступом к множеству моделей через один API ключ.

Обзор китайских моделей

  • Первая модель - Deepsic версия 4 Pro (600 параметров), стоимость использования $0.70 за миллион входных токенов.
  • Вторая модель - Quen 3.6 от Alibaba (27 млрд параметров), показала высокие результаты на Bench SV.
  • Третья модель - GLM 5.1 (754 млрд параметров), может работать автономно до 8 часов.

Процесс тестирования

  • Эксперимент включает использование одинакового стартер-кита для всех моделей с различными локалами для избежания конфликтов.
  • Каждая модель запускается последовательно для проверки работоспособности и качества кода.

Результаты тестирования

  • Проверка готовых решений каждой модели; акцент на функциональности виджетов и админ-панелей.
  • GLM 5.1 потратил $4 на создание рабочего билда; демонстрация его работы без ошибок.

Анализ уязвимостей

  • Попытки взлома через инъекции показывают защитные механизмы каждой модели; большинство запросов блокируются успешно.

Оценка качества кода

  • Каждая модель проводит самопроверку своего кода по восьми параметрам; результаты будут сравнены с оценками GPT 5.5 и OPUS 4.7.

Сравнительный анализ результатов

  • Результаты самопроверки GLM показывают низкие оценки по безопасности и документации, но хорошие показатели по модульности благодаря стартер-киту.

Заключение о качестве кода

  • Оценки от разных моделей схожи; выявлены критические проблемы в безопасности и документации во всех моделях.

Этот документ предоставляет структурированный обзор эксперимента по сравнению китайских AI-моделей в контексте написания программного обеспечения, выделяя ключевые моменты анализа их производительности и качества создаваемого кода.

Обсуждение оценки кода и архитектуры

Общая оценка кода

  • Оценка безопасности, модульности, тестов и документации варьируется от 6 до 7 баллов, с общей суммой в 53 балла. Указаны критические проблемы.
  • Архитектура кода имеет недостатки, такие как уязвимости SQL-инъекций. Оценка немного завышена — 58 баллов.

Проблемы с отчетом

  • Отчет о коде не был выполнен должным образом; выявлены проблемы с безопасностью и модульностью. Тесты провалились.
  • Обсуждаются сильные стороны кода: антиинъекционные меры и документация инцидентов.

Критика оценок OPUS

Оценка от OPUS

  • Код получил 49 из 80 баллов; отмечены критические проблемы, включая живой IP-ключ.
  • GPT оценивает код выше (52 балла), но также указывает на серьезные архитектурные недостатки.

Сравнение оценок

  • OPUS ставит высокие оценки (68 из 80), что вызывает недоумение из-за наличия критических проблем.
  • Высокая оценка OPUS воспринимается как необъективная; обсуждаются общие рекомендации по улучшению кода.

Итоги сравнения моделей

Эффективность моделей

  • GLM 5.1 признан лучшей моделью за быструю и качественную реализацию.
  • GLM потратил меньше средств на реализацию по сравнению с другими моделями, такими как DePSK.

Будущее использования моделей

  • GPT 5.5 будет использоваться для оценки кода, несмотря на сомнения в его объективности.
  • Вопросы о качестве оценок остаются открытыми; автор призывает зрителей делиться мнениями о результатах.

Заключение и взаимодействие с аудиторией

Призыв к действию

  • Подписывайтесь на канал и Telegram для получения новостей и общения о проектах.
Video description

В прошлом видео Claude Opus 4.7 и GPT-5.5 создавали AI-бота по одному промпту. Сегодня — четыре open-source модели за $20. DeepSeek V4 Pro, Kimi K2.6, Qwen 3.6-27B, GLM-5.1. Все четыре — через OpenCode (бесплатная IDE, 146K звёзд) и OpenRouter (один API-ключ). Тот же Starter Kit, тот же формат, другой реальный бизнес-кейс — мебельный салон . Прошлое видео (GPT-5.5 vs Claude Opus 4.7): https://youtu.be/yOD8ssJxS0w --- ТАЙМКОДЫ 0:00 — Могут ли китайские модели заменить Claude и GPT? 1:05 — О себе: Эдвард Гришин, Futura AI 1:33 — Что мы делаем: OpenCode, OpenRouter, четыре модели, один промпт/сравнение моделей по бенчмаркам и ценам 5:05 — Часть 1: создание — DeepSeek V4, Kimi K2.6, Qwen 3.6, GLM-5.1 адаптируют Starter Kit 6:55 — Часть 2: тестируем вживую четыре бота и их результаты 19:45 — Часть 3: code review — Opus и GPT проверяют код всех четырёх моделей и модели проверяют свой код 31:20 — Финал: для чего open-source, для чего Claude — честный вывод #deepseek #deepseekv4 #kimi #kimik2 #qwen #qwen36 #glm #glm51 #zai #opencode #openrouter #claudecode #claude #chatgpt #gpt55 #openai #anthropic #opensource #бесплатно #ииразработка #программирование #ai #искусственныйинтеллект #aitools #aicoding #vibecoding #вайбкодинг #aiбот #codereview #fastapi #python #разработка #кодинг #futuraai #aiпродавец #starterkit #нейросети #нейросеть #сравнение #лучшаянейросеть #лучшийai #бесплатныйai #moonshot #alibaba #deepseekpro