Qwen 3.5 - мультимодальная нейросеть от Alibaba, которая обогнала всех

Alibaba выпустила Qwen 3.5 - принципиально новую мультимодальную модель, которая одновременно работает с текстом, картинками и видео, поддерживает контекст до 1 миллиона токенов и по бенчмаркам бьёт GPT-5.2, Claude Opus 4.5 и Gemini 3 Pro в нескольких категориях. При этом она открытая - веса можно скачать и развернуть у себя.

Ключевые характеристики

  • 397 млрд параметров, из них только 17 млрд активных на каждый запрос (архитектура MoE - "смесь экспертов")
  • Контекст до 1 млн токенов - это примерно 2 часа видео за один запрос
  • Нативная мультимодальность - текст, картинки и видео обрабатываются в единой архитектуре, без костылей
  • В 8,6-19x быстрее чем предыдущая Qwen3-Max при декодировании
  • 201 язык и диалект (было 119 в Qwen3), включая русский
  • Словарь увеличен до 250 тыс. токенов (вместо 150 тыс.) - прирост эффективности 10-60%
  • Встроенная поддержка tool use и агентных сценариев

Бенчмарки флагманской модели

Результаты Qwen3.5-397B-A17B в сравнении с конкурентами (не все модели тестировались на всех бенчмарках):

Текстовые и агентные

БенчмаркQwen 3.5GPT-5.2Claude Opus 4.5Gemini 3 Pro IFBench (следование инструкциям)76.558.0-70.4 GPQA Diamond (reasoning)88.492.487.091.9 BFCL V4 (tool use)72.9-77.572.5 BrowseComp (поиск в вебе)78.667.8-59.2 MMMLU (мультиязычные знания)88.590.1-90.6 SWE-bench (агентный кодинг)76.480.9-76.2 Terminal-Bench 2 (терминал)52.5-59.354.2

Визуальные и мультимодальные

БенчмаркQwen 3.5GPT-5.2Claude Opus 4.5Gemini 3 Pro MMMU-Pro (визуальное мышление)79.070.6-81.0 ERQA (пространственное мышление)67.5-46.870.5 OmniDocBench (документы)90.887.7-88.5 Video-MME (анализ видео)87.5-77.688.4

Где Qwen 3.5 лидирует: следование инструкциям (IFBench: 76.5 vs 58.0 у GPT), веб-поиск (BrowseComp: 78.6 vs 67.8 у GPT) и работа с документами (OmniDocBench: 90.8). Где уступает: кодинг (SWE-bench: 76.4 vs 80.9 у GPT), tool use (BFCL: 72.9 vs 77.5 у Claude), reasoning (GPQA: 88.4 vs 92.4 у GPT).

Применения

  • Веб-разработка - превращает промпты в рабочий код для фронтенда, UI/UX дизайна и веб-страниц
  • Визуальные агенты - управление смартфонами и компьютерами через естественный язык, превращение эскизов UI в код
  • Пространственный интеллект - подсчёт объектов, позиционирование, автономное вождение, робототехника
  • Agentic workflows - многошаговое планирование, поиск в вебе, выполнение кода, мультимодальное мышление

Облегчённые версии

Помимо флагмана, Alibaba выпустила серию моделей для более широкого круга задач:

  • Qwen 3.5-122B-A10B - 122 млрд параметров, 10 млрд активных. Для задач с длинным планированием
  • Qwen 3.5-27B - компактная плотная модель для агентных задач. Запускается на одном GPU
  • Qwen 3.5-35B-A3B - MoE с 3 млрд активных параметров. Превосходит прежнюю Qwen3-235B - модель в 7 раз крупнее!

Все облегчённые модели поддерживают контекст 262K токенов (расширяется до 1М), 201 язык, thinking/non-thinking режимы и tool use.

Главное преимущество

Ни GPT-5.2, ни Claude Opus 4.5, ни Gemini 3 Pro не являются открытыми. Qwen 3.5 - единственная модель фронтир-уровня с открытыми весами. Скачивайте, дообучайте под свои задачи, разворачивайте на своих серверах без зависимости от чужих API.

Как попробовать