Qwen 3.5 - мультимодальная нейросеть от Alibaba, которая обогнала всех
Alibaba выпустила Qwen 3.5 - принципиально новую мультимодальную модель, которая одновременно работает с текстом, картинками и видео, поддерживает контекст до 1 миллиона токенов и по бенчмаркам бьёт GPT-5.2, Claude Opus 4.5 и Gemini 3 Pro в нескольких категориях. При этом она открытая - веса можно скачать и развернуть у себя.
Ключевые характеристики
- 397 млрд параметров, из них только 17 млрд активных на каждый запрос (архитектура MoE - "смесь экспертов")
- Контекст до 1 млн токенов - это примерно 2 часа видео за один запрос
- Нативная мультимодальность - текст, картинки и видео обрабатываются в единой архитектуре, без костылей
- В 8,6-19x быстрее чем предыдущая Qwen3-Max при декодировании
- 201 язык и диалект (было 119 в Qwen3), включая русский
- Словарь увеличен до 250 тыс. токенов (вместо 150 тыс.) - прирост эффективности 10-60%
- Встроенная поддержка tool use и агентных сценариев
Бенчмарки флагманской модели
Результаты Qwen3.5-397B-A17B в сравнении с конкурентами (не все модели тестировались на всех бенчмарках):

Текстовые и агентные
БенчмаркQwen 3.5GPT-5.2Claude Opus 4.5Gemini 3 Pro IFBench (следование инструкциям)76.558.0-70.4 GPQA Diamond (reasoning)88.492.487.091.9 BFCL V4 (tool use)72.9-77.572.5 BrowseComp (поиск в вебе)78.667.8-59.2 MMMLU (мультиязычные знания)88.590.1-90.6 SWE-bench (агентный кодинг)76.480.9-76.2 Terminal-Bench 2 (терминал)52.5-59.354.2
Визуальные и мультимодальные
БенчмаркQwen 3.5GPT-5.2Claude Opus 4.5Gemini 3 Pro MMMU-Pro (визуальное мышление)79.070.6-81.0 ERQA (пространственное мышление)67.5-46.870.5 OmniDocBench (документы)90.887.7-88.5 Video-MME (анализ видео)87.5-77.688.4
Где Qwen 3.5 лидирует: следование инструкциям (IFBench: 76.5 vs 58.0 у GPT), веб-поиск (BrowseComp: 78.6 vs 67.8 у GPT) и работа с документами (OmniDocBench: 90.8). Где уступает: кодинг (SWE-bench: 76.4 vs 80.9 у GPT), tool use (BFCL: 72.9 vs 77.5 у Claude), reasoning (GPQA: 88.4 vs 92.4 у GPT).
Применения
- Веб-разработка - превращает промпты в рабочий код для фронтенда, UI/UX дизайна и веб-страниц
- Визуальные агенты - управление смартфонами и компьютерами через естественный язык, превращение эскизов UI в код
- Пространственный интеллект - подсчёт объектов, позиционирование, автономное вождение, робототехника
- Agentic workflows - многошаговое планирование, поиск в вебе, выполнение кода, мультимодальное мышление
Облегчённые версии
Помимо флагмана, Alibaba выпустила серию моделей для более широкого круга задач:

- Qwen 3.5-122B-A10B - 122 млрд параметров, 10 млрд активных. Для задач с длинным планированием
- Qwen 3.5-27B - компактная плотная модель для агентных задач. Запускается на одном GPU
- Qwen 3.5-35B-A3B - MoE с 3 млрд активных параметров. Превосходит прежнюю Qwen3-235B - модель в 7 раз крупнее!
Все облегчённые модели поддерживают контекст 262K токенов (расширяется до 1М), 201 язык, thinking/non-thinking режимы и tool use.
Главное преимущество
Ни GPT-5.2, ни Claude Opus 4.5, ни Gemini 3 Pro не являются открытыми. Qwen 3.5 - единственная модель фронтир-уровня с открытыми весами. Скачивайте, дообучайте под свои задачи, разворачивайте на своих серверах без зависимости от чужих API.
Как попробовать
- Попробовать онлайн - бесплатный веб-интерфейс
- GitHub - исходный код и документация
- HuggingFace - флагман 397B - веса для скачивания
- HuggingFace - облегчённые версии - 27B, 35B и 122B
- Официальный блог - подробный технический обзор