Alibaba показала новую версию своей мультимодальной модели Qwen3.5-Omni, которая умеет нативно работать сразу с текстом, изображениями, аудио и аудио-видео, а также выдавать ответ в текстовом или голосовом формате. По данным команды Qwen, старшая версия Qwen3.5-Omni-Plus стала SOTA сразу в 215 задачах по пониманию, рассуждению и взаимодействию с аудио и видео.
По заявлению разработчиков, модель не просто догнала, а в ряде сценариев обошла Gemini-3.1 Pro: особенно в аудиопонимании, распознавании, переводе и диалоговых сценариях. При этом визуальные и текстовые способности, по словам команды, сопоставимы с другими моделями того же размера в линейке Qwen3.5.
Одна из самых заметных особенностей новинки — работа с длинным контекстом. Модель поддерживает до 256K токенов, может обрабатывать более 10 часов аудио и более 400 секунд видео в формате 720P при 1 FPS. Это открывает путь к новым сценариям: от анализа длинных роликов и автоматической разметки времени до работы в режиме «сказал — получил код» с помощью камеры и голоса.
В практических тестах Qwen3.5-Omni-Plus показала себя как довольно сильный инструмент для видеоописания. Модель способна просматривать длинный ролик и выдавать структурированный пересказ с таймкодами, сохраняя логику событий и ключевые эмоциональные переходы. В одном из тестов модель обработала примерно 50-минутный эпизод «Friends» за около 1 минуты и смогла достаточно точно описать сюжетную линию и сцены.
Ещё один интересный сценарий — так называемый Audio-Visual Vibe Coding. Если дать модели скринкаст, голосовые комментарии или даже нарисованный от руки wireframe, она может понять замысел и выдать код для прототипа интерфейса. Alibaba показывает это как шаг к более естественному способу программирования — не через текстовый запрос, а через сочетание изображения, голоса и контекста.
Существенно усилили и интерактивные функции. Модель теперь поддерживает семантическое прерывание: пользователь может перебить её в процессе ответа, добавить уточнение или сменить задачу. Также в систему встроены поиск в интернете, function call, управление тоном и скоростью речи, а ещё клонирование голоса и перевод с сохранением тембра. Это делает Qwen3.5-Omni не просто «моделью, которая отвечает», а полноценным голосовым ассистентом нового поколения.
С технической точки зрения модель сохранила архитектуру Thinker-Talker: одна часть отвечает за понимание, другая — за генерацию речи. Но внутри теперь используется гибридная attention-архитектура MoE, а для повышения стабильности и качества речи применены собственные механизмы выравнивания текста и голоса. Именно это, по словам команды, помогает модели быстрее и естественнее работать в длинных и потоковых сценариях.
Для рынка это важный сигнал: гонка AI-моделей всё больше смещается от «просто чатботов» к универсальным мультимодальным системам, которые понимают голос, видео, текст и изображения как единый поток. И если такие модели действительно начнут массово использоваться, то сильнее всего изменятся контент-модерация, клиентский сервис, перевод, обучение и человеко-машинные интерфейсы в целом.
sms_systems@inbox.ru
+ 7 (985) 982-70-55