Новый режим распознавания изображений в DeepSeek V4

Новый режим распознавания изображений в DeepSeek V4
 

Пока рынок обсуждал DeepSeek V4 за его низкую стоимость и сильные навыки программирования, компания неожиданно сделала следующий шаг — начала тестировать режим распознавания изображений. Фактически речь идёт о долгожданной мультимодальности: теперь модель не только «читает текст», но и «видит».

Хотя функция пока доступна лишь ограниченному числу пользователей, первые тесты уже позволяют понять: прорыв есть — но до идеала ещё далеко.

В базовых сценариях DeepSeek показывает уверенные результаты.

Подробное описание изображений. Модель способна точно передавать детали сцены, включая освещение, композицию и даже стиль съёмки. В некоторых случаях она распознаёт персонажей и контекст настолько точно, что по её описанию можно воссоздать изображение.

Анализ объектов и контекста. При включении «режима размышления» модель не просто описывает, а пытается интерпретировать увиденное: разбивает объект на части, определяет его происхождение и культурный контекст. Например, она смогла связать музейный экспонат с эстетикой Могольской империи.

Распознавание сложных сцен. Даже на перегруженных изображениях (например, с выставок) модель способна извлекать текст, понимать происходящее и правильно определять тип события.

В целом, для повседневных задач — «что это на фото?», «где это снято?», «что здесь происходит?» — уровень уже вполне рабочий.

Основная проблема — ограниченность базы знаний.

новые игры, продукты или тренды могут не распознаваться

модель делает выводы по косвенным признакам, иногда ошибаясь

Например, она может понять, что на изображении есть Pokémon, но не узнать конкретную новую игру. Или правильно определить тип устройства, но перепутать модель.

Самые большие трудности начинаются там, где требуется не просто «видеть», а считать и логически анализировать изображение.

ошибки в подсчёте объектов (например, количество фигур)

неспособность распознавать скрытые элементы

провалы на визуальных головоломках и тестах

Даже относительно простые задачи вроде «сколько объектов на картинке» могут приводить к внутренним противоречиям и неверным ответам.

Сложные графические логические задачи (аналог тестов на IQ) тоже даются тяжело: модель может долго «размышлять», но часто ошибается.

По итогам тестов становится понятно: текущая версия — это скорее надстройка над текстовой моделью, а не полноценная мультимодальная система.

визуальный модуль работает хорошо на уровне восприятия

но слаб в знаниях и сложной логике

интеграция с основным «мышлением» модели пока ограничена

Тем не менее, главное уже произошло: технология «зрения» у DeepSeek фактически заработала.

Появление мультимодальности — критический шаг для всей индустрии:

меняется способ взаимодействия с ИИ («увидел — спросил»)

открываются новые сценарии: шопинг, путешествия, обучение

усиливается конкуренция между китайскими моделями (Doubao, Qwen и др.)

DeepSeek закрывает последний крупный пробел в своей экосистеме — и тем самым усиливает позиции на рынке.

DeepSeek действительно «прозрел» — но пока видит не всё.

базовое визуальное понимание — на хорошем уровне

сложная логика и свежие знания — слабое место

полноценная мультимодальность — ещё впереди

Тем не менее, это уже достаточный сигнал: следующая фаза конкуренции ИИ будет не только про текст и код, но и про способность понимать мир так, как это делает человек — через зрение.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!