Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, теперь поддерживает русский язык. Российская модель искусственного интеллекта (ИИ) OmniFusion восстановит рецепт блюда по фотографии и решит пример на доске. При участии разработчиков из подразделений Sber AI и SberDevices Сбербанка.
Научно-исследовательский институт ИИ (AIRI) представил открытую версию модели OmniFusion – OmniFusion 1.1. Технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace. На апрель 2024 г. открытый исходный код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов.
OmniFusion — это передовая мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента.
На середину апреля 2024 г. модель распознает и описывает изображения. С ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей. Модель также умеет распознавать текст и решать задачи.
Подробнее в источнике: CNews.
Изображение для превью новости предоставлено Freepik.