Top.Mail.Ru
Новости

В России представили первую мультимодальную модель ИИ OmniFusion 1.1

Новости
Наталья Гормалева
Наталья Гормалева

Новостной редактор RB.RU

Наталья Гормалева

В России представили первую мультимодальную модель ИИ, Институт искусственного интеллекта AIRI разработал OmniFusion 1.1 и открыл исходный код к ней. Языковую модель, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, можно использовать в том числе в коммерческих целях. Об этом рассказали в пресс-службе AIRI.

В России представили первую мультимодальную модель ИИ OmniFusion 1.1

OmniFusion представляет собой мультимодальную модель искусственного интеллекта. Она предназначена для расширения возможностей привычных систем обработки языка за счет изображений, а в будущем –– аудио, 3D- и видеоматериалов.  

Специфика мультимодальной OmniFusion 1.1

В основе архитектуры модели — метод совмещения заранее обученной большой LLM и специальных визуальных энкодеров, которые кодируют информацию на изображении в числовой вектор. Он называется эмбеддинг.

Иностранными аналогами OmniFusion являются такие продукты, как LLaVA, Gemini, GPT4-Vision и китайские Qwen, DeepSeek и LVIS.

Возможности OmniFusion 1.1

Модель распознает и описывает изображение. Так, пользователь может, например, загрузить фото, а система выдаст рецепт изображенного на нем блюда. Также можно проанализировать карту помещений или узнать, как собрать устройство по фото его отдельных комплектующих.

Также стандартно модель распознает текст. При этом она умеет решать логические задачи. С помощью модели можно решить математический пример, написанный на доске, или распознать формулу и получить их представления в формате LaTeX.

Как обучали OmniFusion 1.1

Качество модели оценивали в разных вариантах ее архитектуры при помощи восьми бенчмарков (специализированные тексты для анализа эффективности AI-моделей в ответах на визуальные вопросы).

Тесты показали, что OmniFusion показывает результаты в основных бенчмарках, не уступающие зарубежным конкурентам.

Открытый исходный код модели опубликован на платформе Github.

Фото на обложке: Natali _ Mis / Shutterstock

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Кто публикует самые важные научные исследования в AI?
  2. 2 Реально смотреть на продукт и его потенциал — как в этом поможет STS
  3. 3 Российские школьники победили на международной олимпиаде по химии в Казахстане
  4. 4 Подружить физиков и биологов: как синхронизировать научную команду за 5 шагов
  5. 5 «Почему у нас получился диптех-стартап, а у вас не получится» — опыт компании, которая привлекла 500 млн рублей
FutureFood
Кто производит «альтернативную» еду
Карта