Анастасия Марьина
SberDevices представила GigaAM — это семейство open-source моделей машинного обучения для распознавания речи и эмоций, говорится в сообщении SberDevices.
Акустические модели можно использовать для подготовки дипломных работ и научных статей. Разработкой занимались команды сервисов GigaChat и SaluteSpeech в SberDevices.
- GigaAM — Audio Foundation Model, предобучена на разнообразной русской речи. Можно использовать для адаптации под разные задачи работы со звуком, в том числе для распознавания речи и эмоций, определения диктора и другие.
- GigaAM-CTC — открытая модель для распознавания запросов на русском языке. Оценка качества на 7 срезах данных (от запросов в «умные» колонки до записей из телефонного канала) показала, что модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3.
- GigaAM-Emo — акустическая модель, созданная для определения эмоций. По данным SberDevices, продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей.
Все модели размещены в открытом доступе с некоммерческой лицензией.
Фото на обложке: Unsplash
Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- 1 Типичные ошибки при запуске голосового робота и как их избежать
- 2 «Не притворяйся человеком». Что ждет рынок VoiceTech в будущем?
- 3 AI для HR: профиль кандидата, который повысит скорость найма в два раза
- 4 Эволюция ML-сервисов в микрофинансовых организациях и советы по внедрению
- 5 Машины не восстанут, но вылететь с работы можно: разбираемся, зачем осваивать нейросети
ВОЗМОЖНОСТИ
05 мая 2024
10 мая 2024
Популярное
Лонгриды
Топ лучших смартфонов 2024 года
Списки и рейтинги