Группа «Т-Технологии» выложила в открытый доступ модель распознавания речи T-one. Решение работает в реальном времени, снижает затраты на инфраструктуру и позволяет даже небольшим компаниям внедрять продвинутые речевые технологии без дорогих лицензий.
Центр искусственного интеллекта группы «Т-Технологии» опубликовал в открытом доступе модель распознавания речи T-one. Несмотря на компактный размер — всего 70 млн параметров, — она превосходит другие открытые ASR-модели по точности распознавания русской речи в сложных условиях, таких как шумные и сжатые записи из колл-центров. Именно в этих сценариях ошибки распознавания часто приводят к финансовым потерям бизнеса.
T-one разработана для потоковой обработки аудио в реальном времени с минимальной задержкой, что делает ее идеальным решением для автоматизации колл-центров, голосовых ассистентов и аналитики звонков. Модель уже успешно применяется в продуктах «Т-Технологий», включая поддержку Т-Банка, мобильного секретаря Т-Мобайла и антиспам-систем.
Хотя в открытом доступе нет стандартных датасетов для тестирования телефонии на русском, внутренние тесты показывают, что T-one опережает более крупные модели, такие как GigaAM v2 (242–243 млн параметров) и Whisper Large-v3 (1,5 млрд параметров).
Благодаря небольшому размеру модель можно развернуть без дорогостоящего оборудования, что снижает затраты на инфраструктуру. Это позволяет даже небольшим компаниям использовать передовые технологии распознавания речи без зависимости от облачных сервисов или дорогих лицензий.
«Т-Технологии» выложили в открытый доступ не только саму модель, но и код для ее запуска в высоконагруженных системах, а также инструменты для адаптации под конкретные задачи. Разработчики могут свободно использовать, модифицировать и внедрять T-one в свои продукты благодаря лицензии Apache 2.0.
Источник: Компьютерра.
Изображение для превью новости предоставлено Freepik.