Success Story - rus

Снижения уровня шума в звуковой дорожке при фиксированных ограничениях

Мотивация запуска проекта заказчиком: cистемы активного шумоподавления, в том числе основанные на нейронных сетях, активно используются в различных сервисах для аудио и видео связи. Большинство таких систем хорошо справляется с задачей шумоподавления преимущественно в ситуациях высоким уровнем полезного сигнала и низким уровнем шума. Была поставлена цель построить  real-time систему, способную очищать аудиозапись от шума в заданных ограничениях. 

Описание исходной ситуации:
  • большинство существующих моделей speech enchancement хорошо работает на высоких SNR; 
  • имеется небольшое количество общепринятых датасетов для speech enchancement;
  • кроме общеизвестных метрик, таких как SDR и PESQ, важна также субъективная оценка качества звучания результирующей аудиозаписи;
  • для применимости результатов моделирования в реальном времени, важно минимизировать размер окна в будущем (lookahead), который используется для предсказания текущего значения.

Цели проекта:
  • Повышение качества моделей шумоподавления в случае крайне низкого значения SNR (отношение уровней сигнал/шум).

Решение MIL Team: улучшение существующих решений и создание собственных моделей, показывающих высокий прирост в терминах общепринятых метрик оценки качества аудиозаписей (PESQ, SDR) и ошибки распознавания речи (WER) для аудиозаписей с высоким уровнем шума по сравнению с речью (SNR от -10).

Для построения модели были использованы:
  • открытые датасеты аудиозаписей с речью Voicebank и Librispeech;
  • открытые датасеты аудиозаписей с шумами DEMAND, MUSAN.

Результаты моделирования: under NDA

Заказчик: under NDA

Технологический стек: Python (PyTorch, scipy, librosa)


Audio Research Division