Noise Robust Speech Recognition for Search and Rescue Domain

Masters Thesis Demo (April 2023)

Here we demonstrate the enhanced utterances using our SepFormer enhancement model and transcripts were generated using fine-tuned Whisper ASR. All noisy utterances are at -5 dB SNR level.

Emergency-vehicle-and-Siren noise

Clean Audio

Waveform of clean audio
Actual Transcript
WENN DER AUFTRAG NICHT DURCHFÜHRBAR IST ABBRECHEN WIR HABEN JETZT EIN TRUPP AUF DEM WEG ZUR VERUNFALLTEN PERSON

Noisy Audio

Waveform of noisy audio
Waveform of noisy audio

Enhanced Audio

Waveform of enhanced audio
Predicted Transcript
WENN DER AUFTRAG DURCHFÜHRER IST ABRECHT WIR HABEN JETZT ÄH EIN TREPP AUF DEM WEG ZU VOR UNSERHALTEN PERSON
Log power spectrogram

Engine noise

Clean Audio

Waveform of clean audio
Actual Transcript
DIE DROHNE MELDET ZWEI PERSONEN IM OBEREN CONTAINER DES BÜROKOMPLEXES KOMMEN

Noisy Audio

Waveform of noisy audio
Waveform of noisy audio

Enhanced Audio

Waveform of enhanced audio
Predicted Transcript
DIE DROHNE MELDET ZWEI PERSONEN IM OBEREN CONTAINER DES BÜROTKOMPLEX KOMMEN
Log power spectrogram

Chopper noise

Clean Audio

Waveform of clean audio
Actual Transcript
FÜR SIE WENN SIE AUF DEN MONITOR GUCKEN LINKS ZU IHRER SEITE

Noisy Audio

Waveform of noisy audio
Waveform of noisy audio

Enhanced Audio

Waveform of enhanced audio
Predicted Transcript
FÜR SIE WENN SIE AUF DEM MONITOR GUCKEN LINKS ZU IHRER SEITEREN
Log power spectrogram

Static-radio noise

Clean Audio

Waveform of clean audio
Actual Transcript
ZEHN E L W ZWO EINS VON FLORIAN NULL G W D U K EINS KOMMEN

Noisy Audio

Waveform of noisy audio
Waveform of noisy audio

Enhanced Audio

Waveform of enhanced audio
Predicted Transcript
ZEHN E L W ZWO EINS VON FLORIAN DORTMUND NULL G W D U K EINS KOMMEN
Log power spectrogram

Breathing noise

Clean Audio

Waveform of clean audio
Actual Transcript
FÜR EI SIE EINSATZAUFTRAG ERKUNDUNG DER HALLE INNEN MIT BODENROBOTISCHEN SYSTEMEN

Noisy Audio

Waveform of noisy audio
Waveform of noisy audio

Enhanced Audio

Waveform of enhanced audio
Predicted Transcript
JA FÜR SIE EINSATZAUFTRAG ERKUNDUNG DER HALLE IN MIT BODENROBOTISCHEN SYSTEMEN
Log power spectrogram

Acknowledgement

Special thanks to my supervisors and advisors for their guidance and support throughout the project. This work was supported under the project A-DRZ: Setting up the German Rescue Robotics Center and funded by the German Ministry of Education and Research (BMBF), grant No. I3N14856.