1. Hanggyűjtemény :A hanghullámokat mikrofon vagy más rögzítőeszköz segítségével gyűjti össze. A mikrofon ezeket a hullámokat elektromos jelekké alakítja.
2. Jelfeldolgozás :Az elektromos jelek feldolgozása a zaj és az egyéb nemkívánatos alkatrészek eltávolítása érdekében történik. Különböző jelfeldolgozási technikák alkalmazhatók a hangjel minőségének javítására és a releváns jellemzők kinyerésére.
3. Funkciók kinyerése :Az előfeldolgozott hangjelet elemzi a hangérzékeléshez használható, értelmes funkciók kinyerése érdekében. Ezek a jellemzők magukban foglalhatják a hangmagasságot, a formánsokat, a szűrőbank energiáit és más akusztikus paramétereket.
4. Hangaktivitás-észlelés (VAD) :A VAD algoritmusok az audiojelben előforduló beszédtevékenység időszakainak azonosítására szolgálnak. Ez segít a beszédszegmensek és a nem beszédszegmensek, például a háttérzaj megkülönböztetésében.
5. Hangszóró azonosítása :A beszédszegmensek azonosítása után beszélőazonosító technikák alkalmazhatók a beszélő személyazonosságának meghatározására. Ez magában foglalja a kivont hangjellemzők összehasonlítását az ismert hangszórók adatbázisában tárolt jellemzőkkel.
6. Döntéshozatal :A kivont hangjellemzők és a tárolt sablonok hasonlósága alapján döntenek a beszélő személyazonosságáról. A rendszer olyan kimenetet biztosít, mint például egy név vagy azonosító szám, vagy egy valószínűségi pontszám, amely jelzi az azonosítás megbízhatósági szintjét.
A hangérzékelés folyamata a jelfeldolgozás, a jellemzők kivonása, az osztályozás és a döntéshozatali technikák kombinációját foglalja magában a hangok pontos felismerése és azonosítása érdekében.