Technologie rozpoznávání řeči

Rozpoznávání řeči, schopnost zařízení reagovat na mluvené příkazy. Rozpoznávání řeči umožňuje hands-free ovládání různých zařízení a vybavení (zejména výhoda pro mnoho zdravotně postižených osob), poskytuje vstup do automatického překladu a vytváří diktát připravený k tisku. Mezi první aplikace pro rozpoznávání řeči patřily automatizované telefonní systémy a software lékařského diktátu. Používá se často pro diktování, pro dotazování databází a pro vydávání příkazů počítačovým systémům, zejména v profesích, které se spoléhají na specializované slovníky. Umožňuje také osobní asistenty ve vozidlech a chytrých telefonech, jako je Apple Siri.

Předtím, než jakýkoli stroj dokáže interpretovat řeč, musí mikrofon převést vibrace hlasu osoby na elektrický vlnový signál. Tento signál je následně přeměněn hardwarem systému - například zvukovou kartou počítače - na digitální signál. Je to digitální signál, který program rozpoznávání řeči analyzuje, aby rozpoznal samostatné fonémy, základní stavební bloky řeči. Fonémy jsou pak rekombinovány do slov. Mnoho slov však zní stejně a aby bylo možné vybrat vhodné slovo, musí se program spoléhat na kontext. Mnoho programů vytváří kontext pomocí trigramové analýzy, což je metoda založená na databázi častých tříslovných shluků, v nichž jsou přiřazeny pravděpodobnosti, že za některými dvěma slovy bude následovat dané třetí slovo. Pokud například řečník řekne „kdo jsem“, bude další slovo rozpoznáno spíše jako zájmeno „I“ než podobné znějící, ale méně pravděpodobné „oko“. Lidský zásah je však někdy nutný k opravě chyb.

Programy pro rozpoznávání několika izolovaných slov, jako jsou telefonní hlasové navigační systémy, fungují téměř pro každého uživatele. Na druhou stranu musí být programy nepřetržité řeči, jako jsou diktátové programy, školeny k rozpoznání řečových vzorců jedince; školení zahrnuje uživatele, který nahlas čte vzorky textu. S rostoucí silou osobních počítačů a mobilních zařízení se dnes přesnost rozpoznávání řeči výrazně zvýšila. Míra chyb byla ve slovnících obsahujících desítky tisíc slov snížena na přibližně 5 procent. Ještě větší přesnosti je dosaženo v omezených slovnících pro specializované aplikace, jako je diktování radiologických diagnóz.