2007-ben kezdtünk először mélyebben foglalkozni a beszédfelismerési területen elért kutatási eredmények webes alkalmazásokba ültetésével. Azóta létrehoztuk a mindroom.hu híradókereső oldalt, ahol az elmúlt 1,5 év híradóanyagaiban lehet keresni az elhangzott szavak alapján (több mint 4000 órányi videó és hanganyag, ami naponta 7 csatorna 12 órányi anyagával bővül). De most nem a mindroom funkcionalitásáról, vagy a beszédfelismerés rejtelmeiről, hanem sokkal inkább arról elmélkednék, hogy mire is jó ez az egész? milyen szolgáltatásokat kelthet életre a beszédfelismerési technológia felhasználása.
Mielőtt részletesen belemennék, az első és legfontosabb, hogy a gépi beszédfelismerés soha nem lesz 100%-os, ezen nincs mit vitázni, fogadjuk el, mint tény. De így mire lesz jó?
Attól, hogy nem tökéletes (mint, ahogy mi sem, a szomszédunk sem és még számos webes szolgáltatás), szerintem még sok mindenre használhatjuk. Pl.: ha keresni szeretnénk nagyméretű videóarchívumokban, már a 70-80%-os karakterpontosságú felismerés is jobb, mint a semmi; de diktálási célokra 90% alatt ne használjuk, mert az 8 napon túl gyógyuló emlékeket hagyhat bennünk.
Jelenleg nincs olyan beszédfelismerő rendszer, ami univerzálisan mindenre használható, de az adott feladathoz igazítva már biztatóak az eredmények magyar nyelven is. Minél jobban ismerjük a felismerendő hanganyag akusztikai és tartalmi környezetét, annál magasabb pontosság érhető el az adott helyzetre történő tanítással, adaptálással. Pl.: néhány száz parancsszó felismerése már 99%-os pontossággal lehetséges (pl.: mobilon hanghívás funkció), a személyre tanított diktáló rendszerek is 90% fölött teljesítenek és a nagyszótáras általánosabb rendszerek sem elégszenek meg a 70%-nál gyengébb eredménnyel.
Nézzünk néhány követendő szolgáltatási példát a nagyok konyhájából.
Vegyük először a
Google-t, ahol találkozhatunk olyan mobil app-al, ami képes hang alapú keresésre (
voice search) figyelembe véve akár az éppen aktuális tartózkodási helyünket is; de a google voice keretében megtaláljuk a
voicemail transcription szolgáltatást is, ami automatikusan leiratot készít hangüzeneteinkből; a youtube-on pedig kérhetünk már angol nyelvű gépi feliratot
(hwsw cikk), amit google translate-tel le is fordíthatunk más nyelvekre.
A másik nagyágyú a
Nuance, aki már szinte mindenkit felvásárolt a piacon, aki valamit ezen a területen alkotott (övé lett a philips speechmagic-je, a spinvox és már a hang-biometriával foglalkozó persay is). Zászlós hajója a
Dragon diktáló termékcsalád, ami a világnyelveken nagy pontossággal képes valós időben leiratot készíteni PC-n vagy iPhone-on.
Hasznos kis handsfree assistant szolgáltatást indított a
Dial2do is, ami beszédfelismerő és szintetizáló technológiákat felhasználva teszi könnyebbé a kommunikációt amikor kocsiban utazunk (pl.: e-mailt tudunk küldeni vagy meghallgatni, de csiripelhetünk vagy blogolhatunk is vezetés közben.)
A webes szolgáltatásokon és mobil app-okon túl is van élet a technológia számára, hiszen ha nem is tökéletesek még, de már most is vannak intelligens Call-Centerek (ahol nem kell az összes menüpontot meghallgatnunk, hanem egyből a kívánt tartalomhoz vagy ügyintézőhöz juthatunk), az autónkban ülve hanggal vezérelhetjük a navigációs kütyünket, és az USA-ban a sportesemények élő közvetítésének valós idejű feliratozása sem a fantasy témakörébe tartozik már, de az automatikus
tolmácsgépre még várni kell néhány évet.
És végezetül egy biztató hír: a hazai kutatások eredményeit testközelből látva, nem tűnik reménytelennek, hogy a fenti nemzetközi példákhoz hasonló, de magyar nyelven értő egy-két szolgáltatás béta verziója még az idén megjelenjen a hazai közösség számára is.