Mire is jó a beszédfelismerés?

10.
január

Mire is jó a beszédfelismerés?

2007-ben kezdtünk először mélyebben foglalkozni a beszédfelismerési területen elért kutatási eredmények webes alkalmazásokba ültetésével. Azóta létrehoztuk a mindroom.hu híradókereső oldalt, ahol az elmúlt 1,5 év híradóanyagaiban lehet keresni az elhangzott szavak alapján (több mint 4000 órányi videó és hanganyag, ami naponta 7 csatorna 12 órányi anyagával bővül). De most nem a mindroom funkcionalitásáról, vagy a beszédfelismerés rejtelmeiről, hanem sokkal inkább arról elmélkednék, hogy mire is jó ez az egész? milyen szolgáltatásokat kelthet életre a beszédfelismerési technológia felhasználása.

Mielőtt részletesen belemennék, az első és legfontosabb, hogy a gépi beszédfelismerés soha nem lesz 100%-os, ezen nincs mit vitázni, fogadjuk el, mint tény. De így mire lesz jó?

Attól, hogy nem tökéletes (mint, ahogy mi sem, a szomszédunk sem és még számos webes szolgáltatás), szerintem még sok mindenre használhatjuk. Pl.: ha keresni szeretnénk nagyméretű videóarchívumokban, már a 70-80%-os karakterpontosságú felismerés is jobb, mint a semmi; de diktálási célokra 90% alatt ne használjuk, mert az 8 napon túl gyógyuló emlékeket hagyhat bennünk.

Jelenleg nincs olyan beszédfelismerő rendszer, ami univerzálisan mindenre használható, de az adott feladathoz igazítva már biztatóak az eredmények magyar nyelven is. Minél jobban ismerjük a felismerendő hanganyag akusztikai és tartalmi környezetét, annál magasabb pontosság érhető el az adott helyzetre történő tanítással, adaptálással. Pl.: néhány száz parancsszó felismerése már 99%-os pontossággal lehetséges (pl.: mobilon hanghívás funkció), a személyre tanított diktáló rendszerek is 90% fölött teljesítenek és a nagyszótáras általánosabb rendszerek sem elégszenek meg a 70%-nál gyengébb eredménnyel.

Nézzünk néhány követendő szolgáltatási példát a nagyok konyhájából.

Vegyük először a Google-t, ahol találkozhatunk olyan mobil app-al, ami képes hang alapú keresésre (voice search) figyelembe véve akár az éppen aktuális tartózkodási helyünket is; de a google voice keretében megtaláljuk a voicemail transcription szolgáltatást is, ami automatikusan leiratot készít hangüzeneteinkből; a youtube-on pedig kérhetünk már angol nyelvű gépi feliratot (hwsw cikk), amit google translate-tel le is fordíthatunk más nyelvekre.

A másik nagyágyú a Nuance, aki már szinte mindenkit felvásárolt a piacon, aki valamit ezen a területen alkotott (övé lett a philips speechmagic-je, a spinvox és már a hang-biometriával foglalkozó persay is). Zászlós hajója a Dragon diktáló termékcsalád, ami a világnyelveken nagy pontossággal képes valós időben leiratot készíteni PC-n vagy iPhone-on.

Hasznos kis handsfree assistant szolgáltatást indított a Dial2do is, ami beszédfelismerő és szintetizáló technológiákat felhasználva teszi könnyebbé a kommunikációt amikor kocsiban utazunk (pl.: e-mailt tudunk küldeni vagy meghallgatni, de csiripelhetünk vagy blogolhatunk is vezetés közben.)

A webes szolgáltatásokon és mobil app-okon túl is van élet a technológia számára, hiszen ha nem is tökéletesek még, de már most is vannak intelligens Call-Centerek (ahol nem kell az összes menüpontot meghallgatnunk, hanem egyből a kívánt tartalomhoz vagy ügyintézőhöz juthatunk), az autónkban ülve hanggal vezérelhetjük a navigációs kütyünket, és az USA-ban a sportesemények élő közvetítésének valós idejű feliratozása sem a fantasy témakörébe tartozik már, de az automatikus tolmácsgépre még várni kell néhány évet.

És végezetül egy biztató hír: a hazai kutatások eredményeit testközelből látva, nem tűnik reménytelennek, hogy a fenti nemzetközi példákhoz hasonló, de magyar nyelven értő egy-két szolgáltatás béta verziója még az idén megjelenjen a hazai közösség számára is.

Facebook Tumblr Tweet Pinterest Tetszik

Címkék: diktálás feliratozás mindroom beszédfelismerés videóarchívum

Szólj hozzá!

A bejegyzés trackback címe:

https://digitalnatives.blog.hu/api/trackback/id/tr902574350

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Magunkról

Facebook

Linkek

Címkék

Keresés

Feedek

Blogajánló

Egyéb

10.
január

Mire is jó a beszédfelismerés?