HTML

Magunkról

The blog of the Budapest based Digital Natives covers the topics such as technological challenges we meet in our work, also our solutions and developments related mostly to Ruby on Rails and e. g. JavaScript. You can read about project management methodologies, which drive our workflow, such as agile or scrum. We don’t forget to report about our work and free-time related events and activities.

Facebook

Címkék

2011 (1) 2012 (4) 2013 (5) 2014 (2) agency (1) agile (1) agilis (13) android (1) angel (2) anita (2) API (1) árazás (2) artisjus (1) balaton (1) bécs (1) becs (1) becslés (1) befektető (7) befekteto (1) bemutatkozás (1) berlin (1) beszédfelismerés (2) beszédtechnológia (1) bitbucket (1) blog (1) borkóstoló (1) budapest.rb (1) célok (1) client (4) cloud (1) code hulk (1) coding (1) coin (1) concept (2) conference (1) continuous integration (1) cross browser (1) cross platform (2) csapat (4) csapatépítés (1) csocsó (1) David (1) ddb (1) deployment (3) design (2) dev (5) dev meeting (2) digital (1) diktálás (1) dojo (1) ebook (1) education (1) elemzés (3) elmélet (1) English (1) english (9) értékelés (1) értékesítés (3) extreme programming (1) fejlesztő (3) feliratozás (1) Friday (1) frontend (2) game (3) game of thrones (1) gerzson (2) hackfwd (2) heroku (1) hirdetés (1) hosting (1) icatapult (2) idcee (4) idea (1) implementation (2) inkubáció (9) ios (1) javascript (1) jenkins (1) jogdíj (1) jruby (1) kaizen (1) kalandpark (1) kanban (3) képzés (2) kijev (1) kipuedu (1) kirándulás (1) kocákzati tőkealap (1) kommunikáció (1) lean (2) LinkedIn (1) Logidok (1) mahasz (1) marketing (1) meetup (9) mindroom (2) Mitnick (1) mixgar (14) mobil (4) moving (1) mvp (2) MVP (1) nabaztag (1) natives (1) olasz (1) open source (1) people search (1) piknik (1) planning (1) playertise (3) prága (1) presentation (1) product owner (1) product roadmap (1) project (1) prototípus (1) prototype (1) rabbit (1) rails (15) ruby (14) rupy (1) scrum (9) search API (1) series (2) sharewood (1) siker (2) social (1) sorozat (1) spaceship (1) speedinvest (1) startup (6) startup week (1) String (1) szerződés (1) szolgáltatás (2) taxi (3) taxitrust (3) taxtrust (1) techshow (2) testing (2) teszt (1) titanium (1) toborzás (2) tőke (2) toptal (1) trónok harca (1) tumblr (1) ügyfél (1) UI (1) UML (1) UX (2) üzletiangyal (1) vagrant (1) varga anita (1) verseny (2) videó (1) videóarchívum (1) vienna (1) világhírnév (8) virtualbox (1) vm (1) vodka (1) web (8) wired (2) workflow (2) xp (3) XP (1) Címkefelhő

2007-ben kezdtünk először mélyebben foglalkozni a beszédfelismerési területen elért kutatási eredmények webes alkalmazásokba ültetésével. Azóta létrehoztuk a mindroom.hu híradókereső oldalt, ahol az elmúlt 1,5 év híradóanyagaiban lehet keresni az elhangzott szavak alapján (több mint 4000 órányi videó és hanganyag, ami naponta 7 csatorna 12 órányi anyagával bővül). De most nem a mindroom funkcionalitásáról, vagy a beszédfelismerés rejtelmeiről, hanem sokkal inkább arról elmélkednék, hogy mire is jó ez az egész? milyen szolgáltatásokat kelthet életre a beszédfelismerési technológia felhasználása.

Mielőtt részletesen belemennék, az első és legfontosabb, hogy a gépi beszédfelismerés soha nem lesz 100%-os, ezen nincs mit vitázni, fogadjuk el, mint tény. De így mire lesz jó?
Attól, hogy nem tökéletes (mint, ahogy mi sem, a szomszédunk sem és még számos webes szolgáltatás), szerintem még sok mindenre használhatjuk. Pl.: ha keresni szeretnénk nagyméretű videóarchívumokban, már a 70-80%-os karakterpontosságú felismerés is jobb, mint a semmi; de diktálási célokra 90% alatt ne használjuk, mert az 8 napon túl gyógyuló emlékeket hagyhat bennünk.
 
Jelenleg nincs olyan beszédfelismerő rendszer, ami univerzálisan mindenre használható, de az adott feladathoz igazítva már biztatóak az eredmények magyar nyelven is. Minél jobban ismerjük a felismerendő hanganyag akusztikai és tartalmi környezetét, annál magasabb pontosság érhető el az adott helyzetre történő tanítással, adaptálással. Pl.: néhány száz parancsszó felismerése már 99%-os pontossággal lehetséges (pl.: mobilon hanghívás funkció), a személyre tanított diktáló rendszerek is 90% fölött teljesítenek és a nagyszótáras általánosabb rendszerek sem elégszenek meg a 70%-nál gyengébb eredménnyel.
 
Nézzünk néhány követendő szolgáltatási példát a nagyok konyhájából.
Vegyük először a Google-t, ahol találkozhatunk olyan mobil app-al, ami képes hang alapú keresésre (voice search) figyelembe véve akár az éppen aktuális tartózkodási helyünket is; de a google voice keretében megtaláljuk a voicemail transcription szolgáltatást is, ami automatikusan leiratot készít hangüzeneteinkből; a youtube-on pedig kérhetünk már angol nyelvű gépi feliratot (hwsw cikk), amit google translate-tel le is fordíthatunk más nyelvekre.
 
A másik nagyágyú a Nuance, aki már szinte mindenkit felvásárolt a piacon, aki valamit ezen a területen alkotott (övé lett a philips speechmagic-je, a spinvox és már a hang-biometriával foglalkozó persay is). Zászlós hajója a Dragon diktáló termékcsalád, ami a világnyelveken nagy pontossággal képes valós időben leiratot készíteni PC-n vagy iPhone-on.
 
Hasznos kis handsfree assistant szolgáltatást indított a Dial2do is, ami beszédfelismerő és szintetizáló technológiákat felhasználva teszi könnyebbé a kommunikációt amikor kocsiban utazunk (pl.: e-mailt tudunk küldeni vagy meghallgatni, de csiripelhetünk vagy blogolhatunk is vezetés közben.)
 
A webes szolgáltatásokon és mobil app-okon túl is van élet a technológia számára, hiszen ha nem is tökéletesek még, de már most is vannak intelligens Call-Centerek (ahol nem kell az összes menüpontot meghallgatnunk, hanem egyből a kívánt tartalomhoz vagy ügyintézőhöz juthatunk), az autónkban ülve hanggal vezérelhetjük a navigációs kütyünket, és az USA-ban a sportesemények élő közvetítésének valós idejű feliratozása sem a fantasy témakörébe tartozik már, de az automatikus tolmácsgépre még várni kell néhány évet.
 
És végezetül egy biztató hír: a hazai kutatások eredményeit testközelből látva, nem tűnik reménytelennek, hogy a fenti nemzetközi példákhoz hasonló, de magyar nyelven értő egy-két szolgáltatás béta verziója még az idén megjelenjen a hazai közösség számára is.

Címkék: diktálás feliratozás mindroom beszédfelismerés videóarchívum

Szólj hozzá!

A bejegyzés trackback címe:

https://digitalnatives.blog.hu/api/trackback/id/tr292574350

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.