Saját beszédhangunkkal tolmácsol a Microsoft találmánya

Bátky Zoltán2012.11.12.

Ha mostanában a számítógépet használjuk fordíóeszközként, a lehetőségeink még cseppet sem tökéletesek. A Microsoft egyik új fejlesztése azonban valós idejű, hang-alapú megoldást kínál, amely szintén nem tökéletes, de nagy lépés előre.

A hírforrások leginkább Douglas Adams híres regénye, a "Galaxis útikalauz stopposoknak" egyik kitalált megoldásához, a Bábel-halhoz hasonlítják az újdonságot. A regényben szereplő idegen lény a felhasználók hallójárataiban él, agyhullámokkal táplálkozik, eközben pedig automatikusan az illető nyelvére fordít minden kívülről érkező hangforrást. Persze a Microsoft fejlesztése még nem ennyire pontos, és természetesen halat sem kell a fülünkbe gyömöszölnünk - az útiszótárak böngészésénél és az ööö-zésnél viszont mindenképpen gyorsabb, hatékonyabb, és a végső változatban kényelmesebb is lehet a használata.

Így működik a regényben elképzelt Bábel-hal - a valóság ennél kézenfekvőbb lehet

Bocs, de ez nekem kínai ■ Manapság számítógép és internet használatával is két típusú fordítást vehetünk igénybe. Ezek közül az egyik a hagyományos szótárazási módszeren alapul, tehát szavanként keresgélünk: ilyenkor a rendszer a leggyakoribb jelentéseket adja ki, esetenként ragozott alakokkal bővítve. A másik megoldást leginkább a keresőcégek szolgáltatásaiban láthatjuk: a Google vagy a Bing fordítója igyekszik kontextus alapján igyekszik folyó szöveggé alakítani az idegen nyelvű mondatokat, de ez még sokszor bicegősen, értelmetlen eredményekkel sikerül. Példaképp ezt a bekezdést Google Fordítóba másolva angolra fordítottuk, majd vissza magyarra - az eredmény ez lett:

"Napjainkban a számítógép és az Internet használatát kétféle fordítási böngésző. Az egyik a hagyományos árképzési módszer alapján a szót, így keresni Szó: ebben az esetben a rendszer jelenti a leggyakoribb kérdés, néha ragozott formákat bővített. A másik az, hogy a szolgáltatást a legtöbb vállalat szeretnének látni, hogy a Google vagy Bing háttere fordító megpróbálja, hogy megpróbáljuk átalakítani a jelenlegi szöveg mondatok egy idegen nyelvet, de gyakran bicegősen értelmetlen eredmények nem. Például, ez a bekezdés bekerül Google fordító lefordították angolra, majd vissza a magyar - ez volt az eredmény."

Emellett mindkét megoldás nagy hátránya az automatizmus hiánya: a fordítási folyamathoz nekünk kell begépelni a szavakat, bemásolni a szöveget vagy megadni az idegen nyelvű honlapok hivatkozását. Rick Rashid, a Microsoft kutatási igazgatója viszont nemrég egy olyan új technológiáról értekezett, amely beszélt szöveget fordít le, és szintén beszéd formájában adja tovább a felhasználónak, már-már a Bábel-halat idézve.

Természetesen a Deep Neural Networks néven futó projekt hibaszázaléka még mindig nagy, tehát egy folyamatos beszédet valószínűleg a fenti idézethez hasonlóan értelmez. Rashid szerint azonban már a kontextus szerinti értelmezést segítő algoritmusok is jóval finomabbak a jelenleg elérhetőknél: ezek a köznyelv 75-80 százalékát tudják valamilyen szinten értelmezni, míg az új technológia akár 88 százalékos sikert is elérhet.

Én és a visszhangom ■ A projekt valódi ereje azonban a használatakor mutatkozik meg. A rendszer beállításakor a felhasználónak körülbelül egy órát kell különféle szövegeket beolvasnia a hangfelismerő rendszerbe, amely egyrészt eltárolja tónusait, beszédstílusás, sebességét a jobb megértéshez. Másrészt ilyenkor áll össze az a hangkép, amely a felhasználó hangját szimuláló beszédszintetizátort segíti a fordítás során.

Ezt követően már élesben használható a rendszer. Az élő beszédben felismeri a szakaszok (leggyakrabban mondatok) közötti szüneteket, majd rövid "gondolkodás" közben értelmezi a szavakat és az összefüggéseket, lefordítja a kívánt nyelvre, majd végül annak szórendjére alakítva próbálja a legjobban érthetővé és valószerűvé változtatni a szöveget. Ebből ma annyi hallható, hogy az élő szöveg elmondása után körülbelül egy másodperccel a felhasználóhoz nagyon hasonló tónusú géphang megismétli a mondatot a kívánt nyelven. Az alábbi videón Rick Rashid mutatja be a rendszert Tiencsinben, Kínában - érdemes 7:30 környékére navigálni, ahol a rendszer élesben fordítja az előadó szövegét mandarinra.

Természetesen a Deep Neural Networks még tesztelési és finomítási fázisban van, nincs például hozzá végleges, könnyen használható hardver, amelyet zsebünkben hordozva bárhol használhatnánk. A szakember szerint azonban már néhány éven belül olyan formában is elérhető lesz a megoldás, amelyet nem csak gondosan előkészített demók keretében lehet kipróbálni, hanem bármikor, bárhol a világon.

Az IBM leváltaná a szilíciumot a chipekben
Vitapartnerré avanzsálhatnak a robotok
A stylus újraértelmezésén dolgozik a Microsoft

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Ha lassan is, de Európában is beindulnak a robotaxik

Az Uber a héten jelentette be, hogy megnyitja az előjelentkezéseket az első londoni autonóm fuvarokra. Ezzel duplázódhat az európai robotaxis szolgáltatások száma, hiszen a szomszédunkban pár hete már futnak a Verne autói.

Hirdetés

Szintet lép a Synology: Érkezik a PAS7700 csúcskategóriás vállalati flash tároló

Ahogy a vállalati IT-környezetek az AI-alapú folyamatok, a virtualizáció, a nagy teljesítményű adatbázisok és a folyamatosan elérhető digitális szolgáltatások nyomása alatt fejlődnek, a szervezetek egyre inkább olyan tárolóinfrastruktúrát igényelnek, amely kompromisszumok nélküli teljesítményt, rugalmasságot és skálázhatóságot biztosít.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ha lassan is, de Európában is beindulnak a robotaxik

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!