Meg lehet változtatni Siri hangját? Mennyire változtatta meg Siri hangját a tanulás

Az iPhone és iPad felhasználók mostantól szöveges lekérdezéseket és parancsokat adhatnak meg a Siri számára. De van itt egy pont. Az iOS 11 béta verzióiban választania kell a szöveges és a hangos gépelés között. Ha a Siri Typing engedélyezve van, a Siri nem fogad el hangutasításokat. Sokkal kényelmesebb lenne, ha a Siri automatikusan válthatna ezek között az opciók között. Talán a gyártó ezt figyelembe veszi a jövőbeli verziókban.

A Siri szöveges parancsok használata:

A Siri szöveges parancsainak engedélyezéséhez iOS 11 rendszerben tegye a következőket:

1. lépés: Nyissa meg a Siri és keresés szakaszt, és aktiválja a Hallgassa meg a „Hey Siri” opciót.

2. lépés: Lépjen a Beállítások > Általános > Kisegítő lehetőségek > Siri menüpontra.

3. lépés Kapcsolja be a „Szövegbevitel Sirihez” opció melletti kapcsolót.

4. lépés: Nyomja meg és tartsa lenyomva a Kezdőlap gombot. Most a szokásos hangjelzés helyett a „Hogyan segíthetek” kérdés és egy szabványos billentyűzet jelenik meg a képernyőn.

5. lépés: Egyszerűen írja be a lekérdezést vagy parancsot, és kattintson a Befejezés gombra.

A Siri válasza szövegként jelenik meg. Ha a virtuális asszisztens nem érti a feladatot, rákattinthat a kérésre és szerkesztheti azt.

Külső billentyűzet

A Sirinek küldött hangkérések az iPad külső billentyűzetével is működnek. A Home gomb jelenléte (mint a Logitech K811-en) még kényelmesebbé teszi a beviteli folyamatot. Egy billentyű megnyomásával és a Siri parancsának megadásával a felhasználó sokkal gyorsabban hajthat végre egyszerű feladatokat, mint például üzenetküldés, zenelejátszás vagy jegyzet létrehozása.

Ez a funkció különösen fontos most, amikor az Apple az iPad Pro-t számítógépcsereként pozicionálja. Az iOS apránként professzionális szintű operációs rendszerré fejlődik, amely szorosan összekapcsolódik hardverrel, mindig csatlakozik az internethez, és mindig az ember zsebében van.

Siri minden Apple-szerető hűséges asszisztense. Ezzel a fantasztikus rendszerrel kereshet az időjárásban, hívhat barátokat, hallgathat zenét és így tovább. A funkció felgyorsítja a szükséges dolgok megtalálásának folyamatát. Tegyük fel, hogy megkéri Sirit, hogy mutassa meg a mai időjárást Szentpéterváron, és ő boldogan segít Önnek. Azt mondják, hamarosan képes lesz meghallgatni az embereket, mivel sokan gyakran panaszkodnak neki problémáik miatt, és csak lélektelenül ajánlja fel a legközelebbi pszichológiai szolgálat számát.

Tehát képzeljük el, hogy belefáradt a hangjába, és szeretne változtatni rajta. Sokan azt hiszik, hogy ez lehetetlen, de valójában itt a munka mindössze húsz másodpercet vesz igénybe.

Első lépés.

Menjünk a beállításokhoz. Ha valami, az ikon általában az asztal első oldalán vagy a „Segédprogramok” mappában található.

Második lépés

Miután megtaláltuk az alkalmazást, keressük a Siri oszlopot. Mint tudja, ez az elem a program harmadik részében található.

Harmadik lépés.

A Siri felirat mellett állítsa a gomb helyzetét bekapcsolt módba. Ha ez már megtörtént, hagyja ki ezt a lépést.

Negyedik lépés

Lépjen a „Hang” szakaszba, és válassza ki a legjobban tetsző lehetőséget. Itt megtanulhatja a különböző akcentusokat, valamint megváltoztathatja a beszélő nemét. Nem minden nyelvnek van akcentusa, de a legtöbben igen. Általában nem ez a fő dolog, mivel egy idő után maga az alkalmazás kezd alkalmazkodni Önhöz.

Szeretne személyi asszisztenst használni iPhone-ján? Például, hogy megtervezhesd a napodat, a hetet, sőt a hónapot is, és valaki kellemesen emlékeztesse a fontos dolgokra, ütemezze be az értekezleteket, irányítsa tevékenységeit, hívjon vagy küldjön levelet közvetlenül az okostelefonjáról. Egy ilyen intelligens programot az iPhone Siri hangfelületéhez Oroszországban fejlesztett ki a SiriPort projektcsoport.

A Siri hangasszisztens egyedi jellemzői megfelelnek a mesterséges intelligencia létrehozásának modern innovatív követelményeinek. Az alkalmazás rendkívül intelligens, és teljes mértékben képes végrehajtani a hangutasításokat az okostelefonon végrehajtott összes műveletből: hívja fel az előfizetőket a névjegyzékből, küldjön üzeneteket, keresse meg a szükséges információkat, hozzon létre könyvjelzőket és feladatszövegeket az okostelefon billentyűzetének használata nélkül, de csak a hang interfész. Ez a cikk megmondja, hogyan telepítheti a Siri-t iPhone 4 vagy iPhone 5 vagy 6 generációs készülékekre.

Az új licencelt személyi asszisztens alkalmazás egy hangfelismerő program, és minden Apple készüléken telepítve van. Hozzá kell tenni, hogy a hangasszisztens iOS 7 alapján működik az iPhone 4S eszközökön Siri, Siri on iPhone 5, iPhone 5S, iPhone 6, iPhone 6S, iPhone 7 generációs készülékeken. Emellett az asszisztens az iPad Mini, a Mini 2 és a Mini 3 szervizelésére is képes, jelen van az 5. generációs iPod Touch-on, az Apple Watch készülékeken, valamint működik a 3. generációs iPaden és újabb készülékeken is.

Az iOS 8.3 megjelenése után a Siri iPhone oroszul konfigurálható. Az iOS 10 az új generációs eszközökön a hangasszisztens még nagyobb képességeit veszi figyelembe. Ez sokkal könnyebbé teszi a személyes adatok megtalálását és megjegyezését, így – ahogy mondani szokás – időt és pénzt takarít meg.

Szeretné tudni, hogyan engedélyezheti a Siri-t iPhone-on?

Például, ha nem tudja, hogyan kapcsolja be a Siri-t iPhone 4-7 készüléken, vagy nem tudja, hogyan kapcsolja ki a Siri-t, akkor lépésről lépésre haladunk tovább. Fontolja meg a hangasszisztens használatát iPhone 4S vagy iPhone 6S készüléken a hangasszisztens használatával. Először is meg kell tudnia, hogy az alkalmazás telepítve van-e az iPhone 4 vagy iPhone 6S készülékre, és miért nem működik a Siri az iPhone-on. Ha kiderül, hogy az asszisztens program nem futtatható az iPhone-on, ne essen kétségbe, telepíthet más, egészen hasonló alternatív programokat, például a Nuance Company által kifejlesztett „Dragon Go!” programot, amely hozzáférhet majd az iPhone-ra telepített egyéb programok, például a Google, a Netflix, a Yelp és mások.

Ha a hangasszisztenst az eladáskor telepítették az iPhone-ra, akkor nagy valószínűséggel alapértelmezés szerint aktív állapotban lesz. Ennek ellenőrzéséhez tartsa lenyomva a Kezdőlap gombot iPhone-ján. A Siri hangjelzést ad, ha készen áll a használatra. Parancsot adhat hanggal is: például világosan, hangosan mondja ki: „Check your mail!”

Ha a Siri nincs szükség szerint aktiválva, az alábbiak szerint megteheti saját maga. Nyissa meg telefonja főképernyőjét, kattintson a „Beállítások” elemre, keresse meg a „Basic” mappát, és a használat ismeretében indítsa el a „Siri” alkalmazást. Azonban, ha egy okos programmal dolgozik, tucatnyi feladatot adhat egy asszisztensnek, hangosan kommunikálva. Próbáljon meg egy üdvözlést, például „Hé!” vagy „Hé Siri!”, vagy mondjuk: „Mi az időjárás, Siri?” Ezenkívül meghatározhatja asszisztense nemét, ha kiválasztja azt a beállítások részben.

A Siri hangjának vagy nyelvének megváltoztatása

Ha a hangsegéd olyan nyelven kommunikál Önnel, amelyet Ön nem ért, megváltoztathatja a nyelvét. Ehhez keresse meg a Siri-t az iPhone „beállítások” menüjében, válassza a „Siri nyelv” parancsot. Megnyílik Ön előtt a nyelvi lehetőségek listája, és görgetés után válassza ki a kívántat, amelynek segítségével az asszisztens a jövőben kommunikálni fog Önnel.

Ha egy egyéni asszisztens kommunikációs stílusát szeretné beprogramozni, ne csak a hangját, hanem a bevett megszólítási stílust is testreszabja, és különféle kifejezéseket, amelyeket örömmel hallhat, lépjen újra a „Beállítások” szakaszba. indítsa el a „Siri” programot, keresse meg az „Audiovisszacsatolás” parancssort, és ennek megfelelően aktiválja az Önnek megfelelő kommunikációs lehetőséget.

Mellesleg, ennek a szoftverterméknek a fejlesztői körültekintően bevezették a hangsegédbe a hangok, az intonáció, az akcentus és még a nyelvjárás felismerésének képességét is.

Siri mód az autóban

A Siri alkalmazás bekapcsolása nagyban megkönnyítheti a feladatokat, ha autóvezetés közben kiválasztja a kívánt irányt a térképen. Ehhez az autónak támogatnia kell a CarPlay szoftvert, vagy használnia kell a programban elérhető „nézés nélkül” funkciót. Az asszisztens szolgáltatásainak használatához fel kell hívnia őt a közvetlenül az autó kormánykerekén található hangutasítás gomb megnyomásával, és ki kell adnia Sirinek a megfelelő parancsot.

Ha autója rendelkezik CarPlay-kompatibilis érintőképernyővel, aktiválja a Siri-t a képernyőmenü Kezdőlap gombjával. Ha kimond egy parancsot, az asszisztens beszédszünetet vár, mielőtt elkezdené a végrehajtást. De ha az autó nagyon zajos, jobb, ha a képernyőn található gombbal válaszol, amely hanghullámot továbbít, majd Siri kitalálja, hogy befejezte, és elkezdi végrehajtani a kijelölt feladatot. Ha szükséges, az iPhone beállításaiba belépve elolvashatja a Siri letiltásának módját is.

Az asszisztenst Bluetooth headsettel, valamint USB-kábellel is csatlakoztathatja a forráshoz. Ebben az esetben hajtson végre minden műveletet ugyanabban a sorrendben.

A Siri egy hangos asszisztens, amelyet először 2011-ben mutattak be az iOS 5-tel együtt. Természetesen azóta komolyan fejlődött: megtanult beszélni különböző nyelveken (beleértve az oroszt is), eljutott a Mac számítógépekhez, megtanult kommunikálni a programokkal külső fejlesztők stb., de minőségi ugrást csak az iOS 10 bejelentésével hajtott végre – hangja most a mély tanuláson alapul, ami lehetővé teszi, hogy természetesebben és lágyabban szólaljon meg. Mi a mély tanulás és hogyan szintetizálódik Siri hangja - erről ebben a cikkben fogunk beszélni.

Bevezetés

A beszédszintézist – az emberi beszéd mesterséges reprodukálását – széles körben használják számos területen, a hangasszisztensektől a játékokig. A közelmúltban a beszédfelismeréssel kombinálva a beszédszintézis a virtuális személyi asszisztensek, például a Siri szerves részévé vált.

Az audioiparban két beszédszintézis technológiát használnak: az audioegység-választást és a parametrikus szintézist. Az egységkiválasztás szintézise biztosítja a legmagasabb minőséget elegendő számú jó minőségű beszédfelvétel mellett, így a kereskedelmi termékekben a legszélesebb körben alkalmazott beszédszintézis módszer. Másrészt a parametrikus szintézis nagyon tiszta és sima beszédet biztosít, de alacsonyabb az általános minősége. A modern hangegység-kiválasztó rendszerek egyesítik a két megközelítés előnyeit, ezért ezeket hibrid rendszereknek nevezik. A hibrid egységkiválasztási módszerek hasonlóak a klasszikus egységkiválasztási módszerekhez, de paraméteres megközelítést alkalmaznak annak előrejelzésére, hogy mely hangegységeket kell kiválasztani.

Az utóbbi időben a beszédtechnológiák területén egyre nagyobb lendületet kap a mélytanulás, amely lényegesen felülmúlja a hagyományos módszereket, mint például a Hidden Markov Models (HMM), melynek elve az ismeretlen paraméterek és a kapott paraméterek alapján történő megoldása. felhasználható a jövőbeni elemzésben, például mintafelismerésre. A mély tanulás lehetővé tette a beszédszintézis egy teljesen új megközelítését, az úgynevezett forward hullámforma modellezést. Kiváló minőségű egységkiválasztás szintézist és a parametrikus szintézis rugalmasságát egyaránt képes biztosítani. Rendkívül magas számítási költsége miatt azonban még nem lesz lehetséges a fogyasztói eszközökön megvalósítani.

Hogyan működik a beszédszintézis

Kiváló minőségű szövegfelolvasó (TTS) rendszer létrehozása egy személyi asszisztens számára nem könnyű feladat. Az első lépés egy olyan professzionális hang megtalálása, amely kellemesen, könnyen érthetően szól, és illeszkedik Siri személyiségéhez. Az emberi beszéd rendkívül sokféle változatának néhány változatának megragadásához 10-20 óra beszédre van szükség egy professzionális stúdióban. A felvételi szkriptek a hangoskönyvektől a navigációs utasításokig, és a tippektől a válaszokon át a szellemes viccekig terjednek. Ez a természetes beszéd általában nem használható hangasszisztensben, mert lehetetlen rögzíteni az összes lehetséges megszólalást, amelyet az asszisztens beszélhet. Így a hangegységek kiválasztása a TTS-ben azon alapul, hogy a rögzített beszédet elemi összetevőire, például fonémákra vágják, majd a bemeneti szövegnek megfelelően újrakombinálják, hogy teljesen új beszédet hozzanak létre. A gyakorlatban nem egyszerű feladat a megfelelő beszédszegmensek kiválasztása és egymással való kombinálása, hiszen az egyes fonémák akusztikai jellemzői a szomszédoktól és a beszéd intonációjától függenek, ami gyakran összeférhetetlenné teszi a beszédegységeket egymással. Az alábbi ábra azt mutatja be, hogyan lehet a beszédet szintetizálni egy fonémákra osztott beszédadatbázis segítségével:

Az ábra felső része a szintetizált „Unit Selection Synthesis” megnyilatkozást és annak fonémák segítségével történő fonetikai átírását mutatja. A megfelelő szintetikus jel és spektrogramja az alábbiakban látható. A vonalakkal elválasztott beszédszegmensek az adatbázisból származó folyamatos beszédszegmensek, amelyek egy vagy több fonémát tartalmazhatnak.

A hangegységek kiválasztásának fő problémája a TTS-ben az, hogy olyan egységek sorozatát (pl. fonémák) találjuk meg, amelyek kielégítik a bemeneti szöveget és a megjósolt intonációt, feltéve, hogy ezek hallható hibák nélkül kombinálhatók. Hagyományosan a folyamat két részből áll: front-end és back-end (bejövő és kimenő adatok), bár a modern rendszerekben a határ néha nem egyértelmű. A front-end célja, hogy a forrásszöveg alapján fonetikai átírási és intonációs információkat nyújtson. Ez magában foglalja a forrásszöveg normalizálását is, amely számokat, rövidítéseket stb. tartalmazhat:

A szövegelemző modul által létrehozott szimbolikus nyelvi megjelenítést használva az intonációgeneráló modul előrejelzi az akusztikus jellemzők, például a frázis időtartama és az intonáció értékeit. Ezek az értékek a megfelelő hangegységek kiválasztására szolgálnak. Az egységkiválasztási feladat rendkívül összetett, ezért a modern szintetizátorok olyan gépi tanulási módszereket használnak, amelyek megtanulják a szöveg és a beszéd közötti megfelelést, majd megjósolják a beszédjellemzők értékeit a szubtext értékekből. Ezt a modellt a szintetizátor betanítási szakaszában kell megtanulni, nagy mennyiségű szöveg- és beszédadat felhasználásával. Ennek a modellnek a bemenete numerikus nyelvi függvények, mint például fonéma, szó vagy kifejezés azonosítása, használható numerikus formává alakítva. A modell kimenete a beszéd numerikus akusztikai jellemzőiből áll, mint például a spektrum, az alapfrekvencia és a frázis időtartama. A szintézis során egy betanított statisztikai modellt használnak a bemeneti szöveg jellemzőinek leképezésére a beszédjellemzőkre, amelyeket aztán a háttér audioegység-kiválasztási folyamatának irányítására használnak, ahol a megfelelő intonáció és időtartam fontos.

Az előtértől eltérően a háttérrendszer nagyrészt nyelvfüggetlen. Ez abból áll, hogy kiválasztjuk a kívánt hangegységeket, és összefűzzük (vagyis összeragasztjuk) egy frázisba. Amikor a rendszer betanított, a rögzített beszédadatokat külön beszédszegmensekre szegmentálják a rögzített beszéd és a rögzítési szkript közötti kényszerített igazítással (akusztikus beszédfelismerő modellek használatával). A szegmentált beszédet ezután a hangegységek adatbázisának létrehozására használják. Az adatbázis tovább gazdagodik olyan fontos információkkal, mint az egyes egységek nyelvi kontextusa és akusztikai jellemzői. A felépített eszközadatbázis és a kiválasztási folyamatot meghatározó előrejelzett intonációs függvények felhasználásával Viterbi-keresés történik (felül a célfonémák, lent a lehetséges hangblokkok, a piros vonal a legjobb kombinációjuk):

A kiválasztás két szempont alapján történik: egyrészt a hangegységeknek azonos (cél) intonációjúaknak kell lenniük, másrészt az egységeket lehetőség szerint kombinálni kell anélkül, hogy a határokon hallható akadozások lépnének fel. Ezt a két kritériumot célköltségnek, illetve összefűzési költségnek nevezzük. A célköltség az előre jelzett cél akusztikai tulajdonságok és az egyes blokkokból kinyert akusztikai tulajdonságok közötti különbség, míg az összefűzési költség a következő egységek közötti akusztikai különbség:

Miután meghatározták az egységek optimális sorrendjét, az egyes hangjeleket összefűzik, hogy folyamatos szintetikus beszédet hozzanak létre.

A rejtett Markov-modelleket (HMM-eket) gyakran használják statisztikai modellként a cél-előrejelzésekhez, mivel közvetlenül modellezik az akusztikus paraméterek eloszlását, és így könnyen felhasználhatók a célköltség kiszámítására. A mély tanuláson alapuló megközelítések azonban gyakran felülmúlják a HMM-eket a parametrikus beszédszintézisben.

A Siri TTS rendszerének célja egyetlen mély tanuláson alapuló modell betanítása, amely képes automatikusan és pontosan megjósolni az adatbázisban lévő audioegységek cél- és összefűzési költségeit. Így a HMM helyett egy keveréksűrűségi hálózatot (MDN) használ bizonyos jellemzők eloszlásának előrejelzésére. Az SPN-ek a hagyományos mély neurális hálózatokat (DNN) kombinálják Gauss-modellekkel.

Egy tipikus DNN egy mesterséges neurális hálózat, amelyben a bemeneti és kimeneti rétegek között több rejtett neuronréteg található. Így egy DNN modellezheti a bemeneti és kimeneti jellemzők közötti komplex és nemlineáris kapcsolatot. Ezzel szemben egy HMM modellezi a bemeneti kimenet valószínűségi eloszlását Gauss-eloszlások halmazával, és jellemzően a várakozás-maximalizálási módszerrel tanítja. Az SPS egyesíti a DNN és a HMM előnyeit, a DNN segítségével modellezi a bemeneti és kimeneti adatok közötti összetett kapcsolatot, de a kimeneten valószínűségi eloszlást biztosít:

A Siri SPS-en alapuló egységes cél- és összefűzési modelleket használ, amelyek mind a célbeszéd-jellemzők (spektrum, hangmagasság és időtartam), mind a hangegységek közötti összefűzési költségek megoszlását előre jelezhetik. Néha a beszédjellemzők, például a toldalékok, meglehetősen stabilak és lassan fejlődnek – például magánhangzók esetében. Másutt a beszéd meglehetősen gyorsan megváltozhat – például a zöngés és a zöngétlen beszédhangok közötti váltáskor. Ennek a változékonyságnak a figyelembe vételéhez a modellnek képesnek kell lennie arra, hogy paramétereit a fent említett változékonyságnak megfelelően állítsa be. Az ATP ezt a modellbe épített torzítások segítségével teszi. Ez a szintézis minőségének javítása szempontjából fontos, mivel az aktuális kontextusra jellemző cél- és összefűzési költségeket szeretnénk kiszámítani.

Miután megszámolta az egységeket a teljes költség alapján ATP használatával, egy hagyományos Viterbi keresést hajtanak végre a hangegységek legjobb kombinációjának megtalálása érdekében. Ezeket azután hullámforma-átfedési illesztéssel kombinálják, hogy megtalálják az optimális összefűzési időt a sima és folyamatos szintetikus beszéd előállításához.

Eredmények

Az SPS Siriben való használatához legalább 15 órányi jó minőségű beszédfelvételt rögzítettünk 48 kHz-es frekvencián. A beszédet kényszerigazítással fonémákra osztották, azaz automatikus beszédfelismerést alkalmaztak, hogy a bemeneti audioszekvenciát a beszédjelből kinyert akusztikus karakterisztikához igazítsák. Ez a szegmentációs folyamat hozzávetőleg 1-2 millió fonéma létrejöttét eredményezte.

Az SPS alapján a hangegységek kiválasztásának folyamatához egyetlen cél- és összefűzési modellt hoztak létre. Az SPS bemeneti adatai főként bináris értékekből állnak, néhány további jellemzővel, amelyek kontextusinformációt képviselnek (két megelőző és követő fonéma).

Az új TTS Siri rendszer minősége felülmúlja az előzőt - ezt számos teszt igazolja az alábbi képen (érdekes módon a Siri új orosz hangját értékelték a legjobban):

A jobb hangminőség pontosan az SPS-alapú adatbázishoz kapcsolódik – ez az audioblokkok jobb kiválasztását és összefűzését, magasabb mintavételi frekvenciát (22 kHz versus 48 kHz) és jobb hangtömörítést biztosít.

Elolvashatja az eredeti cikket (jó angol és fizikatudás szükséges), és meghallgathatja, hogyan változott Siri hangja az iOS 9, 10 és 11 rendszerben.

Előző cikk: Mekkora a fénysebesség Következő cikk: Harmonikus rezgések Az oszcillációs frekvencia fizikai képlete