Glasovna kontrola Windows 10 računara. Najjednostavnija kontrola kompjutera pomoću vašeg glasa

30.06.2019 Televizori (Smart TV)

Čak i prije izlaska Cortana interfejsa za Windows 10, koji je u razvoju, testiranju i otklanjanju grešaka, korisnici su pokušali da organizuju glasovnu kontrolu računara. Kako se takva funkcija može implementirati u Windows koji je izašao prije 10, bit će razmotreno u današnjem članku.

Cortana

Cortana je glasovni asistent s AI-om koji je razvio Microsoft za Windows 10, telefon i Android, s daljnjim proširenjem na XBox i iOS. Zamjenjuje klasični string za pretraživanje i izvodi mnoge radnje, prvenstveno vezane za traženje informacija i sistemske komande, primajući ih od korisnika u obliku glasovnih komandi. Duboka integracija u Windows 10, odsustvo ruskog jezika (do sada), prikupljanje gotovo svih informacija o korisniku poslanih na Microsoftove servere i odsustvo konačne verzije ne dozvoljavaju većini korisnika da steknu potpunu vlastitu glasovnu kontrolu kompjuter.

Pored Cortane, postoje mnoge aplikacije koje vam omogućavaju da kontrolišete svoj računar putem glasovnih komandi korisnika. Pogledajmo najčešće proizvode za rješavanje ovog problema u Windowsima 7 i 10.

Tip

Aplikacija zauzima vodeću poziciju među korisnicima ruskog govornog područja koji žele da upravljaju računarom svojim glasom. Uslužni program će lako zamijeniti značajan dio funkcija Cortane na Windows 10, a na "sedam" će dodati funkciju koja se često prikazuje u filmovima u kojima ljudi upravljaju kompjuterima koristeći svoj glas.

Prije početka rada kreirajte račun i smislite ključnu frazu, nakon što čujete koju se aplikacija aktivira. Zatim postavljamo glasovnu komandu za upravljanje računarom ili izvođenje određene radnje i dodjeljujemo mu operaciju (pokretanje aplikacije, odlazak na određenu lokaciju). U prozoru za uređivanje kreiranih naredbi postaje moguće podesiti parametre s kojima će se aplikacija pokrenuti i odrediti način pokretanja (cijeli ekran, prozorski).

Funkcionalnost uslužnog programa je veoma ograničena, a interfejs je daleko od Metro stila koji je implementiran u Windows 10. Punopravna glasovna kontrola na računaru preko Typle-a se ne može implementirati: podržava samo otvaranje datoteka, aplikacija (sa argumentima) i praćenje unapred definisanih veza. Ne postoji čak ni podrška za upravljanje plejerom (pauza, početak sledeće numere).

Zvučnik

pravljenje snimaka ekrana stanja ekrana;
prebacivanje rasporeda tastature;
gašenje Windows 7;
pokretanje aplikacije;
otvaranje fajla.

Proces čitanja i prepoznavanja informacija koje dolaze na mikrofon počinje nakon pritiska na određenu tipku (bolje je odabrati dugme koje najmanje rijetko koristite kako biste izbjegli lažne alarme programa). Potrebno je puno vremena za obradu, prepoznavanje govora i izvršenje naredbe - 5 ili više sekundi nego što morate platiti za jeftinoću. Ključne riječi se postavljaju tekstom, a ne riječima, pa se prepoznati govor upoređuje sa unesenim tekstom, što je daleko od idealnog. U aplikaciji nema kontrole igrača.

Gorynych

Programeri softverskog paketa za upravljanje računarom sa Windows 7 i 10 prvi su ruski tim koji je objavio aplikaciju za rešavanje ovakvih problema. Za jezgro aplikacije uzet je zapadni "Dragon Dictate", gdje je uveden domaći softverski modul za prepoznavanje ruskog govora.

Najčešće, kada radimo na personalnom računaru, moramo da kucamo velike tekstove. Sjedeći direktno ispred monitora gubimo dosta vremena, iako bismo mogli obaviti neke kućne poslove.

Prošlog veka

Hajde da shvatimo šta je kompjuterska glasovna kontrola. Hajde da povučemo neku analogiju. Ranije, a i sada, vrlo uobičajen način da se "oslobode ruke" od kompjutera tokom rada bilo je angažovanje drugog radnika - stenografa ili sekretarice. Međutim, malo ljudi zna da možete izbjeći nepotrebnu potrošnju instaliranjem na osobno računalo niz programa i uslužnih programa koji omogućavaju glasovnu kontrolu računala na ruskom.

S pojavom softverskih proizvoda kao što su "Gorynych" i WebSpeach, možete zaboraviti koliko dugo ste morali sjediti i tipkati bilo koji rad, na primjer, diplomu, narudžbu ili bilo koju drugu dokumentaciju. Razvojem kompjuterske tehnologije pojavila se i mogućnost korištenja posebnog programa za prepoznavanje govora.

Ugrađeni uslužni programi

Glasovna kontrola Windows 8 računara se vrši pomoću ugrađenog uslužnog programa Windows za prepoznavanje govora. Nažalost, trenutno nije moguće kontrolisati računar na ruskom jeziku. Microsoft, očigledno, pokušava da se fokusira na najčešće jezike, ali je moguće da će podrška za ruski jezik uskoro biti objavljena.

Ako i dalje želite pokušati upravljati svojim željeznim prijateljem koristeći engleski, slijedite sljedeća uputstva.

Idite na kontrolnu tablu u podstavci "Jezik". Morate podesiti sistemski jezik - engleski. Ako ga nemate, morat ćete preuzeti odgovarajući jezički paket.
Nakon preuzimanja i instaliranja jezika, idite na početni ekran sa "pločicom".
Potražite Windows prepoznavanje govora i pritisnite Enter. Ovo pokreće program za prepoznavanje glasa.
Prilikom prvog pokretanja, od vas će biti zatraženo da postavite svoj mikrofon. Odaberite svoju sortu i recite nekoliko riječi.
Zatim će vam biti ponuđen tutorijal od 20 minuta. Vodi se na engleskom, tako da ako ne razumete jezik, možete ga bezbedno preskočiti. Interfejs programa je apsolutno jasan, tako da ga čak i dijete može shvatiti.
Da biste omogućili glasovnu kontrolu na svom računaru, moraćete da izgovorite ključnu frazu "Počnite da slušate". To znači - "počnite slušati". Sada možete pokrenuti program koji vam je potreban i početi diktirati tekst.

Općenito, mogućnosti ovog uslužnog programa su neiscrpne. Osim korištenja osnovnih komandi, možete kreirati i vlastite.

Razvoj

Stvorene su mnoge aplikacije za prepoznavanje ruskog i engleskog govora:

"Diktograf 5";
"Perpetuum mobile";
Voice_PE;
Lucent;
VoiceType;
Sakrament.

Ipak, najpopularniji su bili:

"Gorynych";
Web Speech;
RealSpeaker;
Speechka.

Pogledajmo ih pobliže.

"Gorynych"

Kao što naziv govori, aplikaciju je kreirao tim ruskih programera i dobila je ime po liku iz ruske bajke po imenu Gorynych. Glasovna kontrola kompjutera u njemu se vrši na ruskom jeziku, međutim, postoji i podrška za engleski. "Gorynych" vam omogućava da kontrolišete personalni računar u korisničkom režimu, odnosno da izvršite sve moguće radnje koje možete izvršiti pomoću miša i tastature: rad sa prozorima, aplikacijama, procesima koji se pokreću na personalnom računaru. Štoviše, "Gorynych" prepoznaje govor samo jednog vlasnika, ali ne uvijek.

Međutim, postoji jedan prilično veliki nedostatak. Činjenica je da morate ručno unijeti cijelu komandnu bazu. To jest, prije nego što možete bilo šta učiniti na računaru sa svojim glasom, morate kreirati cijelu bazu podataka sa komandama koje je snimio vaš glas. Čak i ako to učinite, ako odjednom postanete promukli ili se ton vašeg glasa makar malo promijeni, "Gorynych" će vas potpuno odbiti razumjeti.

Još jedna zamka je da ako želite da diktirate tekstove kompjuteru, prvo morate da napravite ogroman rečnik za Gorynycha sa dobrim vokabularom kako bi mogao da razume šta diktirate.

Speechka

Aplikacije trećih strana instalirane na personalnom računaru mogu pomoći da se to osigura. Jedna od njih je Speechka. Baš kao i "Gorynych", ruski proizvod kreiran na bazi Google tehnologija, "Match" omogućava korisniku korištenje unaprijed određenog skupa komandi za upravljanje računarom glasom. Speechka je prilično dobra u prepoznavanju bilo kojeg govora i nema potrebe za snimanjem zvučnih datoteka za to. Dovoljno je samo uneti reč sa tastature i povezati je sa bilo kojom radnjom. Jednostavno rečeno, to je dostojan proizvod, ali je još uvijek u razvoju, jer su funkcije poput zatvaranja prozora ili pokretanja programa dodane relativno nedavno.

Tipkanje

Nakon što smo shvatili šta je glasovna kontrola računara, razmotrimo problem kucanja. Kao što je spomenuto, ne dozvoljavaju vam sve aplikacije da ga proizvedete. U većini slučajeva za to morate prvo sastaviti cijeli rječnik, a ako ste korisnik Windows 8, tada se javlja i problem podrške ruskom govoru. Za rješavanje ovog problema postoji usluga glasovnog biranja koju je kreirao Google.

Dostupna samo za Chrome pretraživače, aplikacija Google Web Speech prepoznaje 32 vodeća svjetska jezika, uključujući ruski. Za unos teksta glasom potreban vam je odgovarajući pretraživač, internet i mikrofon. Razvoj je dovoljno napredovao, tako da je ovaj alat u stanju da percipira pismeni ruski govor u celim rečima i prevede ga u štampani tekst.

Drugi program za prepoznavanje govora i diktiranje na personalni računar je RealSpeaker. Koristi moderne tehnologije za prepoznavanje izraza lica. Za korištenje je prikladna apsolutno svaka web kamera. Jedina neugodnost koja nastaje tokom rada je to što lice zvučnika mora biti tačno nasuprot kamere, na udaljenosti ne većoj od 40 centimetara. U ovom programu postoji rečnik ruskog jezika, koji korisnik može proširiti po želji. Općenito, ovaj program je mnogo praktičniji od Gorynycha.

Ishod

Ako razmišljate o kompjuterskoj glasovnoj kontroli, vjerujte mi, ovo još nije za Rusiju. Adekvatni programi za prepoznavanje trenutno postoje samo na engleskom jeziku, a automatsko kucanje glasom će sadržavati toliko grešaka da će biti lakše napisati tekst od nule nego ispraviti sve greške u kucanju. Možete, naravno, pokušati naučiti engleski i upravljati računarom na njemu, ali vam je potrebna savršena dikcija i izgovor.

Jedan čovjek mi se obratio sa zahtjevom da napišem program koji bi omogućio kontrolu kompjuterskog miša njegovim glasom. Tada nisam mogao ni da zamislim da, skoro potpuno paralizovana osoba koja ne može ni sama da okrene glavu, već samo priča, u stanju je da razvija energičnu aktivnost, pomaže sebi i drugima da žive aktivnim životom, stiče nova znanja i veštine, radi i zarađivati novac, komunicirati sa drugim ljudima širom svijeta, učestvovati u natjecanju društvenih projekata.

Dozvolite mi da ovdje citiram nekoliko linkova ka stranicama, čiji je autor i/ili idejni inspirator ova osoba - Alexander Makarchuk iz grada Borisova, Bjelorusija:

Za rad na računaru Aleksandar je koristio program "Vocal Joystick", razvoj studenata Univerziteta Washington, koji je finansirala Nacionalna naučna fondacija (NSF). Vidi melodi.ee.washington.edu/vj

Nisam mogao odoljeti

Inače, na sajtu univerziteta (http://www.washington.edu/) 90% članaka je o novcu. Teško je pronaći bilo šta o naučnom radu. Evo, na primjer, odlomaka sa prve stranice: „Tom, diplomirani fakultet, jeo je pečurke i jedva je plaćao stanarinu. Sada je viši menadžer IT kompanije i pozajmljuje novac univerzitetu“, „Bigi podaci pomažu beskućnicima“, „Kompanija se obavezala da će platiti 5 miliona dolara za novu akademsku zgradu.“

Boli li me samo oko?

Program je napravljen 2005-2009 i dobro je radio na Windows XP-u. U novijim verzijama Windowsa, program se može zamrznuti, što je neprihvatljivo za osobu koja ne može ustati sa stolice i ponovo je pokrenuti. Stoga je program morao biti prerađen.

Izvornih tekstova nema, postoje samo pojedinačne publikacije koje otkrivaju tehnologije na kojima se zasniva (MFCC, MLP - o tome čitajte u drugom dijelu).

Napisan je novi program na sliku i priliku (oko tri mjeseca).

Zapravo, možete vidjeti kako to funkcionira:

Možete preuzeti program i/ili vidjeti izvorne kodove.

Ne morate izvoditi nikakve posebne korake da biste instalirali program, samo kliknite na njega i pokrenite ga. Jedina stvar, u nekim slučajevima je potrebno da se pokrene kao administrator (na primjer, kada radite s virtualnom tastaturom "Comfort Keys Pro"):

Možda je ovdje vrijedno spomenuti i druge stvari koje sam prethodno radio da bih mogao kontrolirati računar bez ruku.

Ako imate mogućnost okretanja glave, žiroskop koji se montira na glavu je dobra alternativa eViacamu. Dobićete brzo i precizno pozicioniranje kursora i nezavisnost od osvetljenja.

Ako možete pomicati samo zjenice očiju, onda možete koristiti gaze tracker i program za njega (može biti teško ako nosite naočale).

Dio II. Kako to radi?

Iz objavljenog materijala o programu Vocal Joystick poznato je da on radi na sljedeći način:

Rezanje audio toka u okvire od 25 milisekundi sa preklapanjem od 10 milisekundi
Dobivanje 13 cepstral koeficijenata (MFCC) za svaki okvir
Provjera da se jedan od 6 memorisanih glasova (4 samoglasnika i 2 suglasnika) izgovara višeslojnim perceptronom (MLP)
Dovođenje pronađenih zvukova u pokret / klikove mišem

Prvi zadatak je izuzetan samo po tome što su za njegovo rješavanje u realnom vremenu morala biti unesena tri dodatna toka u program, jer se očitavanje podataka s mikrofona, obrada zvuka i reprodukcija zvuka preko zvučne kartice odvijaju asinhrono.

Potonji zadatak se jednostavno implementira pomoću funkcije SendInput.

Najzanimljiviji, čini mi se, su drugi i treći zadatak. Dakle.

Problem broj 2. Dobivanje 13 cepstral koeficijenata

Ako neko nije u temi - glavni problem kompjuterskog prepoznavanja zvukova je sljedeći: teško je uporediti dva zvuka, jer dva zvučna talasa koja su različita u obrisu mogu zvučati slično sa stanovišta ljudske percepcije.

A među onima koji se bave prepoznavanjem govora, traži se "kamen filozofa" - skup karakteristika koje bi nedvosmisleno klasificirale zvučni val.

Od onih znakova koji su dostupni široj javnosti i opisani u udžbenicima, najčešći su takozvani kepstralni koeficijenti krede frekvencije (MFCC).

Njihova povijest je takva da su u početku bili namijenjeni za nešto sasvim drugo, naime, za suzbijanje odjeka u signalu (informativni članak na ovu temu napisali su uvaženi Oppenheim i Schafer, neka radost bude u domovima ovih plemenitih ljudi. Vidi AV Oppenheim i RW Schafer, “Od frekvencije do kvefrencije: Istorija Cepstruma”).

Ali osoba je dizajnirana tako da je sklona da bolje koristi ono što joj je poznato. A oni koji su se bavili govornim signalima došli su na ideju da koriste gotov kompaktni prikaz signala u obliku MFCC-a. Ispostavilo se da, općenito, funkcionira. (Moj prijatelj, specijalista za ventilacione sisteme, kada sam ga pitao kako da napravim vikendicu, predložio mi je korišćenje ventilacionih kanala. Jednostavno zato što ih poznaje bolje od drugih građevinskih materijala).

Da li su MFCC-i dobar klasifikator zvukova? ne bih rekao. Isti zvuk, koji ja izgovaram u različitim mikrofonima, spada u različite oblasti prostora MFCC koeficijenata, a idealan klasifikator bi ih nacrtao jedan pored drugog. Stoga, posebno kada mijenjate mikrofon, morate ponovo naučiti program.

Ovo je samo jedna od projekcija 13-dimenzionalnog prostora MFCC-a u 3-dimenzionalni, ali pokazuje na šta mislim - crvene, ljubičaste i plave tačke se dobijaju iz različitih mikrofona: (Plantronix, ugrađeni mikrofonski niz, Jabra), ali zvuk se izgovarao sam.

Međutim, kako ne mogu ponuditi ništa bolje, koristit ću i standardnu tehniku - izračunavanje MFCC koeficijenata.

Da ne bi pogriješili u implementaciji, u prvim verzijama programa kao osnova je korišten kod iz poznatog CMU Sphinx programa, tačnije njegova implementacija u C, nazvana pocketsphinx, razvijena na Univerzitetu Carnegie Mellon. (mir sa obojicom! (C) Hottabych).

Izvorni kodovi pocketsphinxa su otvorenog koda, ali loša sreća - ako ih koristite, morate napisati tekst u svom programu (i u izvornom kodu i u izvršnom modulu) koji sadrži, između ostalog, sljedeće:

* Ovaj rad je djelimično podržan sredstvima Agencije za napredne odbrambene * istraživačke projekte i Nacionalne naučne fondacije * Sjedinjenih Američkih Država i Konzorcijuma za govor CMU Sphinx.
Ovo mi se činilo neprihvatljivim i morao sam ponovo napisati kod. To je uticalo na performanse programa (na bolje, usput rečeno, iako je "čitljivost" koda donekle patila). Uglavnom zahvaljujući korišćenju biblioteka "Intel Performance Primitives", ali sam i sam optimizovao nekoliko stvari, poput MEL filtera. Ipak, provjera testnih podataka pokazala je da su dobiveni MFCC koeficijenti potpuno slični onima dobivenim korištenjem, na primjer, uslužnog programa sphinx_fe.

U sphinxbase programima, MFCC koeficijenti se izračunavaju u sljedećim koracima:

Korak	Funkcija Sphinxbase	Suština operacije
1	fe_pre_emphasis	Većina prethodnog brojanja oduzima se od trenutnog uzorka (na primjer, 0,97 od njegove vrijednosti). Primitivni niskopropusni filter.
2	fe_hamming_window	Hamingov prozor - uvodi bledenje na početku i na kraju kadra
3	fe_fft_real	Brza Fourierova transformacija
4	fe_spec2magnitude	Iz normalnog spektra dobijamo spektar snage, gubi fazu
5	fe_mel_spec	Grupiramo frekvencije spektra [na primjer, 256 komada] u 40 hrpa koristeći MEL skalu i težinske faktore
6	fe_mel_cep	Uzmite logaritam i primijenite DCT2 transformaciju na 40 vrijednosti iz prethodnog koraka. Ostavite prvih 13 vrijednosti u rezultatu. Postoji nekoliko varijanti DCT2 (HTK, legacy, classic), koje se razlikuju po konstanti kojom dijelimo dobijene koeficijente, te posebnoj konstanti za nulti koeficijent. Možete odabrati bilo koju opciju, to neće promijeniti suštinu.

Ovi koraci također uključuju funkcije koje vam omogućavaju da odvojite signal od buke i tišine, kao što su fe_track_snr, fe_vad_hangover, ali nam ne trebaju i neće nas ometati.

Napravljene su sljedeće zamjene za korake za dobijanje MFCC koeficijenata:

Problem broj 3. Provjera da se izgovara jedan od 6 memorisanih zvukova

Originalni program "Vocal Joystick" koristio je višeslojni perceptron (MLP) za klasifikaciju - neuronsku mrežu bez novonastalih zvona i zviždaljki.

Da vidimo koliko je ovdje opravdana upotreba neuronske mreže.

Prisjetimo se što neuroni rade u umjetnim neuronskim mrežama.

Ako neuron ima N ulaza, tada neuron dijeli N-dimenzionalni prostor na pola. Reže sa hiperplanskim bekhendom. Istovremeno, u jednoj polovini prostora radi (daje pozitivan odgovor), au drugoj polovini ne radi.

Pogledajmo [praktički] najjednostavniju opciju - neuron sa dva ulaza. On će prirodno prepoloviti dvodimenzionalni prostor.

Neka se na ulaz unose vrijednosti X1 i X2, koje neuron množi sa težinskim koeficijentima W1 i W2 i dodaje slobodni član C.

Ukupno, na izlazu neurona (označavamo ga sa Y) dobijamo:

Y = X1 * W1 + X2 * W2 + C

(za sada izostavimo suptilnosti o sigmoidnim funkcijama)

Pretpostavljamo da se neuron aktivira kada je Y> 0. Prava linija data jednadžbom 0 = X1 * W1 + X2 * W2 + C samo dijeli prostor na dio gdje je Y> 0 i dio gdje je Y<0.

Ilustrujmo ono što je rečeno konkretnim brojevima.

Neka je W1 = 1, W2 = 1, C = -5;

Sada da vidimo kako možemo organizirati neuronsku mrežu koja bi radila na određenom području prostora, relativno govoreći - spot, a ne bi radila na svim drugim mjestima.

Sa slike se može vidjeti da su nam za ocrtavanje područja u dvodimenzionalnom prostoru potrebne najmanje 3 ravne linije, odnosno 3 neurona povezana s njima.

Povezat ćemo ova tri neurona zajedno koristeći još jedan sloj, dobivši višeslojnu neuronsku mrežu (MLP).

A ako nam je potrebna neuronska mreža da radi u dva područja prostora, onda su nam potrebna još najmanje tri neurona (4,5,6 na slikama):

I ovdje ne možete bez trećeg sloja:

A treći sloj je skoro duboko učenje...

Sada se okrenimo drugom primjeru za pomoć. Neka naša neuronska mreža proizvede pozitivan odgovor na crvene tačke, a negativan - na plave tačke.

Da se od mene traži da odsečem crvenu od plave ravnim linijama, uradio bih to otprilike ovako:

Ali neuronska mreža a priori ne zna koliko će pravih linija (neurona) trebati. Ovaj parametar se mora postaviti prije obuke mreže. A osoba to radi na osnovu ... intuicije ili pokušaja i grešaka.

Ako odaberemo premalo neurona u prvom sloju (tri, na primjer), onda možemo dobiti takav rez koji će dati puno grešaka (pogrešno područje je zasjenjeno):

Ali čak i ako je broj neurona dovoljan, kao rezultat treninga, mreža možda neće "konvergirati", odnosno dostići određeno stabilno stanje, daleko od optimalnog, kada je procenat grešaka visok. Kao i ovdje, gornja prečka se smjestila na dvije grbe i neće ih nigdje ostaviti. A ispod je veliko područje koje stvara greške:

Opet, mogućnost ovakvih slučajeva zavisi od početnih uslova treninga i redosleda treninga, odnosno od slučajnih faktora:

- Šta mislite šta će taj točak stići, ako se desi, do Moskve ili ne?
- Šta mislite, hoće li se enta neuronska mreža konvergirati ili ne?

Postoji još jedan neugodan momenat vezan za neuronske mreže. Njihova "zaboravnost".

Ako počnete hraniti mreže samo plavim tačkama, a prestanete hraniti crvene, onda ona može mirno zgrabiti za sebe komad crvenog područja, pomjerajući svoje granice tamo:

Ako neuronske mreže imaju toliko nedostataka, a osoba može povući granice mnogo efikasnije od neuronske mreže, zašto ih uopće koristiti?

I postoji jedan mali, ali vrlo važan detalj.

Mogu vrlo dobro odvojiti crveno srce od plave pozadine po segmentima u dvodimenzionalnom prostoru.

Mogu dobro odvojiti ravni kipa Venere od okolnog trodimenzionalnog prostora.

Ali u četvorodimenzionalnom prostoru ne mogu ništa da uradim, izvini. I još više u 13-dimenzionalnoj.

Ali za neuronsku mrežu dimenzija prostora nije prepreka. Smijao sam joj se u niskodimenzionalnim prostorima, ali čim sam otišao dalje od uobičajenog, lako me je uhvatila.

Ipak, pitanje je i dalje otvoreno – koliko je opravdana upotreba neuronske mreže u ovom konkretnom zadatku, s obzirom na gore navedene nedostatke neuronskih mreža.

Zaboravimo na trenutak da su naši MFCC koeficijenti u 13-dimenzionalnom prostoru, i zamislimo da su dvodimenzionalni, odnosno tačke na ravni. Kako bi se u ovom slučaju jedan zvuk mogao odvojiti od drugog?

Neka MFCC tačke zvuka 1 imaju standardnu devijaciju R1, što [otprilike] znači da su tačke koje ne odstupaju previše od srednje vrednosti, najkarakterističnije tačke, unutar kruga poluprečnika R1. Isto tako, tačke u koje vjerujemo za zvuk 2 nalaze se unutar kruga polumjera R2.

Pažnja, pitanje: gdje povući pravu liniju koja bi najbolje odvojila zvuk 1 od zvuka 2?

Odgovor se nameće sam od sebe: u sredini između granica krugova. Ima li primjedbi? Nema prigovora.
Ispravka: U programu ova granica dijeli segment koji povezuje centre krugova u omjeru R1: R2, pa je ispravnija.

I na kraju, ne zaboravimo da negdje u svemiru postoji tačka koja predstavlja potpunu tišinu u MFCC prostoru. Ne, ovo nije 13 nula, kako se čini. Ovo je jedna tačka koja ne može imati standardnu devijaciju. A ravne linije kojima ga odsiječemo od naša tri zvuka mogu se povući direktno duž granica krugova:

Na slici ispod, svaki zvuk odgovara komadu prostora svoje boje, a uvijek možemo reći kojem zvuku pripada ova ili ona tačka u prostoru (ili se ne odnosi ni na jednu):

Dobro, dobro, sada se prisjetimo da je prostor 13-dimenzionalan, a ono što je bilo dobro crtati na papiru, sada se ispostavilo da je nešto što se ne uklapa u ljudski mozak.

Tako, ali nije tako. Srećom, u prostoru bilo koje dimenzije ostaju takvi koncepti kao što su tačka, linija, [hiper] ravan, [hiper] sfera.

Ponavljamo sve iste radnje u 13-dimenzionalnom prostoru: pronađemo varijansu, odredimo poluprečnike [hiper] sfera, povežemo njihova središta pravom linijom, presečemo je [hiper] ravninom u tački jednako udaljenoj od granice [hiper] sfera.

Nijedna neuronska mreža ne može ispravnije odvojiti jedan zvuk od drugog.

Ovdje, međutim, treba napraviti rezervu. Sve je to tačno ako je informacija o zvuku oblak tačaka koje podjednako odstupaju od prosjeka u svim smjerovima, odnosno dobro se uklapaju u hipersferu. Da je ovaj oblak složenog oblika, na primjer, 13-dimenzionalna zakrivljena kobasica, onda sva gornja razmišljanja ne bi bila tačna. A možda bi, uz odgovarajuću obuku, neuronska mreža ovdje mogla pokazati svoje prednosti.

Ali ne bih rizikovao. I primenio bih, na primer, skupove normalnih distribucija (GMM), (što se, inače, radi u CMU Sphinx). Uvijek je ljepše kada shvatite koji je algoritam doveo do rezultata. A ne kao u neuronskoj mreži: Oracle, na osnovu svojih mnogo sati kuhanja bujona iz podataka o obuci, naređuje vam da odlučite da je traženi zvuk zvuk #3. (Posebno me nervira kada kontrolu nad automobilom pokušavaju povjeriti neuronskoj mreži. Kako onda, u nestandardnoj situaciji, razumjeti zašto je auto skrenuo lijevo, a ne desno? Svemogući Neuron je komandovao?).

Ali skupovi normalnih distribucija su već zasebna velika tema, koja je izvan okvira ovog članka.

Nadam se da vam je ovaj članak bio od pomoći i/ili da je vaš gyrus škripao.

Pregled programa za glasovno upravljanje računarom

U članku koji slijedi razmatrat će se pitanje glasovnog upravljanja računalom i dati kratak opis popularnih programa namijenjenih ovom procesu. Dakle, riječ u nazivu "glas" mora se shvatiti doslovno - sposobnost rada s PC-om, odnosno davanje / izvršavanje poznatih komandi / radnji koristeći svoj glas, a ne uobičajene atribute - miš, tastatura. Na primjer, raditi s paketom uredskih aplikacija - izgovoriti tekst, prepoznati govor i reproducirati ga u obliku teksta u odabranoj aplikaciji.

Gorynych

Najtestiraniji i najstariji softver (program) je Dragon NaturallySpeaking (u daljem tekstu Gorynych). Vremenski testiran i maksimalno poboljšan tokom svog postojanja, Gorynych program verzije iz 2010. pruža precizno prepoznavanje govora od 99%. Veoma jednostavan i lak za korištenje softver, radi sa svim uredskim programima, može pomoći u kreiranju i uređivanju tekstova, tabela i baza podataka. Pomoću programa možete pretraživati Internet i svoj računar (glasovne oznake), slati e-poštu i trenutne poruke/poruke. Odličan asistent za mala preduzeća. Zna kako izvršiti naredbe za otvaranje i reprodukciju datoteka i tako dalje. Ali postoji jedno upozorenje preuzmite Gorynych program za upravljanje glasom na računalu možete samo platiti i postoji jedno "ali". Nakon instalacije, program koristi njemački jezik, a promjena u ruski zahtijevat će određeni napor od strane korisnika.

Tip premium

Ne postoji ništa manje dostojan na ruskom, njegovo ime zvuči kao Typle Premium. Ovaj softver ima intuitivniji i jednostavniji interfejs. Njegova prednost uglavnom leži u mogućnosti snimanja velikog broja glasovnih komandi. Prepoznavanje glasa - 99%. Na primjer, korisnik želi ponovo pogledati svoj omiljeni film, njegov zadatak je da snimi u Typle Premium nešto poput "Pusti film" *** ". Savršeno je kompatibilan kompjuterska glasovna kontrola windows xp - operativni sistem.

Inteligentni sistem za prepoznavanje glasa

Program je nešto skromniji od prethodna dva se zove - Inteligentni sistem za prepoznavanje glasa (IVOS)... Možete pokušati da ga besplatno preuzmete (početne verzije) na Internetu. Program je potpuno kompatibilan sa Windowsom, može konvertovati i prepoznati glas vlasnika. Takođe omogućava snimanje dodatnih komandi za rad sa otvaranjem dokumenata. Inteligentni sistem za prepoznavanje glasa (IVOS) ima glasovne mašine koje će omogućiti korisniku da napravi presnimavanje elektronskih udžbenika. Intuitivan i lojalan interfejs. Zgodan je i lak za korištenje, ali je definitivno daleko od mogućnosti prva dva programa.

Postoji još mnogo sličnih programa za upravljanje računarima i mobilnim uređajima. Tržište nudi i plaćene i besplatne opcije. Međutim, ako korisnik namjerava koristiti program u ozbiljnom radu, vrijedi dati prednost plaćenom softveru uz podršku programera.

Glasovna kontrola Windows 10 računara. Najjednostavnija kontrola kompjutera pomoću vašeg glasa

Cortana

Tip

Zvučnik

Gorynych

Prošlog veka

Ugrađeni uslužni programi

Razvoj

"Gorynych"

Speechka

Tipkanje

Ishod

Dio II. Kako to radi?

Problem broj 2. Dobivanje 13 cepstral koeficijenata

Problem broj 3. Provjera da se izgovara jedan od 6 memorisanih zvukova

Pregled programa za glasovno upravljanje računarom

Gorynych

Tip premium

Inteligentni sistem za prepoznavanje glasa

Top srodni članci