Glasovna kontrola Windows 10 računala. Najjednostavnija kontrola računala pomoću vašeg glasa

30.06.2019 Televizori (Smart TV)

Čak i prije izlaska Cortana sučelja za Windows 10, koje je u razvoju, testiranju i otklanjanju pogrešaka, korisnici su pokušali organizirati glasovnu kontrolu računala. Kako se takva funkcija može implementirati u Windows koji je izašao prije 10, raspravljat ćemo u današnjem članku.

Cortana

Cortana je glasovni asistent s AI-om koji je razvio Microsoft za Windows 10, telefon i Android, s daljnjim proširenjem na XBox i iOS. Zamjenjuje klasični niz za pretraživanje i obavlja mnoge radnje, prvenstveno vezane uz traženje informacija i naredbe sustava, primajući ih od korisnika u obliku glasovnih naredbi. Duboka integracija u Windows 10, odsutnost ruskog jezika (do sada), prikupljanje gotovo svih informacija o korisniku poslanih na Microsoftove poslužitelje i odsutnost konačne verzije ne dopuštaju većini korisnika potpunu vlastitu glasovnu kontrolu Računalo.

Osim Cortane, postoje mnoge aplikacije koje vam omogućuju upravljanje računalom putem glasovnih naredbi korisnika. Pogledajmo najčešće proizvode za rješavanje ovog problema u sustavima Windows 7 i 10.

Tip

Aplikacija zauzima vodeću poziciju među korisnicima ruskog govornog područja koji žele upravljati računalom svojim glasom. Uslužni program će lako zamijeniti značajan dio funkcija Cortane na Windows 10, a na "sedam" će dodati funkciju koja se često prikazuje u filmovima gdje ljudi upravljaju računalima koristeći svoj glas.

Prije početka rada stvorite račun i smislite ključnu frazu, nakon što se čuje, aplikacija se aktivira. Zatim postavljamo glasovnu naredbu za upravljanje računalom ili izvođenje određene radnje i dodjeljujemo joj operaciju (pokretanje aplikacije, odlazak na navedeno mjesto). U prozoru za uređivanje stvorenih naredbi postaje moguće postaviti parametre s kojima će se aplikacija pokrenuti i odrediti način pokretanja (cijeli zaslon, prozorski).

Funkcionalnost uslužnog programa je vrlo ograničena, a sučelje je daleko od Metro stila implementiranog u Windows 10. Punopravna glasovna kontrola računala putem Typle-a ne može se implementirati: podržava samo otvaranje datoteka, aplikacija (s argumentima) i praćenje unaprijed definiranih poveznica. Nema čak ni podrške za upravljanje playerom (pauza, početak sljedeće pjesme).

Zvučnik

snimanje zaslona stanja zaslona;
mijenjanje rasporeda tipkovnice;
isključivanje sustava Windows 7;
pokretanje aplikacije;
otvaranje datoteke.

Proces čitanja i prepoznavanja informacija koje dolaze na mikrofon počinje nakon pritiska na određenu tipku (bolje je odabrati tipku koju najmanje rijetko koristite kako biste izbjegli lažne alarme programa). Potrebno je puno vremena za obradu, prepoznavanje govora i izvršenje naredbe - 5 ili više sekundi nego što morate platiti za jeftinoću. Ključne riječi postavlja tekst, a ne riječi, pa se prepoznati govor uspoređuje s unesenim tekstom, što je daleko od idealnog. U aplikaciji nema kontrole igrača.

Gorynych

Programeri softverskog paketa za upravljanje računalom sa sustavima Windows 7 i 10 prvi su ruski tim koji je objavio aplikaciju za rješavanje takvih problema. Za jezgru aplikacije uzet je zapadni "Dragon Dictate", gdje je uveden domaći softverski modul za prepoznavanje ruskog govora.

Najčešće, kada radimo na osobnom računalu, moramo tipkati velike tekstove. Sjedeći direktno ispred monitora gubimo puno vremena, iako bismo mogli obaviti neke kućanske poslove.

Posljednje stoljeće

Idemo shvatiti što je računalna glasovna kontrola. Povucimo neku analogiju. Prije, a i sada, vrlo čest način da se “oslobode ruke” od računala tijekom rada bilo je angažiranje drugog djelatnika – stenografa ili tajnice. Međutim, malo ljudi zna da možete izbjeći nepotrebnu potrošnju instaliranjem na osobno računalo niz programa i uslužnih programa koji omogućuju glasovno upravljanje računalom na ruskom.

S pojavom takvih softverskih proizvoda kao što su "Gorynych" i WebSpeach, možete zaboraviti koliko ste dugo morali sjediti i tipkati bilo koji rad, na primjer, diplomu, narudžbu ili bilo koju drugu dokumentaciju. Razvojem računalne tehnologije pojavila se i mogućnost korištenja posebnog programa za prepoznavanje govora.

Ugrađeni uslužni programi

Glasovna kontrola računala sa sustavom Windows 8 provodi se pomoću ugrađenog uslužnog programa Windows za prepoznavanje govora. Nažalost, trenutno nije moguće upravljati računalom na ruskom. Microsoft se, očito, pokušava usredotočiti na najčešće jezike, no moguće je da će podrška za ruski jezik uskoro biti objavljena.

Ako i dalje želite pokušati upravljati svojim željeznim prijateljem koristeći engleski, slijedite sljedeću uputu.

Idite na upravljačku ploču u podstavci "Jezik". Morate postaviti jezik sustava - engleski. Ako ga nemate, morat ćete preuzeti odgovarajući jezični paket.
Nakon preuzimanja i instaliranja jezika idite na početni zaslon s "pločicom".
Potražite Windows Speech Recognition i pritisnite Enter. Time se pokreće program za prepoznavanje glasa.
Prilikom prvog pokretanja od vas će se tražiti da postavite mikrofon. Odaberite svoju raznolikost i recite nekoliko riječi.
Zatim će vam biti ponuđen tutorijal od 20 minuta. Vodi se na engleskom, pa ako ne razumijete jezik, možete ga sigurno preskočiti. Sučelje programa je apsolutno jasno, pa ga čak i dijete može shvatiti.
Da biste omogućili glasovno upravljanje na računalu, morat ćete izgovoriti ključnu frazu "Počnite slušati". To znači – „počni slušati“. Sada možete pokrenuti program koji vam je potreban i početi diktirati tekst.

Općenito, mogućnosti ovog alata su neiscrpne. Osim korištenja osnovnih naredbi, možete kreirati i vlastite.

Razvoj

Stvorene su mnoge aplikacije za prepoznavanje ruskog i engleskog govora:

"Diktograf 5";
"Perpetuum mobile";
Glas_PE;
Lucent;
VoiceType;
Sakrament.

Međutim, najpopularniji su bili:

"Gorynych";
Web govor;
RealSpeaker;
Speechka.

Pogledajmo ih pobliže.

"Gorynych"

Kao što naziv implicira, aplikaciju je izradio tim ruskih programera, a ime je dobila po liku iz ruske bajke po imenu Gorynych. Glasovna kontrola računala u njemu se vrši na ruskom jeziku, međutim, postoji i podrška za engleski. "Gorynych" vam omogućuje upravljanje osobnim računalom u korisničkom načinu rada, odnosno izvođenje svih mogućih radnji koje možete izvršiti mišem i tipkovnicom: rad s prozorima, aplikacijama, procesima koji se pokreću na osobnom računalu. Štoviše, "Gorynych" prepoznaje govor samo jednog vlasnika, ali ne uvijek.

Međutim, postoji jedan prilično veliki nedostatak. Činjenica je da morate ručno unijeti cijelu bazu naredbi. To jest, prije nego što možete učiniti bilo što na računalu sa svojim glasom, morate stvoriti cijelu bazu podataka s naredbama koje je snimio vaš glas. Čak i ako to učinite, ako odjednom postanete promukli ili se boja vašeg glasa čak i malo promijeni, "Gorynych" će vas potpuno odbiti razumjeti.

Još jedna zamka je da ako želite diktirati tekstove na računalu, prvo morate stvoriti ogroman rječnik za Gorynycha s dobrim rječnikom kako bi mogao razumjeti što diktirate.

Speechka

Aplikacije trećih strana instalirane na osobnom računalu mogu pomoći u tome. Jedna od njih je Speechka. Baš kao i "Gorynych", ruski proizvod stvoren na temelju Google tehnologija, "Match" omogućuje korisniku korištenje unaprijed određenog skupa naredbi za upravljanje računalom glasom. Speechka je prilično dobra u prepoznavanju bilo kojeg govora i nema potrebe za snimanjem zvučnih datoteka za to. Dovoljno je samo unijeti riječ s tipkovnice i povezati je s bilo kojom radnjom. Jednostavno rečeno, to je vrijedan proizvod, ali još uvijek u razvoju, jer su značajke poput zatvaranja prozora ili pokretanja programa dodane relativno nedavno.

Tipkanje

Nakon što smo shvatili što je glasovna kontrola računala, razmotrimo problem tipkanja. Kao što je spomenuto, ne dopuštaju vam sve aplikacije da ga proizvedete. U većini slučajeva za to morate prvo sastaviti cijeli rječnik, a ako ste korisnik Windows 8, tada se javlja i problem podrške ruskom govoru. Kako bi se riješio ovaj problem, postoji Googleova usluga glasovnog biranja.

Dostupna samo za preglednike Chrome, aplikacija Google Web Speech prepoznaje 32 vodeća svjetska jezika, uključujući ruski. Za glasovni unos teksta potreban vam je odgovarajući preglednik, internet i mikrofon. Razvoj je dovoljno napredovao, pa je ovaj uslužni program u stanju percipirati pismeni ruski govor cijelim riječima i prevesti ga u tiskani tekst.

Drugi program za prepoznavanje govora i njegovo diktiranje osobnom računalu je RealSpeaker. Koristi suvremene tehnologije za prepoznavanje izraza lica. Za njegovu upotrebu prikladna je apsolutno svaka web kamera. Jedina neugodnost koja nastaje tijekom rada je da lice zvučnika mora biti točno nasuprot kameri, na udaljenosti ne većoj od 40 centimetara. U ovom programu nalazi se rječnik ruskog jezika, koji korisnik može proširiti po želji. Općenito, ovaj program je mnogo prikladniji od Gorynycha.

Ishod

Ako razmišljate o glasovnoj kontroli računala, vjerujte mi, ovo još nije za Rusiju. Adekvatni programi za prepoznavanje trenutno postoje samo na engleskom jeziku, a automatsko kucanje glasom će sadržavati toliko pogrešaka da će biti lakše napisati tekst od nule nego ispraviti sve tipkarske pogreške. Možete, naravno, pokušati naučiti engleski i upravljati računalom na njemu, ali trebate savršenu dikciju i izgovor.

Jedan čovjek mi se obratio sa zahtjevom da napišem program koji bi omogućio upravljanje računalnim mišem njegovim glasom. Tada to nisam mogao ni zamisliti, gotovo potpuno paralizirana osoba koja ne može ni sama okrenuti glavu, već samo priča, sposobna je razvijati energičnu aktivnost, pomažući sebi i drugima da žive aktivnim životom, stječu nova znanja i vještine, rade i zarađivati, komunicirati s drugim ljudima diljem svijeta, sudjelovati u natjecanju društvenih projekata.

Dopustite mi da ovdje navedem nekoliko poveznica na stranice, čiji je autor i/ili idejni inspirator ova osoba - Alexander Makarchuk iz grada Borisova, Bjelorusija:

Za rad na računalu, Alexander je koristio program "Vocal Joystick", razvoj studenata Sveučilišta Washington, koji je financirala Nacionalna znanstvena zaklada (NSF). Vidi melodi.ee.washington.edu/vj

nisam mogao odoljeti

Inače, na web stranici sveučilišta (http://www.washington.edu/) 90% članaka je o novcu. Teško je pronaći bilo što o znanstvenom radu. Evo, na primjer, izvadaka s prve stranice: “Tom, diplomirani fakultet, jeo je gljive i jedva je plaćao stanarinu. Sada je viši menadžer IT tvrtke i posuđuje novac sveučilištu", "Bigi podaci pomažu beskućnicima", "Tvrtka se obvezala platiti 5 milijuna dolara za novu akademsku zgradu."

Boli li me samo oko?

Program je napravljen 2005-2009 i dobro je radio na Windows XP-u. U novijim verzijama sustava Windows program se može zamrznuti, što je neprihvatljivo za osobu koja ne može ustati sa stolice i ponovno ga pokrenuti. Stoga je program morao biti prerađen.

Izvornih tekstova nema, postoje samo pojedinačne publikacije koje otkrivaju tehnologije na kojima se temelji (MFCC, MLP – o tome čitajte u drugom dijelu).

Na sliku i priliku napisan je novi program (oko tri mjeseca).

Zapravo, možete vidjeti kako to radi:

Možete preuzeti program i/ili vidjeti izvorne kodove.

Ne morate izvoditi nikakve posebne korake da biste instalirali program, samo kliknite na njega i pokrenite ga. Jedina stvar, u nekim slučajevima je potrebno da se pokrene kao administrator (na primjer, kada radite s virtualnom tipkovnicom "Comfort Keys Pro"):

Možda je ovdje vrijedno spomenuti i druge stvari koje sam prethodno radio kako bih mogao kontrolirati računalo bez ruku.

Ako imate mogućnost okretanja glave, žiroskop na glavi dobra je alternativa eViacamu. Dobit ćete brzo i točno pozicioniranje kursora i neovisnost o osvjetljenju.

Ako možete pomicati samo zjenice očiju, onda možete koristiti gaze tracker i program za njega (može biti teško ako nosite naočale).

Dio II. Kako radi?

Iz objavljenog materijala o programu Vocal Joystick poznato je da radi na sljedeći način:

Rezanje audio toka u okvire od 25 milisekundi s preklapanjem od 10 milisekundi
Dobivanje 13 cepstralnih koeficijenata (MFCC) za svaki okvir
Provjera da se jedan od 6 memorisanih glasova (4 samoglasnika i 2 suglasnika) izgovara višeslojnim perceptronom (MLP)
Dovođenje pronađenih zvukova u pokret / klikove mišem

Prvi zadatak je izvanredan samo po tome što su za njegovo rješavanje u stvarnom vremenu u program morala biti unesena tri dodatna streama, jer se očitavanje podataka s mikrofona, obrada zvuka i reprodukcija zvuka preko zvučne kartice odvijaju asinkrono.

Potonji zadatak jednostavno se implementira pomoću funkcije SendInput.

Najzanimljiviji su, čini mi se, drugi i treći zadatak. Tako.

Problem broj 2. Dobivanje 13 cepstralnih koeficijenata

Ako netko nije u temi - glavni problem prepoznavanja zvukova od strane računala je sljedeći: teško je usporediti dva zvuka, budući da dva zvučna vala različita u obrisu mogu zvučati slično sa stajališta ljudske percepcije.

A među onima koji se bave prepoznavanjem govora, traži se "kamen filozofa" - skup značajki koje bi nedvosmisleno klasificirale zvučni val.

Od onih znakova koji su dostupni široj javnosti i opisani u udžbenicima, najčešći su takozvani kepstralni koeficijenti frekvencije krede (MFCC).

Njihova je povijest takva da su u početku bili namijenjeni za nešto sasvim drugo, naime, za suzbijanje odjeka u signalu (informativni članak na ovu temu napisali su uvaženi Oppenheim i Schafer, neka radost bude u domovima ovih plemenitih ljudi. Vidi AV Oppenheim i RW Schafer, “Od frekvencije do kvefrencije: Povijest Cepstruma”).

Ali osoba je dizajnirana na takav način da je sklona bolje koristiti ono što joj je poznato. A oni koji su se bavili govornim signalima došli su na ideju da koriste gotov kompaktni prikaz signala u obliku MFCC-a. Pokazalo se da, općenito, djeluje. (Moj prijatelj, stručnjak za ventilacijske sustave, kada sam ga pitao kako napraviti ljetnu kućicu, predložio je korištenje ventilacijskih kanala. Jednostavno zato što ih je poznavao bolje od ostalih građevinskih materijala).

Jesu li MFCC-i dobar klasifikator zvukova? ne bih rekao. Isti zvuk, koji ja izgovaram u različitim mikrofonima, spada u različite regije prostora MFCC koeficijenata, a idealan klasifikator bi ih nacrtao jedan pored drugog. Stoga, posebno, kada mijenjate mikrofon, morate ponovno naučiti program.

Ovo je samo jedna od projekcija 13-dimenzionalnog prostora MFCC-a u 3-dimenzionalni, ali pokazuje na što mislim - crvene, ljubičaste i plave točkice se dobivaju iz različitih mikrofona: (Plantronix, ugrađeni mikrofonski niz, Jabra), ali zvuk se izgovarao sam.

No, kako ne mogu ponuditi ništa bolje, upotrijebit ću i standardnu tehniku - izračunavanje MFCC koeficijenata.

Kako se ne bi pogriješili u implementaciji, u prvim verzijama programa kao osnova je korišten kod iz poznatog CMU Sphinx programa, točnije njegova implementacija u C, nazvana pocketsphinx, razvijena na Sveučilištu Carnegie Mellon (mir s obojicom! (C) Hottabych ).

Izvorni kodovi pocketsphinxa su otvorenog koda, ali loša sreća - ako ih koristite, morate napisati tekst u svom programu (i u izvornom kodu i u izvršnom modulu) koji između ostalog sadrži sljedeće:

* Ovaj rad je djelomično podržan financiranjem Agencije za napredne obrambene * istraživačke projekte i Nacionalne znanstvene zaklade * Sjedinjenih Američkih Država i Konzorcija za govor CMU Sphinx.
To mi se činilo neprihvatljivim i morao sam ponovno napisati kod. To je utjecalo na izvedbu programa (usput rečeno, na bolje, iako je "čitljivost" koda donekle patila). Uglavnom zahvaljujući korištenju knjižnica "Intel Performance Primitives", ali sam također optimizirao nekoliko stvari, poput MEL filtera. Ipak, provjera testnih podataka pokazala je da su dobiveni MFCC koeficijenti potpuno slični onima dobivenim, na primjer, pomoću uslužnog programa sphinx_fe.

U programima sphinxbase, MFCC koeficijenti se izračunavaju u sljedećim koracima:

Korak	Funkcija Sphinxbase	Bit operacije
1	fe_pre_emphasis	Većina prethodnog brojanja oduzima se od trenutnog uzorka (na primjer, 0,97 od njegove vrijednosti). Primitivni niskopropusni filtar.
2	fe_hamming_window	Hammingov prozor - uvodi blijeđenje na početku i na kraju kadra
3	fe_fft_real	Brza Fourierova transformacija
4	fe_spec2magnitude	Iz normalnog spektra dobivamo spektar snage, gubi fazu
5	fe_mel_spec	Grupiramo frekvencije spektra [na primjer, 256 komada] u 40 hrpa koristeći MEL ljestvicu i težinske faktore
6	fe_mel_cep	Uzmite logaritam i primijenite DCT2 transformaciju na 40 vrijednosti iz prethodnog koraka. Ostavite prvih 13 vrijednosti u rezultatu. Postoji nekoliko varijanti DCT2 (HTK, legacy, classic), koje se razlikuju po konstanti kojom dijelimo dobivene koeficijente, te posebnoj konstanti za nulti koeficijent. Možete odabrati bilo koju opciju, to neće promijeniti bit.

Ovi koraci također uključuju funkcije koje vam omogućuju da odvojite signal od buke i od tišine, kao što su fe_track_snr, fe_vad_hangover, ali nam ne trebaju i neće nas ometati.

Napravljene su sljedeće zamjene za korake za dobivanje MFCC koeficijenata:

Problem broj 3. Provjera izgovara li se jedan od 6 memorisanih zvukova

Izvorni program "Vocal Joystick" koristio je višeslojni perceptron (MLP) za klasifikaciju - neuronsku mrežu bez novonastalih zvona i zviždaljki.

Pogledajmo koliko je ovdje opravdana upotreba neuronske mreže.

Prisjetimo se što neuroni rade u umjetnim neuronskim mrežama.

Ako neuron ima N ulaza, tada neuron dijeli N-dimenzionalni prostor na pola. Rezovi s hiperravninom bekhendom. Pritom u jednoj polovici prostora radi (daje pozitivan odgovor), au drugoj polovici ne radi.

Pogledajmo [praktički] najjednostavniju opciju - neuron s dva ulaza. On će prirodno prepoloviti dvodimenzionalni prostor.

Vrijednosti X1 i X2 neka se unose na ulaz, koje neuron množi s težinskim koeficijentima W1 i W2 i dodaje slobodni član C.

Ukupno, na izlazu neurona (označavamo ga kao Y) dobivamo:

Y = X1 * W1 + X2 * W2 + C

(za sada izostavimo suptilnosti o sigmoidnim funkcijama)

Pretpostavljamo da se neuron aktivira kada je Y> 0. Ravna linija dana jednadžbom 0 = X1 * W1 + X2 * W2 + C samo dijeli prostor na dio gdje je Y> 0 i dio gdje je Y<0.

Ilustrirajmo ono što je rečeno konkretnim brojkama.

Neka je W1 = 1, W2 = 1, C = -5;

Sada da vidimo kako možemo organizirati neuronsku mrežu koja bi radila na određenom području prostora, relativno govoreći - točki, a ne bi radila na svim drugim mjestima.

Iz slike se vidi da su nam za ocrtavanje područja u dvodimenzionalnom prostoru potrebne najmanje 3 ravne linije, odnosno 3 neurona povezana s njima.

Povezat ćemo ova tri neurona zajedno pomoću još jednog sloja, čime ćemo dobiti višeslojnu neuronsku mrežu (MLP).

A ako nam je potrebna neuronska mreža da radi u dvije regije prostora, onda su nam potrebna još najmanje tri neurona (4,5,6 na slikama):

I ovdje ne možete bez trećeg sloja:

A treći sloj je gotovo duboko učenje...

Sada se okrenimo drugom primjeru za pomoć. Neka naša neuronska mreža proizvede pozitivan odgovor na crvene točke, a negativan - na plave točke.

Kada bi me zamolili da odsiječem crvenu od plave ravnim linijama, onda bih to učinio otprilike ovako:

Ali neuronska mreža a priori ne zna koliko će joj ravnih linija (neurona) trebati. Ovaj parametar se mora postaviti prije obuke mreže. A osoba to čini na temelju ... intuicije ili pokušaja i pogrešaka.

Ako odaberemo premalo neurona u prvom sloju (na primjer, tri), onda možemo dobiti takav rez koji će dati puno pogrešaka (pogrešno područje je zasjenjeno):

Ali čak i ako je broj neurona dovoljan, kao rezultat treninga, mreža se možda neće "konvergirati", odnosno doseći određeno stabilno stanje, daleko od optimalnog, kada je postotak pogrešaka visok. Kao i ovdje, gornja prečka se smjestila na dvije grbe i neće ih nigdje ostaviti. A ispod je veliko područje koje stvara pogreške:

Opet, mogućnost takvih slučajeva ovisi o početnim uvjetima treninga i redoslijedu treninga, odnosno o slučajnim čimbenicima:

- Što mislite da će taj kotač stići, ako se dogodi, do Moskve ili ne?
- Što mislite, hoće li se neuronska mreža enta konvergirati ili ne?

Postoji još jedan neugodan trenutak vezan uz neuronske mreže. Njihova "zaboravnost".

Ako mreže počnete hraniti samo plavim točkicama, a prestanete hraniti crvene, ona može mirno za sebe zgrabiti komadić crvenog područja, pomičući svoje granice tamo:

Ako neuronske mreže imaju toliko nedostataka, a osoba može povući granice mnogo učinkovitije od neuronske mreže, zašto ih uopće koristiti?

I postoji jedan mali, ali vrlo važan detalj.

Mogu vrlo dobro odvojiti crveno srce od plave pozadine po segmentima u dvodimenzionalnom prostoru.

Mogu dobro odvojiti ravnine kipa Venere od okolnog trodimenzionalnog prostora.

Ali u četverodimenzionalnom prostoru ne mogu ništa učiniti, oprosti. A još više u 13-dimenzionalnoj.

Ali za neuronsku mrežu dimenzija prostora nije prepreka. Smijao sam joj se u niskodimenzionalnim prostorima, ali čim sam otišao dalje od uobičajenog, lako me je dobila.

Ipak, još uvijek je otvoreno pitanje - koliko je opravdana uporaba neuronske mreže u ovom konkretnom zadatku, s obzirom na gore navedene nedostatke neuronskih mreža.

Zaboravimo na sekundu da su naši MFCC koeficijenti u 13-dimenzionalnom prostoru i zamislimo da su dvodimenzionalni, odnosno točke na ravnini. Kako bi se onda jedan zvuk mogao odvojiti od drugog?

Neka MFCC točke zvuka 1 imaju standardnu devijaciju R1, što [otprilike] znači da su točke koje ne odstupaju previše od srednje vrijednosti, najkarakterističnije točke, unutar kruga s polumjerom R1. Isto tako, točke kojima vjerujemo za zvuk 2 nalaze se unutar kruga polumjera R2.

Pažnja, pitanje: gdje povući ravnu liniju koja bi najbolje odvojila zvuk 1 od zvuka 2?

Odgovor se nameće sam od sebe: u sredini između granica krugova. Ima li primjedbi? Nema prigovora.
Ispravak: U programu ova granica dijeli segment koji povezuje središta kružnica u omjeru R1: R2, pa je točnije.

I na kraju, ne zaboravimo da negdje u svemiru postoji točka koja je prikaz potpune tišine u MFCC prostoru. Ne, ovo nije 13 nula, kako se čini. Ovo je jedna točka koja ne može imati standardnu devijaciju. A ravne linije kojima smo ga odsjekli od naša tri zvuka mogu se povući izravno duž granica krugova:

Na donjoj slici svaki zvuk odgovara komadu prostora svoje boje, a uvijek možemo reći kojem zvuku pripada ova ili ona točka u prostoru (ili se ne odnosi ni na jednu):

Pa dobro, sad se prisjetimo da je prostor 13-dimenzionalan, a ono što je bilo dobro nacrtati na papiru, sada se ispostavilo da je nešto što ne staje u ljudski mozak.

Tako, ali nije tako. Srećom, u prostoru bilo koje dimenzije ostaju pojmovi kao što su točka, pravac, [hiper] ravnina, [hiper] sfera.

Ponavljamo sve iste radnje u 13-dimenzionalnom prostoru: pronađemo varijansu, odredimo polumjere [hiper] sfera, povežemo njihova središta ravnom linijom, presiječemo je [hiper] ravninom u točki jednako udaljenoj od granice [hiper] sfera.

Nijedna neuronska mreža ne može ispravnije odvojiti jedan zvuk od drugog.

Ovdje, međutim, treba napraviti rezervaciju. Sve je to točno ako je informacija o zvuku oblak točaka koje u svim smjerovima jednako odstupaju od srednje vrijednosti, odnosno dobro se uklapa u hipersferu. Da je ovaj oblak lik složenog oblika, na primjer, 13-dimenzionalna zakrivljena kobasica, onda sva gornja razmišljanja ne bi bila točna. A možda bi, uz pravi trening, neuronska mreža ovdje mogla pokazati svoje prednosti.

Ali ne bih riskirao. A ja bih koristio, na primjer, skupove normalnih distribucija (GMM), (što se, inače, radi u CMU Sphinxu). Uvijek je ljepše kada shvatite koji je algoritam doveo do rezultata. A ne kao u neuronskoj mreži: Oracle, na temelju svojih mnogo sati kuhanja juhe iz podataka o obuci, naređuje vam da odlučite da je traženi zvuk zvuk #3. (Posebno me nervira kada pokušavaju povjeriti upravljanje automobilom neuronskoj mreži. Kako onda, u nestandardnoj situaciji, razumjeti zašto je auto skrenuo lijevo, a ne desno? Zapovjedio je Svemogući Neuron?).

Ali skupovi normalnih distribucija već su zasebna velika tema, što je izvan dosega ovog članka.

Nadam se da vam je ovaj članak bio od pomoći i/ili da je vaš gyrus škripao.

Pregled programa za glasovno upravljanje računalom

U članku koji slijedi razmatrat će se pitanje glasovnog upravljanja računalom i dati kratak opis popularnih programa namijenjenih ovom procesu. Dakle, riječ u nazivu "glas" mora se shvatiti doslovno - sposobnost rada s računalom, odnosno davanje / izvršavanje poznatih naredbi / radnji koristeći svoj glas, a ne uobičajene atribute - miš, tipkovnica. Na primjer, raditi s paketom uredskih aplikacija - izgovoriti tekst, prepoznati govor i reproducirati ga u obliku teksta u odabranoj aplikaciji.

Gorynych

Najtestiraniji i najstariji softver (program) je Dragon NaturallySpeaking (u daljnjem tekstu Gorynych). Vremenski testiran i maksimalno poboljšan tijekom svog postojanja, Gorynych program verzije iz 2010. pruža precizno prepoznavanje govora od 99%. Vrlo jednostavan i lak za korištenje softver, radi sa svim uredskim programskim paketima, može pomoći u kreiranju i uređivanju tekstova, tablica i baza podataka. Pomoću programa možete pretraživati Internet i svoje računalo (glasovne oznake), slati e-poštu i trenutne poruke/poruke. Odličan pomoćnik za male tvrtke. Zna izvršiti naredbe za otvaranje i reprodukciju datoteka i tako dalje. Ali postoji jedno upozorenje preuzmite Gorynych program za glasovnu kontrolu računala možete samo platiti i postoji jedno "ali". Nakon instalacije, program koristi njemački jezik, a njegova promjena u ruski zahtijevat će određeni napor od strane korisnika.

Tip premium

Nema manje vrijednih na ruskom, njegovo ime zvuči kao Typle Premium. Ovaj softver ima intuitivnije i jednostavnije sučelje. Njegova prednost uglavnom leži u mogućnosti snimanja puno glasovnih naredbi. Prepoznavanje glasa - 99%. Na primjer, korisnik želi ponovno pogledati svoj omiljeni film, njegov zadatak je napraviti zapis u Typle Premium nešto poput "Pusti film" *** ". Savršeno je kompatibilan glasovno upravljanje računalom windows xp - operativni sustav.

Inteligentni sustav za prepoznavanje glasa

Program je nešto skromniji od prethodna dva zove se - Inteligentni sustav za prepoznavanje glasa (IVOS)... Možete ga pokušati besplatno preuzeti (početne verzije) na Internetu. Program je potpuno kompatibilan sa sustavom Windows, može pretvoriti i prepoznati glas vlasnika. Također omogućuje snimanje dodatnih naredbi za rad s otvaranjem dokumenata. Inteligentni sustav za prepoznavanje glasa (IVOS) ima glasovne mehanizme koji će korisniku omogućiti sinkronizaciju elektroničkih udžbenika. Intuitivno i vjerno sučelje. Zgodan je i jednostavan za korištenje, ali je definitivno daleko od mogućnosti prva dva programa.

Postoji još mnogo sličnih programa za upravljanje računalima i mobilnim uređajima. Tržište nudi i plaćene i besplatne opcije. Međutim, ako korisnik namjerava koristiti program u ozbiljnom radu, vrijedi dati prednost plaćenom softveru s podrškom za razvojne programere.

Glasovna kontrola Windows 10 računala. Najjednostavnija kontrola računala pomoću vašeg glasa

Cortana

Tip

Zvučnik

Gorynych

Posljednje stoljeće

Ugrađeni uslužni programi

Razvoj

"Gorynych"

Speechka

Tipkanje

Ishod

Dio II. Kako radi?

Problem broj 2. Dobivanje 13 cepstralnih koeficijenata

Problem broj 3. Provjera izgovara li se jedan od 6 memorisanih zvukova

Pregled programa za glasovno upravljanje računalom

Gorynych

Tip premium

Inteligentni sustav za prepoznavanje glasa

Vrhunski povezani članci