Kontrolli zanor i kompjuterit Windows 10. Kontrolli më i thjeshtë i një kompjuteri duke përdorur zërin tuaj

30.06.2019 Televizionet (Smart TV)

Edhe para lëshimit të ndërfaqes Cortana për Windows 10, e cila është në zhvillim, testim dhe korrigjim, përdoruesit u përpoqën të organizonin kontrollin zanor të kompjuterit. Si mund të zbatohet një funksion i tillë në Windows që doli para 10 do të diskutohet në artikullin e sotëm.

Cortana

Cortana është një asistent zëri me AI i zhvilluar nga Microsoft për Windows 10, Phone dhe Android, me zgjerim të mëtejshëm në XBox dhe iOS. Ai zëvendëson vargun klasik të kërkimit dhe kryen shumë veprime, të lidhura kryesisht me kërkimin e informacionit dhe komandat e sistemit, duke i marrë ato nga përdoruesi në formën e komandave zanore. Integrimi i thellë në Windows 10, mungesa e gjuhës ruse (deri më tani), mbledhja e pothuajse të gjitha informacioneve rreth përdoruesit të dërguara në serverët e Microsoft dhe mungesa e versionit përfundimtar nuk lejojnë shumicën e përdoruesve të marrin kontrollin e plotë të zërit të tyre. kompjuter.

Përveç Cortana-s, ka shumë aplikacione që ju lejojnë të kontrolloni kompjuterin tuaj përmes komandave zanore të përdoruesit. Le të hedhim një vështrim në produktet më të zakonshme për zgjidhjen e këtij problemi në Windows 7 dhe 10.

Lloji

Aplikacioni zë një pozitë udhëheqëse midis përdoruesve që flasin rusisht që duan të komandojnë një kompjuter përmes zërit të tyre. Shërbimi do të zëvendësojë lehtësisht një pjesë të konsiderueshme të funksioneve të Cortana në Windows 10, dhe në "shtatë" do të shtojë një funksion që shfaqet shpesh në filma ku njerëzit kontrollojnë kompjuterët duke përdorur zërin e tyre.

Para fillimit të punës, krijoni një llogari dhe dilni me një frazë kyçe, pasi të dëgjoni se cili aplikacion aktivizohet. Pastaj vendosim një komandë zanore për të kontrolluar kompjuterin ose për të kryer një veprim të caktuar dhe caktojmë operacionin tek ai (hapja e aplikacionit, shkuarja në sitin e specifikuar). Në dritaren për redaktimin e komandave të krijuara, bëhet e mundur të vendosni parametrat me të cilët do të hapet aplikacioni dhe të specifikoni mënyrën e nisjes (ekrani i plotë, me dritare).

Funksionaliteti i mjetit është shumë i kufizuar dhe ndërfaqja është larg nga stili Metro i zbatuar në Windows 10. Kontrolli i plotë i zërit të PC nëpërmjet Typle nuk mund të zbatohet: ai mbështet vetëm hapjen e skedarëve, aplikacioneve (me argumente) dhe ndjekjen e lidhjeve të paracaktuara. Nuk ka as mbështetje për kontrollin e luajtësit (pauzë, filloni këngën tjetër).

Folësi

marrja e pamjeve të ekranit të gjendjes së ekranit;
ndërrimi i paraqitjeve të tastierës;
mbyllja e Windows 7;
nisja e aplikacionit;
hapja e një skedari.

Procesi i leximit dhe njohjes së informacionit që vjen në mikrofon fillon pasi të shtypni tastin e specifikuar (është më mirë të zgjidhni butonin që përdorni më së paku rrallë për të shmangur alarmet e rreme të programit). Duhet shumë kohë për të përpunuar, për të njohur fjalimin dhe për të ekzekutuar një komandë - 5 ose më shumë sekonda sesa duhet të paguani për çmimin e lirë. Fjalët kyçe përcaktohen me tekst, jo me fjalë, kështu që fjalimi i njohur krahasohet me tekstin e futur, i cili është larg idealit. Nuk ka asnjë kontroll lojtari në aplikacion.

Gorynych

Zhvilluesit e një pakete softuerike për menaxhimin e një kompjuteri me Windows 7 dhe 10 janë ekipi i parë rus që lëshon një aplikacion për zgjidhjen e problemeve të tilla. Western "Dragon Dictate" u mor si thelbi i aplikacionit, ku u prezantua një modul softuerësh vendas për njohjen e të folurit rus.

Më shpesh, kur punojmë në një kompjuter personal, duhet të shtypim tekste të mëdha. Të ulur drejtpërdrejt përballë monitorit, ne humbim shumë kohë, megjithëse mund të bënim disa punë shtëpie.

Shekullin e kaluar

Le të kuptojmë se çfarë është kontrolli zanor i kompjuterit. Le të bëjmë një analogji. Më parë, madje edhe tani, një mënyrë shumë e zakonshme për të "liruar duart" nga kompjuteri gjatë punës ishte të punësoje një punonjës tjetër - një stenograf ose sekretar. Sidoqoftë, pak njerëz e dinë që mund të shmangni shpenzimet e panevojshme duke instaluar në një kompjuter personal një numër programesh dhe shërbimesh që lejojnë kontrollin zanor të një kompjuteri në Rusisht.

Me ardhjen e produkteve të tilla softuerike si "Gorynych" dhe WebSpeach, mund të harroni se sa kohë ju është dashur të uleni dhe të shkruani ndonjë punë, për shembull, një diplomë, porosi ose ndonjë dokumentacion tjetër. Me zhvillimin e teknologjisë kompjuterike, u shfaq mundësia e përdorimit të një programi të veçantë për njohjen e të folurit.

Shërbimet e integruara

Kontrolli zanor i një kompjuteri Windows 8 kryhet duke përdorur mjetin e integruar të Windows Speech Recognition. Fatkeqësisht, për momentin nuk është e mundur të kontrollosh një kompjuter në Rusisht. Microsoft, me sa duket, po përpiqet të fokusohet në gjuhët më të zakonshme, por është e mundur që mbështetja për gjuhën ruse të lëshohet së shpejti.

Nëse ende dëshironi të përpiqeni të menaxhoni mikun tuaj të hekurt duke përdorur anglisht, ndiqni udhëzimet vijuese.

Shkoni te paneli i kontrollit në nën-artikullin "Gjuha". Ju duhet të vendosni gjuhën e sistemit - anglisht. Nëse nuk e keni atë, atëherë do t'ju duhet të shkarkoni paketën e duhur të gjuhës.
Pas shkarkimit dhe instalimit të gjuhës, shkoni në ekranin fillestar me një "tjegull".
Kërkoni për Njohjen e të folurit të Windows dhe shtypni Enter. Kjo nis programin e njohjes së zërit.
Në nisjen e parë, do t'ju kërkohet të konfiguroni mikrofonin tuaj. Zgjidhni varietetin tuaj dhe thoni disa fjalë.
Më pas do t'ju ofrohet një tutorial prej 20 minutash. Ai kryhet në anglisht, kështu që nëse nuk e kuptoni gjuhën, mund ta kaloni me siguri. Ndërfaqja e programit është absolutisht e qartë, kështu që edhe një fëmijë mund ta kuptojë atë.
Për të aktivizuar kontrollin zanor në kompjuterin tuaj, do t'ju duhet të thoni frazën kryesore "Filloni të dëgjoni". Kjo do të thotë - "filloni të dëgjoni". Tani mund të nisni programin që ju nevojitet dhe të filloni të diktoni tekstin.

Në përgjithësi, mundësitë e këtij shërbimi janë të pashtershme. Përveç përdorimit të komandave bazë, mund të krijoni edhe tuajat.

Zhvillimi

Janë krijuar shumë aplikacione për njohjen e të folurit në rusisht dhe anglisht:

“Diktografi 5”;
"Perpetuum mobile";
Voice_PE;
Lucent;
Lloji i zërit;
Sakramenti.

Sidoqoftë, më të njohurit ishin:

"Gorynych";
Fjalim në ueb;
RealSpeaker;
Fjalimi.

Le t'i hedhim një vështrim më të afërt në to.

"Gorynych"

Siç nënkupton edhe emri, aplikacioni u krijua nga një ekip programuesish rusë dhe u emërua sipas një personazhi përrallor rus të quajtur Gorynych. Kontrolli zanor i kompjuterit në të kryhet në Rusisht, megjithatë, ekziston edhe mbështetje për anglisht. "Gorynych" ju lejon të kontrolloni një kompjuter personal në modalitetin e përdoruesit, domethënë të kryeni të gjitha veprimet e mundshme që mund të kryeni me miun dhe tastierën: të punoni me dritare, aplikacione, procese që funksionojnë në një kompjuter personal. Për më tepër, "Gorynych" njeh fjalimin e vetëm një pronari, por jo gjithmonë.

Megjithatë, ka një pengesë mjaft të madhe. Fakti është se ju duhet të futni manualisht të gjithë bazën e komandës. Kjo do të thotë, përpara se të mund të bëni diçka në kompjuter me zërin tuaj, duhet të krijoni një bazë të dhënash të tërë me komandat e regjistruara nga zëri juaj. Edhe nëse e bëni këtë, nëse befas bëheni të ngjirur ose timbri i zërit tuaj ndryshon qoftë edhe pak, "Gorynych" do të refuzojë plotësisht t'ju kuptojë.

Një kurth tjetër është se nëse doni të diktoni tekste në një kompjuter, së pari duhet të krijoni një fjalor të madh për Gorynych me një fjalor të mirë, në mënyrë që ai të kuptojë se çfarë diktoni.

Fjalimi

Aplikacionet e palëve të treta të instaluara në një kompjuter personal mund të ndihmojnë në sigurimin e kësaj. Një prej tyre është Speechka. Ashtu si "Gorynych", një produkt rus i krijuar në bazë të teknologjive të Google, "Match" i lejon përdoruesit të përdorë një grup të paracaktuar komandash për të kontrolluar kompjuterin me zë. Speechka është mjaft e mirë në njohjen e çdo fjalimi dhe nuk ka nevojë të regjistroni skedarë zanor për të. Mjafton vetëm të futni një fjalë nga tastiera dhe ta lidhni atë me ndonjë veprim. Me fjalë të thjeshta, është një produkt i denjë, por ende në zhvillim, pasi karakteristika të tilla si mbyllja e dritareve ose nisja e programeve janë shtuar relativisht kohët e fundit.

Duke shtypur

Pasi të kemi kuptuar se çfarë është kontrolli zanor i një kompjuteri, le të shqyrtojmë problemin e shtypjes. Siç u përmend, jo të gjitha aplikacionet ju lejojnë ta prodhoni atë. Në shumicën e rasteve, për këtë, së pari duhet të hartoni një fjalor të tërë, dhe nëse jeni përdorues i Windows 8, atëherë lind edhe problemi i mbështetjes së fjalimit rus. Për të zgjidhur këtë problem, ekziston një shërbim i telefonimit zanor i krijuar nga Google.

I disponueshëm vetëm për shfletuesit Chrome, aplikacioni Google Web Speech njeh 32 gjuhë kryesore botërore, përfshirë rusishten. Për të futur tekst me zë, ju nevojitet një shfletues, internet dhe mikrofon i përshtatshëm. Zhvillimet kanë përparuar mjaftueshëm, kështu që ky mjet është në gjendje të perceptojë të folurën e shkolluar ruse me fjalë të tëra dhe ta përkthejë atë në tekst të shtypur.

Një program tjetër për njohjen e të folurit dhe diktimin e tij në një kompjuter personal është RealSpeaker. Ajo përdor teknologji moderne për njohjen e shprehjeve të fytyrës. Për ta përdorur atë, absolutisht çdo kamera në internet është e përshtatshme. I vetmi shqetësim që lind gjatë punës është se fytyra e folësit duhet të jetë pikërisht përballë kamerës, në një distancë prej jo më shumë se 40 centimetra. Në këtë program ekziston një fjalor i gjuhës ruse, të cilin përdoruesi mund ta zgjerojë nëse dëshiron. Në përgjithësi, ky program është shumë më i përshtatshëm se Gorynych.

Rezultati

Nëse po mendoni për kontrollin e zërit të kompjuterit, më besoni, kjo nuk është ende për Rusinë. Programet adekuate të njohjes ekzistojnë aktualisht vetëm në anglisht dhe shtypja automatike e zërit do të përmbajë aq shumë gabime sa do të jetë më e lehtë të shkruhet teksti nga e para se sa të korrigjohen të gjitha gabimet. Sigurisht, mund të përpiqeni të mësoni anglisht dhe të përdorni një kompjuter në të, por keni nevojë për diksion dhe shqiptim të përsosur.

Një burrë m'u afrua me një kërkesë për të shkruar një program që do të lejonte kontrollin e një miu kompjuterik duke përdorur zërin e tij. Atëherë as që mund ta imagjinoja që një person pothuajse plotësisht i paralizuar që nuk mund të kthejë as kokën, por mund të flasë vetëm, është në gjendje të zhvillojë aktivitet të fuqishëm, duke ndihmuar veten dhe të tjerët të bëjnë një jetë aktive, të fitojnë njohuri dhe aftësi të reja, të punojnë. dhe fitoni, komunikoni me njerëz të tjerë në mbarë botën, merrni pjesë në konkursin e projekteve sociale.

Më lejoni të citoj këtu disa lidhje me faqet, autori dhe / ose frymëzuesi ideologjik i të cilit është ky person - Alexander Makarchuk nga qyteti i Borisov, Bjellorusi:

Për të punuar në kompjuter, Aleksandri përdori programin "Vocal Joystick", një zhvillim nga studentët e Universitetit të Uashingtonit, i financuar nga Fondacioni Kombëtar i Shkencës (NSF). Shih melodi.ee.washington.edu/vj

Nuk munda të rezistoja

Meqë ra fjala, në faqen e universitetit (http://www.washington.edu/) 90% e artikujve kanë të bëjnë me paratë. Është e vështirë të gjesh diçka për punën shkencore. Ja, për shembull, pjesë nga faqja e parë: “Tom, i diplomuar në universitet, hante kërpudha dhe mezi paguante qiranë. Tani ai është një menaxher i lartë i një kompanie IT dhe i jep hua universitetit "," Big Data ndihmon të pastrehët "," Kompania është zotuar të paguajë 5 milionë dollarë për një ndërtesë të re akademike.

A më dhemb syri vetëm?

Programi u krijua në 2005-2009 dhe funksionoi mirë në Windows XP. Në versionet më të fundit të Windows, programi mund të ngrijë, gjë që është e papranueshme për një person që nuk mund të ngrihet nga një karrige dhe ta rifillojë atë. Prandaj, programi duhej të ripërpunohej.

Nuk ka tekste burimore, ka vetëm botime individuale që zbulojnë teknologjitë në të cilat bazohet (MFCC, MLP - lexoni për këtë në pjesën e dytë).

Një program i ri u shkrua në imazh dhe ngjashmëri (rreth tre muaj).

Në fakt, ju mund të shihni se si funksionon:

Mund ta shkarkoni programin dhe/ose të shihni kodet burimore.

Ju nuk keni nevojë të kryeni ndonjë hap të veçantë për të instaluar programin, thjesht klikoni mbi të dhe niseni atë. E vetmja gjë, në disa raste kërkohet që të lansohet si administrator (për shembull, kur punoni me tastierën virtuale "Comfort Keys Pro"):

Ndoshta, vlen të përmend këtu dhe për gjëra të tjera që kam bërë më parë për të kontrolluar kompjuterin pa duar.

Nëse keni aftësinë për të kthyer kokën, një xhiroskop i montuar në kokë është një alternativë e mirë për eViacam. Do të merrni pozicionimin e shpejtë dhe të saktë të kursorit dhe pavarësinë e ndriçimit.

Nëse mund të lëvizni vetëm bebëzat e syve, atëherë mund të përdorni gjurmuesin e shikimit dhe programin për të (mund të jetë e vështirë nëse mbani syze).

Pjesa II. Si punon?

Nga materiali i publikuar në lidhje me programin Vocal Joystick dihej se funksionon si më poshtë:

Prerja e një transmetimi audio në korniza 25 milisekonda me një mbivendosje prej 10 milisekonda
Marrja e 13 koeficientëve cepstral (MFCC) për çdo kornizë
Kontrollimi nëse një nga 6 tingujt e memorizuar (4 zanore dhe 2 bashkëtingëllore) shqiptohet me perceptron shumështresor (MLP)
Sjellja e tingujve të gjetur në lëvizje / klikime të miut

Detyra e parë është e jashtëzakonshme vetëm në atë që për ta zgjidhur atë në kohë reale, duhej të futeshin në program tre transmetime shtesë, pasi leximi i të dhënave nga mikrofoni, përpunimi i zërit dhe riprodhimi i zërit përmes kartës së zërit ndodhin në mënyrë asinkrone.

Detyra e fundit thjesht zbatohet duke përdorur funksionin SendInput.

Më interesante, më duket, janë detyrat e dyta dhe të treta. Kështu që.

Problemi numër 2. Marrja e 13 koeficientëve cepstral

Nëse dikush nuk është në temë - problemi kryesor i njohjes së tingujve nga një kompjuter është si vijon: është e vështirë të krahasohen dy tinguj, pasi dy valë zanore që nuk janë të ngjashme në skicë mund të tingëllojnë të ngjashme nga pikëpamja e perceptimit njerëzor.

Dhe në mesin e atyre që janë të angazhuar në njohjen e të folurit, ekziston një kërkim për një "gur filozofik" - një grup karakteristikash që do të klasifikonin pa mëdyshje një valë zanore.

Nga ato shenja që janë të disponueshme për publikun e gjerë dhe të përshkruara në tekstet shkollore, më të zakonshmet janë të ashtuquajturat koeficientë cepstral me frekuencë shkumës (MFCC).

Historia e tyre është e tillë që fillimisht ata kishin për qëllim diçka krejtësisht të ndryshme, domethënë, për të shtypur jehonën në sinjal (një artikull informues për këtë temë u shkrua nga të respektuarit Oppenheim dhe Schafer, gëzimi qoftë në shtëpitë e këtyre burrave fisnikë. Shih AV Oppenheim dhe RW Schafer, "Nga Frekuenca në Kuefrencë: Një Histori e Cepstrum").

Por një person është krijuar në atë mënyrë që të jetë i prirur të përdorë më mirë atë që është e njohur për të. Dhe ata që merren me sinjalet e të folurit dolën me idenë për të përdorur një paraqitje kompakte të gatshme të sinjalit në formën e MFCC. Doli që, në përgjithësi, funksionon. (Një miku im, specialist në sistemet e ventilimit, kur e pyeta se si të bënim një vilë, më sugjeroi përdorimin e kanaleve të ventilimit. Thjesht sepse i njihte më mirë se materialet e tjera të ndërtimit).

A janë MFCC-të një klasifikues i mirë për tingujt? nuk do të thosha. I njëjti tingull, i shqiptuar nga unë në mikrofona të ndryshëm, bie në rajone të ndryshme të hapësirës së koeficientëve MFCC dhe një klasifikues ideal do t'i vizatonte ato krah për krah. Prandaj, në veçanti, kur ndryshoni mikrofonin, duhet të rimësoni programin.

Ky është vetëm një nga projeksionet e hapësirës 13-dimensionale MFCC në 3-dimensionale, por tregon se çfarë dua të them - pikat e kuqe, vjollcë dhe blu janë marrë nga mikrofona të ndryshëm: (Plantronix, grup i integruar i mikrofonit, Jabra), por tingulli shqiptohej vetëm.

Megjithatë, meqenëse nuk mund të ofroj asgjë më të mirë, do të përdor edhe teknikën standarde - llogaritjen e koeficientëve MFCC.

Për të mos u gabuar në zbatim, në versionet e para të programit u përdor si bazë kodi nga programi i njohur CMU Sphinx, më saktë zbatimi i tij në C, i quajtur pocketsphinx, i zhvilluar në Universitetin Carnegie Mellon. (paqe me të dy! (C) Hottabych ).

Kodet burimore të pocketsphinx janë me burim të hapur, por fat i keq - nëse i përdorni, duhet të shkruani tekst në programin tuaj (si në kodin burim ashtu edhe në modulin e ekzekutueshëm) që përmban, ndër të tjera, sa vijon:

* Kjo punë u mbështet pjesërisht nga financimi nga Agjencia e Projekteve Kërkimore të Avancuara * Mbrojtjes dhe Fondacioni Kombëtar i Shkencës * Shtetet e Bashkuara të Amerikës, dhe Konsorciumi CMU Sphinx Speech.
Kjo më dukej e papranueshme dhe më duhej ta rishkruaja kodin. Kjo ndikoi në performancën e programit (për më mirë, nga rruga, megjithëse "lexueshmëria" e kodit vuajti disi). Kryesisht falë përdorimit të bibliotekave "Intel Performance Primitives", por gjithashtu optimizova disa gjëra vetë, si filtri MEL. Sidoqoftë, një kontroll në të dhënat e testit tregoi se koeficientët e marrë MFCC janë plotësisht të ngjashëm me ato të marra duke përdorur, për shembull, mjetin sphinx_fe.

Në programet sfinksbaze, koeficientët MFCC llogariten në hapat e mëposhtëm:

Hapi	Funksioni i bazës së sfinksit	Thelbi i operacionit
1	fe_pre_theksimi	Shumica e numërimit të mëparshëm zbritet nga kampioni aktual (për shembull, 0.97 nga vlera e tij). Një filtër primitiv me kalim të ulët.
2	fe_hamming_dritare	Dritarja Hamming - paraqet zbehje në fillim dhe në fund të kornizës
3	fe_fft_real	Transformimi i shpejtë i Furierit
4	fe_spec2 madhësi	Nga spektri normal, marrim spektrin e fuqisë, duke humbur fazën
5	fe_mel_spec	Ne grupojmë frekuencat e spektrit [për shembull, 256 copë] në 40 grumbullime duke përdorur shkallën MEL dhe faktorët e peshimit
6	fe_mel_cep	Merrni logaritmin dhe aplikoni transformimin DCT2 në 40 vlera nga hapi i mëparshëm. Lërini 13 vlerat e para në rezultat. Ekzistojnë disa variante të DCT2 (HTK, trashëgimi, klasik), të cilat ndryshojnë në konstantën me të cilën ndajmë koeficientët e marrë dhe një konstante të veçantë për koeficientin zero. Ju mund të zgjidhni çdo opsion, ai nuk do të ndryshojë thelbin.

Këto hapa përfshijnë gjithashtu funksione që ju lejojnë të ndani sinjalin nga zhurma dhe nga heshtja, të tilla si fe_track_snr, fe_vad_hangover, por ne nuk kemi nevojë për to dhe nuk do të shpërqendrohemi prej tyre.

Zëvendësimet e mëposhtme janë bërë për hapat për të marrë koeficientët MFCC:

Problemi numër 3. Kontrolloni nëse një nga 6 tingujt e memorizuar është shqiptuar

Programi origjinal "Vocal Joystick" përdori një perceptron me shumë shtresa (MLP) për klasifikim - një rrjet nervor pa këmbanat dhe bilbilat e reja.

Le të shohim se sa i justifikuar është përdorimi i një rrjeti nervor këtu.

Le të kujtojmë se çfarë bëjnë neuronet në rrjetet nervore artificiale.

Nëse një neuron ka N hyrje, atëherë neuroni ndan hapësirën N-dimensionale në gjysmë. Prerje me një prapavijë hiperplane. Në të njëjtën kohë, në njërën gjysmë të hapësirës funksionon (jap përgjigje pozitive), dhe në gjysmën tjetër nuk funksionon.

Le të shohim opsionin [praktikisht] më të thjeshtë - një neuron me dy hyrje. Ai natyrisht do të përgjysmojë hapësirën dydimensionale.

Lërini vlerat X1 dhe X2 të futen në hyrje, të cilën neuroni e shumëzon me koeficientët e peshës W1 dhe W2 dhe shton një term të lirë C.

Në total, në daljen e neuronit (e shënojmë si Y) marrim:

Y = X1 * W1 + X2 * W2 + C

(le të lëmë hollësitë rreth funksioneve sigmoidale tani për tani)

Supozojmë se neuroni ndizet kur Y> 0. Vija e drejtë e dhënë nga ekuacioni 0 = X1 * W1 + X2 * W2 + C thjesht e ndan hapësirën në një pjesë ku Y> 0, dhe një pjesë ku Y<0.

Le të ilustrojmë atë që është thënë me numra specifikë.

Le të W1 = 1, W2 = 1, C = -5;

Tani le të shohim se si mund të organizojmë një rrjet nervor që do të funksiononte në një zonë të caktuar të hapësirës, duke folur relativisht - një vend, dhe nuk do të funksiononte në të gjitha vendet e tjera.

Nga figura mund të shihet se për të përshkruar një zonë në hapësirën dydimensionale, na duhen të paktën 3 vija të drejta, domethënë 3 neurone të lidhur me to.

Ne do t'i lidhim këto tre neurone së bashku duke përdorur një shtresë më shumë, duke marrë një rrjet nervor shumështresor (MLP).

Dhe nëse ne kemi nevojë që rrjeti nervor të funksionojë në dy rajone të hapësirës, atëherë na duhen të paktën tre neurone të tjerë (4,5,6 në figura):

Dhe këtu nuk mund të bëni pa shtresën e tretë:

Dhe shtresa e tretë është pothuajse mësimi i thellë ...

Tani le t'i drejtohemi një shembulli tjetër për ndihmë. Lëreni rrjetin tonë nervor të prodhojë një përgjigje pozitive në pikat e kuqe, dhe negative - në pikat blu.

Nëse do të më kërkonin të shkëputja të kuqe nga blu me vija të drejta, atëherë do ta bëja diçka si kjo:

Por rrjeti nervor apriori nuk e di se sa vija të drejta (neurone) do t'i nevojiten. Ky parametër duhet të vendoset përpara se të trajnohet rrjeti. Dhe një person e bën atë në bazë të ... intuitës ose provës dhe gabimit.

Nëse zgjedhim shumë pak neurone në shtresën e parë (tre, për shembull), atëherë mund të marrim një prerje të tillë, e cila do të japë shumë gabime (zona e gabuar është e hijezuar):

Por edhe nëse numri i neuroneve është i mjaftueshëm, si rezultat i stërvitjes, rrjeti mund të mos "konvergojë", domethënë të arrijë një gjendje të caktuar të qëndrueshme, larg nga optimale, kur përqindja e gabimeve është e lartë. Si këtu, traversa e sipërme është vendosur në dy gunga dhe nuk do t'i lërë askund. Dhe poshtë saj është një zonë e madhe që gjeneron gabime:

Përsëri, mundësia e rasteve të tilla varet nga kushtet fillestare të trajnimit dhe sekuenca e trajnimit, domethënë nga faktorë të rastësishëm:

- Çfarë mendoni se do të arrijë ajo rrotë, nëse do të ndodhte, në Moskë apo jo?
- Si mendoni, a do të konvergojë rrjeti nervor enta apo jo?

Ekziston një moment tjetër i pakëndshëm që lidhet me rrjetet nervore. “Harresa” e tyre.

Nëse filloni të ushqeni rrjetat vetëm me pika blu dhe ndaloni të ushqeni ato të kuqe, atëherë ajo mund të rrëmbejë me qetësi një pjesë të zonës së kuqe për vete, duke lëvizur kufijtë e saj atje:

Nëse rrjetet nervore kanë kaq shumë të meta dhe një person mund të tërheqë kufijtë në mënyrë shumë më efikase sesa një rrjet nervor, pse t'i përdorë ato fare?

Dhe ka një detaj të vogël, por shumë të rëndësishëm.

Mund ta ndaj fare mirë zemrën e kuqe nga sfondi blu me segmente vijash në hapësirën dydimensionale.

Mund të ndaj fare mirë rrafshet e statujës së Venusit nga hapësira tredimensionale përreth.

Por në hapësirën katërdimensionale, nuk mund të bëj asgjë, më fal. Dhe aq më tepër në 13-dimensionale.

Por për një rrjet nervor, dimensioni i hapësirës nuk është pengesë. Unë qesha me të në hapësira me dimensione të ulëta, por sapo kalova përtej të zakonshmes, ajo më kapte lehtësisht.

Sidoqoftë, pyetja është ende e hapur - sa i justifikuar është përdorimi i një rrjeti nervor në këtë detyrë të veçantë, duke pasur parasysh disavantazhet e mësipërme të rrjeteve nervore.

Le të harrojmë për një sekondë se koeficientët tanë MFCC janë në hapësirën 13-dimensionale dhe imagjinoni se ato janë dy-dimensionale, domethënë pika në një plan. Atëherë, si mund të ndahej një tingull nga një tjetër?

Le të kenë pikat MFCC të zërit 1 një devijim standard R1, që [përafërsisht] do të thotë se pikat që nuk devijojnë shumë nga mesatarja, pikat më karakteristike, janë brenda një rrethi me rreze R1. Po kështu, pikat që i besojmë për tingullin 2 janë brenda një rrethi me rreze R2.

Kujdes, pyetja: ku të vizatoni vijën e drejtë që do ta ndante më mirë tingullin 1 nga tingulli 2?

Përgjigja sugjeron vetë: në mes midis kufijve të rrathëve. Ndonjë kundërshtim? Asnjë kundërshtim.
Korrigjim: Në program, ky kufi ndan segmentin që lidh qendrat e rrathëve në raportin R1: R2, kështu që është më i saktë.

Dhe së fundi, të mos harrojmë se diku në hapësirë ka një pikë që është një paraqitje e heshtjes së plotë në hapësirën MFCC. Jo, kjo nuk është 13 zero, siç mund të duket. Kjo është një pikë që nuk mund të ketë një devijim standard. Dhe linjat e drejta me të cilat e shkëputëm atë nga tre tingujt tanë mund të vizatohen drejtpërdrejt përgjatë kufijve të rrathëve:

Në figurën më poshtë, çdo tingull korrespondon me një pjesë të hapësirës me ngjyrën e vet, dhe ne gjithmonë mund të themi se cilit tingull i përket kjo apo ajo pikë në hapësirë (ose nuk vlen për asnjë):

Epo, mirë, tani le të kujtojmë se hapësira është 13-dimensionale, dhe ajo që ishte mirë të vizatohej në letër tani rezulton të jetë diçka që nuk përshtatet në trurin e njeriut.

Pra, por jo ashtu. Për fat të mirë, në një hapësirë të çdo dimensioni mbeten koncepte të tilla si pika, vija, [hiper] plani, [hiper] sfera.

Ne përsërisim të gjitha veprimet e njëjta në hapësirën 13-dimensionale: gjejmë variancën, përcaktojmë rrezet e sferave [hiper], lidhim qendrat e tyre me një vijë të drejtë, e presim atë me një plan [hiper] në një pikë po aq larg nga kufijtë e sferave [hiper].

Asnjë rrjet nervor nuk mund të ndajë më saktë një tingull nga një tjetër.

Këtu, megjithatë, duhet bërë një rezervë. E gjithë kjo është e vërtetë nëse informacioni për tingullin është një re pikash që devijojnë nga mesatarja në mënyrë të barabartë në të gjitha drejtimet, domethënë përshtaten mirë në hipersferë. Nëse kjo re do të ishte një formë komplekse, për shembull, një sallam i lakuar 13-dimensionale, atëherë i gjithë arsyetimi i mësipërm nuk do të ishte i saktë. Dhe ndoshta, me trajnimin e duhur, rrjeti nervor mund të tregojë pikat e tij të forta këtu.

Por nuk do ta rrezikoja. Dhe unë do të aplikoja, për shembull, grupe të shpërndarjeve normale (GMM), (që, meqë ra fjala, bëhet në CMU Sphinx). Është gjithmonë më mirë kur kupton se cili algoritëm i veçantë çoi në rezultat. Dhe jo si në një rrjet nervor: Oracle, bazuar në orët e shumta të lëngut të gatimit nga të dhënat e stërvitjes, ju urdhëron të vendosni që tingulli i kërkuar është tingulli # 3. (Më bezdis veçanërisht kur përpiqen t'ia besojnë kontrollin e makinës rrjetit nervor. Si atëherë, në një situatë jo standarde, të kuptojmë pse makina u kthye majtas dhe jo djathtas? Neuroni i Plotfuqishëm urdhëroi?).

Por grupet e shpërndarjeve normale janë tashmë një temë më vete e madhe, e cila është përtej qëllimit të këtij artikulli.

Shpresoj se ky artikull ishte i dobishëm dhe/ose e bëri gyrusin tuaj të kërcas.

Pasqyrë e programeve për kontrollin zanor të kompjuterit

Në artikullin që vijon do të shqyrtohet çështja e kontrollit zanor të një kompjuteri dhe do të jepet një përshkrim i shkurtër i programeve të njohura të destinuara për këtë proces. Pra, fjala në titullin "zë" duhet të kuptohet fjalë për fjalë - aftësia për të punuar me një PC, domethënë për të dhënë / kryer komandat / veprimet e zakonshme duke përdorur zërin tuaj, dhe jo atributet e zakonshme - një mouse, tastierë. Për shembull, për të punuar me një grup aplikacionesh zyre - për të folur tekstin, për të njohur fjalimin dhe për ta riprodhuar atë në formën e tekstit në aplikacionin e zgjedhur.

Gorynych

Softueri (programi) më i testuar dhe i vjetër është Dragon NaturallySpeaking (në tekstin e mëtejmë Gorynych). I testuar me kohë dhe i përmirësuar maksimalisht gjatë periudhës së ekzistencës së tij, programi Gorynych i versionit 2010 siguron një njohje të saktë të të folurit prej 99%. Softuer shumë i thjeshtë dhe i lehtë për t'u përdorur, punon me të gjitha programet e zyrës, është në gjendje të ndihmojë në krijimin dhe redaktimin e teksteve, tabelave dhe bazave të të dhënave. Me programin, ju mund të kërkoni në internet dhe kompjuterin tuaj (etiketat zanore), të dërgoni e-mail dhe mesazhe / mesazhe të menjëhershme. Asistent i madh për bizneset e vogla. Di se si të ekzekutojë komandat për hapjen dhe luajtjen e skedarëve, e kështu me radhë. Por ka një paralajmërim Shkarkoni programin Gorynych për kontrollin e zërit në kompjuter ju mund të paguani vetëm dhe ka një "por". Pas instalimit, programi përdor gjermanisht, ndryshimi i të cilit në rusisht do të kërkojë disa përpjekje nga ana e përdoruesit.

Premium i tipit

Nuk ka më pak të denjë në rusisht, emri i tij tingëllon si Typle Premium. Ky softuer ka një ndërfaqe më intuitive dhe më të thjeshtë. Avantazhi i tij kryesisht qëndron në aftësinë për të regjistruar shumë komanda zanore. Njohja e zërit - 99%. Për shembull, një përdorues dëshiron të shikojë përsëri filmin e tij të preferuar, detyra e tij është të bëjë një regjistrim në Typle Premium të diçkaje si "Luaj film" *** ". Është krejtësisht i pajtueshëm kontrolli zanor i kompjuterit windows xp - sistemi operativ.

Sistemi inteligjent i njohjes së zërit

Programi është pak më modest se sa dy të mëparshmit quhet - Sistemi inteligjent i njohjes së zërit (IVOS)... Mund të provoni ta shkarkoni falas (versionet fillestare) në internet. Programi është plotësisht i pajtueshëm me Windows, mund të konvertojë dhe njohë zërin e pronarit. Ai gjithashtu parashikon regjistrimin e komandave shtesë për të punuar me hapjen e dokumenteve. Sistemi Inteligjent i Njohjes së Zërit (IVOS) ka motorë zanor që do t'i lejojnë përdoruesit të prodhojë dublimin e teksteve elektronike. Ndërfaqe intuitive dhe besnike. Është i përshtatshëm dhe i lehtë për t'u përdorur, por është padyshim larg aftësive të dy programeve të para.

Ka shumë programe të tjera të ngjashme për menaxhimin e kompjuterëve dhe pajisjeve mobile. Tregu ofron opsione me pagesë dhe falas. Sidoqoftë, nëse përdoruesi synon të përdorë programin në punë serioze, ia vlen t'i jepet përparësi softuerit të paguar me mbështetje të zhvilluesit.

Kontrolli zanor i kompjuterit Windows 10. Kontrolli më i thjeshtë i një kompjuteri duke përdorur zërin tuaj

Cortana

Lloji

Folësi

Gorynych

Shekullin e kaluar

Shërbimet e integruara

Zhvillimi

"Gorynych"

Fjalimi

Duke shtypur

Rezultati

Pjesa II. Si punon?

Problemi numër 2. Marrja e 13 koeficientëve cepstral

Problemi numër 3. Kontrolloni nëse një nga 6 tingujt e memorizuar është shqiptuar

Pasqyrë e programeve për kontrollin zanor të kompjuterit

Gorynych

Premium i tipit

Sistemi inteligjent i njohjes së zërit

Artikujt kryesorë të lidhur