Come configurare smartphone e PC. Portale informativo
  • casa
  • Televisori (Smart TV)
  • Controllo vocale del computer Windows 10. Il controllo più semplice di un computer usando la tua voce

Controllo vocale del computer Windows 10. Il controllo più semplice di un computer usando la tua voce

Anche prima del rilascio dell'interfaccia Cortana per Windows 10, che è in fase di sviluppo, test e debug, gli utenti hanno cercato di organizzare il controllo vocale del computer. Il modo in cui tale funzione può essere implementata in Windows che è uscito prima del 10 sarà discusso nell'articolo di oggi.

Cortana

Cortana è un assistente vocale basato sull'intelligenza artificiale sviluppato da Microsoft per Windows 10, telefono e Android, con ulteriore espansione per XBox e iOS. Sostituisce la classica stringa di ricerca ed esegue molte azioni, principalmente legate alla ricerca di informazioni e comandi di sistema, ricevendoli dall'utente sotto forma di comandi vocali. La profonda integrazione in Windows 10, l'assenza della lingua russa (finora), la raccolta di quasi tutte le informazioni sull'utente inviate ai server Microsoft e l'assenza della versione finale non consentono alla maggior parte degli utenti di ottenere il controllo vocale completo computer.

Oltre a Cortana, ci sono molte applicazioni che ti permettono di controllare il tuo PC tramite i comandi vocali dell'utente. Diamo un'occhiata ai prodotti più comuni per risolvere questo problema in Windows 7 e 10.

tipo

L'applicazione occupa una posizione di primo piano tra gli utenti di lingua russa che vogliono comandare un computer attraverso la loro voce. L'utilità sostituirà facilmente una parte significativa delle funzioni di Cortana su Windows 10 e sui "sette" aggiungerà una funzione che viene spesso mostrata nei film in cui le persone controllano i computer usando la propria voce.

Prima di iniziare il lavoro, crea un account e trova una frase chiave, dopo aver sentito che l'applicazione viene attivata. Quindi impostiamo un comando vocale per controllare il computer o eseguire una determinata azione e assegnargli l'operazione (avvio dell'applicazione, accesso al sito specificato). Nella finestra di modifica dei comandi creati diventa possibile impostare i parametri con cui verrà lanciata l'applicazione e specificare la modalità di lancio (schermo intero, finestrato).

La funzionalità dell'utility è molto limitata e l'interfaccia è lontana dallo stile Metro implementato in Windows 10. Il controllo vocale completo del PC tramite Typle non può essere implementato: supporta solo l'apertura di file, applicazioni (con argomenti) e i seguenti collegamenti predefiniti. Non c'è nemmeno il supporto per il controllo del lettore (pausa, avvia la traccia successiva).

Altoparlante

  • prendere screenshot dello stato dello schermo;
  • cambiare layout di tastiera;
  • chiusura di Windows 7;
  • lancio dell'applicazione;
  • apertura di un file.

Il processo di lettura e riconoscimento delle informazioni che arrivano al microfono inizia dopo aver premuto il tasto specificato (è meglio scegliere il pulsante che si usa meno di rado per evitare falsi allarmi del programma). Ci vuole molto tempo per elaborare, riconoscere il parlato ed eseguire un comando - 5 o più secondi di quelli che devi pagare per l'economicità. Le parole chiave sono impostate dal testo, non dalle parole, quindi il discorso riconosciuto viene confrontato con il testo inserito, il che è tutt'altro che ideale. Non c'è controllo del giocatore nell'applicazione.

Gorynych

Gli sviluppatori di un pacchetto software per la gestione di un computer con Windows 7 e 10 sono il primo team russo a rilasciare un'applicazione per risolvere tali problemi. Western "Dragon Dictate" è stato preso come nucleo dell'applicazione, dove è stato introdotto un modulo software domestico per il riconoscimento vocale russo.

Molto spesso, quando lavoriamo su un personal computer, dobbiamo digitare testi di grandi dimensioni. Seduti direttamente davanti al monitor, perdiamo molto tempo, anche se potremmo fare un po' di lavori domestici.

L'ultimo secolo

Scopriamo cos'è il controllo vocale del computer. Facciamo qualche analogia. In precedenza, e anche adesso, un modo molto comune per "liberare le mani" dal computer durante il lavoro era assumere un altro dipendente: uno stenografo o una segretaria. Tuttavia, poche persone sanno che è possibile evitare spese inutili installando su un personal computer una serie di programmi e utilità che consentono il controllo vocale di un computer in russo.

Con l'avvento di prodotti software come "Gorynych" e WebSpeach, puoi dimenticare quanto tempo hai dovuto sederti e digitare qualsiasi lavoro, ad esempio un diploma, un ordine o qualsiasi altra documentazione. Con lo sviluppo della tecnologia informatica, è apparsa la possibilità di utilizzare uno speciale programma di riconoscimento vocale.

Utilità integrate

Il controllo vocale di un computer Windows 8 viene eseguito utilizzando l'utilità di riconoscimento vocale di Windows integrata. Sfortunatamente, al momento non è possibile controllare un computer in russo. Microsoft, a quanto pare, sta cercando di concentrarsi sulle lingue più comuni, ma è possibile che presto verrà rilasciato il supporto per la lingua russa.

Se vuoi ancora provare a gestire il tuo amico di ferro usando l'inglese, segui le istruzioni successive.

  1. Vai al pannello di controllo nella sottovoce "Lingua". È necessario impostare la lingua del sistema: inglese. Se non lo possiedi, dovrai scaricare il language pack appropriato.
  2. Dopo aver scaricato e installato la lingua, vai alla schermata iniziale con un "tile".
  3. Cerca Riconoscimento vocale di Windows e premi Invio. Questo avvia il programma di riconoscimento vocale.
  4. Al primo avvio, ti verrà chiesto di configurare il microfono. Scegli la tua varietà e pronuncia alcune parole.
  5. Ti verrà quindi offerto un tutorial di 20 minuti. È condotto in inglese, quindi se non capisci la lingua, puoi tranquillamente saltarlo. L'interfaccia del programma è assolutamente chiara, quindi anche un bambino può capirlo.
  6. Per abilitare il controllo vocale sul tuo computer, dovrai pronunciare la frase chiave "Inizia ad ascoltare". Questo significa - "inizia ad ascoltare". Ora puoi avviare il programma che ti serve e iniziare a dettare il testo.

In generale, le possibilità di questa utilità sono inesauribili. Oltre a utilizzare i comandi di base, puoi anche crearne di tuoi.

Sviluppo

Sono state create molte applicazioni per il riconoscimento vocale russo e inglese:

  • "Dittografo 5";
  • "Perpetuum mobile";
  • Voce_PE;
  • Lucente;
  • Tipo Voce;
  • Sacramento.

Tuttavia, i più popolari erano:

  • "Gorynych";
  • Discorso Web;
  • Altoparlante reale;
  • Speechka.

Diamo un'occhiata più da vicino a loro.

"Gorynych"

Come suggerisce il nome, l'applicazione è stata creata da un team di programmatori russi e prende il nome da un personaggio fiabesco russo di nome Gorynych. Il controllo vocale del computer al suo interno viene eseguito in russo, tuttavia c'è anche il supporto per l'inglese. "Gorynych" ti consente di controllare un personal computer in modalità utente, ovvero di eseguire tutte le possibili azioni che puoi eseguire con mouse e tastiera: lavorare con finestre, applicazioni, processi in esecuzione su un personal computer. Inoltre, "Gorynych" riconosce il discorso di un solo proprietario, ma non sempre.

Tuttavia, c'è uno svantaggio piuttosto grande. Il fatto è che è necessario inserire manualmente l'intera base di comandi. Cioè, prima di poter fare qualsiasi cosa sul computer con la tua voce, devi creare un intero database con i comandi registrati dalla tua voce. Anche se lo fai, se diventi improvvisamente rauco o il timbro della tua voce cambia anche solo un po', "Gorynych" si rifiuterà completamente di capirti.

Un'altra trappola è che se vuoi dettare testi a un computer, devi prima creare un enorme dizionario per Gorynych con un buon vocabolario in modo che possa capire ciò che detti.

Speechka

Le applicazioni di terze parti installate su un personal computer possono aiutare a garantire questo. Uno di questi è Speechka. Proprio come "Gorynych", un prodotto russo creato sulla base delle tecnologie di Google, "Match" consente all'utente di utilizzare un insieme predeterminato di comandi per controllare il computer con la voce. Speechka è abbastanza bravo a riconoscere qualsiasi discorso e non è necessario registrare file audio per esso. È sufficiente inserire una parola dalla tastiera e associarla a qualsiasi azione. In parole povere, è un prodotto valido, ma ancora in fase di sviluppo, poiché funzionalità come la chiusura di finestre o l'avvio di programmi sono state aggiunte relativamente di recente.

Digitando

Avendo capito cos'è il controllo vocale di un computer, consideriamo il problema della digitazione. Come accennato, non tutte le applicazioni consentono di produrlo. Nella maggior parte dei casi, per questo, devi prima comporre un intero dizionario e, se sei un utente di Windows 8, sorge anche il problema di supportare il discorso russo. Per risolvere questo problema, esiste un servizio di composizione vocale creato da Google.

Disponibile solo per i browser Chrome, l'applicazione Google Web Speech riconosce 32 principali lingue del mondo, incluso il russo. Per inserire il testo con la voce, sono necessari un browser, Internet e un microfono appropriati. Gli sviluppi sono avanzati abbastanza, quindi questa utility è in grado di percepire il discorso russo letterato in parole intere e tradurlo in testo stampato.

Un altro programma per il riconoscimento vocale e la dettatura a un personal computer è RealSpeaker. Usa le moderne tecnologie per riconoscere le espressioni facciali. Per usarlo, qualsiasi webcam è adatta. L'unico inconveniente che si presenta durante il lavoro è che il viso di chi parla deve trovarsi esattamente di fronte alla telecamera, a una distanza non superiore a 40 centimetri. In questo programma c'è un dizionario della lingua russa, che l'utente può espandere se lo desidera. In generale, questo programma è molto più conveniente di Gorynych.

Risultato

Se stai pensando al controllo vocale del computer, credimi, questo non è ancora per la Russia. Attualmente esistono programmi di riconoscimento adeguati solo in inglese e la digitazione vocale automatica conterrà così tanti errori che sarà più facile scrivere il testo da zero che correggere tutti gli errori di battitura. Ovviamente puoi provare a imparare l'inglese e utilizzare un computer su di esso, ma hai bisogno di una dizione e una pronuncia perfette.

Un uomo mi ha chiesto di scrivere un programma che permettesse di controllare il mouse di un computer usando la sua voce. Quindi non potevo nemmeno immaginare che, una persona quasi completamente paralizzata che non può nemmeno girare la testa da solo, ma può solo parlare, è in grado di sviluppare un'attività vigorosa, aiutando se stesso e gli altri a vivere una vita attiva, acquisire nuove conoscenze e abilità, lavorare e guadagnare denaro, comunicare con altre persone in tutto il mondo, partecipare al concorso di progetti sociali.

Permettetemi di citare qui un paio di collegamenti a siti, l'autore e / o ispiratore ideologico di cui è questa persona - Alexander Makarchuk della città di Borisov, in Bielorussia:

Per lavorare al computer, Alexander ha utilizzato il programma "Vocal Joystick", uno sviluppo degli studenti dell'Università di Washington, finanziato dalla National Science Foundation (NSF). Vedere melodi.ee.washington.edu/vj

non potevo resistere

A proposito, sul sito web dell'università (http://www.washington.edu/) il 90% degli articoli riguarda il denaro. È difficile trovare qualcosa sul lavoro scientifico. Ecco, ad esempio, stralci della prima pagina: “Tom, laureato, mangiava funghi e faceva fatica a pagarsi l'affitto. Ora è un senior manager di un'azienda informatica e presta soldi all'università "," I Big Data aiutano i senzatetto "," L'azienda si è impegnata a pagare 5 milioni di dollari per un nuovo edificio accademico".

Mi fa male solo l'occhio?


Il programma è stato realizzato nel 2005-2009 e ha funzionato bene su Windows XP. Nelle versioni più recenti di Windows, il programma potrebbe bloccarsi, il che è inaccettabile per una persona che non può alzarsi da una sedia e riavviarlo. Pertanto, il programma doveva essere rifatto.

Non ci sono testi di partenza, ci sono solo singole pubblicazioni che rivelano le tecnologie su cui si basa (MFCC, MLP - leggi questo nella seconda parte).

Un nuovo programma è stato scritto a immagine e somiglianza (circa tre mesi).

In realtà, puoi vedere come funziona:

Puoi scaricare il programma e/o vedere i codici sorgente.

Non è necessario eseguire passaggi speciali per installare il programma, è sufficiente fare clic su di esso e avviarlo. L'unica cosa, in alcuni casi è necessario che venga avviato come amministratore (ad esempio, quando si lavora con la tastiera virtuale "Comfort Keys Pro"):

Forse vale la pena menzionare qui e altre cose che ho fatto in precedenza per poter controllare il computer senza mani.

Se hai la possibilità di girare la testa, un giroscopio montato sulla testa è una buona alternativa a eViacam. Otterrai un posizionamento del cursore rapido e preciso e l'indipendenza dall'illuminazione.

Se riesci a spostare solo le pupille degli occhi, puoi utilizzare il localizzatore dello sguardo e il programma (può essere difficile se indossi gli occhiali).

Seconda parte. Come funziona?

Era noto dal materiale pubblicato sul programma Vocal Joystick che funziona come segue:
  1. Tagliare un flusso audio in fotogrammi di 25 millisecondi con una sovrapposizione di 10 millisecondi
  2. Ottenere 13 coefficienti cepstrali (MFCC) per ogni frame
  3. Verificare che uno dei 6 suoni memorizzati (4 vocali e 2 consonanti) sia pronunciato con il percettrone multistrato (MLP)
  4. Mettere in movimento i suoni trovati/clic del mouse
Il primo compito è notevole solo in quanto per risolverlo in tempo reale, è stato necessario inserire tre flussi aggiuntivi nel programma, poiché la lettura dei dati dal microfono, l'elaborazione del suono e la riproduzione del suono attraverso la scheda audio avvengono in modo asincrono.

Quest'ultima attività viene semplicemente implementata utilizzando la funzione SendInput.

I più interessanti, mi sembra, sono il secondo e il terzo compito. Così.

Problema numero 2. Ottenere 13 coefficienti cepstrale

Se qualcuno non è nell'argomento, il problema principale nel riconoscere i suoni da un computer è il seguente: è difficile confrontare due suoni, poiché due onde sonore che sono dissimili nei contorni possono sembrare simili dal punto di vista della percezione umana.

E tra coloro che sono impegnati nel riconoscimento vocale, c'è una ricerca di una "pietra filosofale" - un insieme di caratteristiche che classificherebbero in modo inequivocabile un'onda sonora.

Di quei segni che sono disponibili al pubblico in generale e sono descritti nei libri di testo, i più comuni sono i cosiddetti coefficienti cepstrali a frequenza di gesso (MFCC).

La loro storia è tale che inizialmente erano destinati a qualcosa di completamente diverso, vale a dire, a sopprimere l'eco nel segnale (un articolo informativo su questo argomento è stato scritto dai rispettati Oppenheim e Schafer, possa la gioia essere nelle case di questi nobili uomini. Vedi AV Oppenheim e RW Schafer, "Dalla frequenza a Quefrency: una storia del cepstrum").

Ma una persona è progettata in modo tale da essere incline a usare meglio ciò che gli è familiare. E coloro che si sono occupati di segnali vocali hanno avuto l'idea di utilizzare una rappresentazione compatta già pronta del segnale sotto forma di MFCC. Si è scoperto che, in generale, funziona. (Un mio amico, specialista in sistemi di ventilazione, quando gli ho chiesto come realizzare un cottage estivo, mi ha suggerito di utilizzare i condotti di ventilazione. Semplicemente perché li conosceva meglio di altri materiali da costruzione).

Gli MFCC sono un buon classificatore per i suoni? Non direi. Lo stesso suono, pronunciato da me in diversi microfoni, cade in diverse regioni dello spazio dei coefficienti MFCC, e un classificatore ideale li disegnerebbe uno accanto all'altro. Pertanto, in particolare, quando si cambia il microfono, è necessario insegnare nuovamente al programma.

Questa è solo una delle proiezioni dello spazio a 13 dimensioni MFCC in 3 dimensioni, ma mostra cosa intendo: i punti rossi, viola e blu sono ottenuti da diversi microfoni: (Plantronix, array di microfoni integrato, Jabra), ma il suono è stato pronunciato da solo.

Tuttavia, poiché non posso offrire nulla di meglio, utilizzerò anche la tecnica standard, calcolando i coefficienti MFCC.

Per non essere confusi nell'implementazione, nelle prime versioni del programma, come base è stato utilizzato il codice del noto programma CMU Sphinx, più precisamente la sua implementazione in C, chiamata pocketphinx, sviluppata presso la Carnegie Mellon University (pace con entrambi! (C) Hottabych ).

I codici sorgente di pocketphinx sono aperti, ma sfortuna - se li usi, devi scrivere del testo nel tuo programma (sia nel codice sorgente che nel modulo eseguibile), contenente, tra l'altro, quanto segue:

* Questo lavoro è stato in parte supportato da finanziamenti della Defense Advanced * Research Projects Agency e della National Science Foundation degli * Stati Uniti d'America, e del CMU Sphinx Speech Consortium.
Questo mi sembrava inaccettabile e ho dovuto riscrivere il codice. Ciò ha influito sulle prestazioni del programma (in meglio, tra l'altro, anche se la "leggibilità" del codice ha sofferto un po'). In gran parte grazie all'uso delle librerie "Intel Performance Primitives", ma ho anche ottimizzato alcune cose, come il filtro MEL. Tuttavia, un controllo sui dati dei test ha mostrato che i coefficienti MFCC ottenuti sono completamente simili a quelli ottenuti utilizzando, ad esempio, l'utilità sphinx_fe.

Nei programmi sphinxbase, i coefficienti MFCC vengono calcolati nei seguenti passaggi:

Fare un passo Funzione Sphinxbase L'essenza dell'operazione
1 fe_pre_emphasis La maggior parte del conteggio precedente viene sottratta dal campione corrente (ad esempio, 0,97 dal suo valore). Un primitivo filtro di reiezione a bassa frequenza.
2 fe_hamming_window Finestra Hamming - introduce dissolvenza all'inizio e alla fine del frame
3 fe_fft_real Trasformata di Fourier veloce
4 fe_spec2magnitudine Dallo spettro normale si ottiene lo spettro di potenza, perdendo fase
5 fe_mel_spec Raggruppiamo le frequenze dello spettro [ad esempio, 256 pezzi] in 40 heap utilizzando la scala MEL e i fattori di ponderazione
6 fe_mel_cep Prendi il logaritmo e applica la trasformata DCT2 a 40 valori dal passaggio precedente.
Lascia i primi 13 valori nel risultato.
Esistono diverse varianti di DCT2 (HTK, legacy, classic), che differiscono per la costante per la quale dividiamo i coefficienti ottenuti e una costante speciale per il coefficiente zero. Puoi scegliere qualsiasi opzione, non cambierà l'essenza.

Questi passaggi includono anche funzioni che consentono di separare il segnale dal rumore e dal silenzio, come fe_track_snr, fe_vad_hangover, ma non ne abbiamo bisogno e non ne saremo distratti.

Sono state effettuate le seguenti sostituzioni per i passaggi per ottenere i coefficienti MFCC:

Problema numero 3. Verificare che uno dei 6 suoni memorizzati sia pronunciato

Il programma originale "Vocal Joystick" utilizzava un perceptron multistrato (MLP) per la classificazione: una rete neurale senza campane e fischietti all'avanguardia.

Vediamo come è giustificato l'uso di una rete neurale qui.

Ricordiamo cosa fanno i neuroni nelle reti neurali artificiali.

Se un neurone ha N input, allora il neurone divide a metà lo spazio N-dimensionale. Tagli con rovescio iperpiano. Allo stesso tempo, in una metà dello spazio, funziona (dà una risposta positiva) e nell'altra metà non funziona.

Diamo un'occhiata all'opzione [praticamente] più semplice: un neurone con due input. Naturalmente dimezzerà lo spazio bidimensionale.

Lascia che i valori X1 e X2 vengano forniti all'input, che il neurone moltiplica per i coefficienti di peso W1 e W2 e aggiunge un termine libero C.


In totale, all'uscita del neurone (lo denotiamo come Y) otteniamo:

Y = X1 * W1 + X2 * W2 + C

(tralasciamo le sottigliezze sulle funzioni sigmoidali per ora)

Assumiamo che il neurone si attivi quando Y> 0. La retta data dall'equazione 0 = X1 * W1 + X2 * W2 + C divide semplicemente lo spazio in una parte dove Y> 0, e una parte dove Y<0.

Illustriamo quanto detto con numeri precisi.

Sia W1 = 1, W2 = 1, C = -5;

Ora vediamo come possiamo organizzare una rete neurale che funzionerebbe su una certa area dello spazio, relativamente parlando - un punto, e non funzionerebbe in tutti gli altri luoghi.

Dalla figura si vede che per delineare un'area nello spazio bidimensionale occorrono almeno 3 rette, cioè 3 neuroni ad esse collegati.

Collegheremo insieme questi tre neuroni usando un altro strato, ottenendo una rete neurale multistrato (MLP).

E se abbiamo bisogno che la rete neurale funzioni in due regioni dello spazio, allora abbiamo bisogno di almeno altri tre neuroni (4,5,6 nelle figure):

E qui non puoi fare a meno del terzo strato:

E il terzo livello è quasi Deep Learning ...

Ora passiamo a un altro esempio per chiedere aiuto. Lascia che la nostra rete neurale produca una risposta positiva sui punti rossi e negativa sui punti blu.

Se mi chiedessero di tagliare il rosso dal blu con linee rette, lo farei in questo modo:

Ma la rete neurale a priori non sa di quante linee rette (neuroni) avrà bisogno. Questo parametro deve essere impostato prima di addestrare la rete. E una persona lo fa sulla base di ... intuizione o tentativi ed errori.

Se selezioniamo troppi pochi neuroni nel primo strato (tre, ad esempio), possiamo ottenere un tale taglio, che darà molti errori (l'area errata è ombreggiata):

Ma anche se il numero di neuroni è sufficiente, a seguito dell'addestramento, la rete potrebbe non "convergere", cioè raggiungere un certo stato stabile, tutt'altro che ottimale, quando la percentuale di errori è alta. Come qui, la traversa superiore si è posata su due gobbe e non le lascerà da nessuna parte. E sotto c'è un'ampia area che genera errori:

Anche in questo caso, la possibilità di tali casi dipende dalle condizioni iniziali dell'allenamento e dalla sequenza dell'allenamento, ovvero da fattori casuali:

- Cosa pensi che raggiungerà quella ruota, se è successo, a Mosca o no?
- Cosa ne pensi, la rete neurale enta convergerà o no?

C'è un altro momento spiacevole legato alle reti neurali. La loro "dimenticanza".

Se inizi a nutrire le reti solo con punti blu e smetti di nutrire quelli rossi, allora può tranquillamente afferrare un pezzo dell'area rossa per se stessa, spostando i suoi bordi lì:

Se le reti neurali hanno così tanti difetti e una persona può tracciare confini in modo molto più efficiente di una rete neurale, perché usarle?

E c'è un piccolo, ma molto importante dettaglio.

Posso benissimo separare il cuore rosso dallo sfondo blu per segmenti di linea nello spazio bidimensionale.

Riesco bene a separare i piani della statua di Venere dallo spazio tridimensionale circostante.

Ma nello spazio quadridimensionale, non posso fare nulla, mi dispiace. E ancora di più in 13 dimensioni.

Ma per una rete neurale, la dimensione dello spazio non è un ostacolo. Ho riso di lei negli spazi a bassa dimensione, ma non appena sono andato oltre l'ordinario, mi ha facilmente preso.

Tuttavia, la domanda è ancora aperta: quanto è giustificato l'uso di una rete neurale in questo particolare compito, dati gli svantaggi delle reti neurali di cui sopra.

Dimentichiamo per un secondo che i nostri coefficienti MFCC sono nello spazio a 13 dimensioni e immaginiamo che siano bidimensionali, cioè punti su un piano. Come si potrebbe, in questo caso, separare un suono da un altro?

Lascia che i punti MFCC del suono 1 abbiano una deviazione standard R1, che [approssimativamente] significa che i punti che non si discostano troppo dalla media, i punti più caratteristici, sono all'interno di un cerchio con raggio R1. Allo stesso modo, i punti di cui ci fidiamo per il suono 2 sono all'interno di un cerchio con raggio R2.

Attenzione, la domanda: dove tracciare la linea retta che meglio separerebbe il suono 1 dal suono 2?

La risposta suggerisce se stessa: nel mezzo tra i confini dei cerchi. Qualche obiezione? Nessuna obiezione.
Correzione: Nel programma, questo confine divide il segmento che collega i centri dei cerchi nel rapporto R1: R2, quindi è più corretto.

E infine, non dimentichiamo che da qualche parte nello spazio c'è un punto che è una rappresentazione del silenzio completo nello spazio MFCC. No, non sono 13 zeri, come potrebbe sembrare. Questo è un punto che non può avere una deviazione standard. E le linee rette con cui lo tagliamo fuori dai nostri tre suoni possono essere disegnate direttamente lungo i confini dei cerchi:

Nella figura sottostante ogni suono corrisponde a un pezzo di spazio del proprio colore, e possiamo sempre dire a quale suono appartiene questo o quel punto nello spazio (o non si applica a nessuno):

Bene, bene, ora ricordiamo che lo spazio è a 13 dimensioni e ciò che era bello disegnare su carta ora risulta essere qualcosa che non si adatta al cervello umano.

Così, ma non così. Fortunatamente, in uno spazio di qualsiasi dimensione rimangono concetti come punto, linea, [iper]piano, [iper]sfera.

Ripetiamo tutte le stesse azioni nello spazio a 13 dimensioni: troviamo la varianza, determiniamo i raggi delle [iper] sfere, colleghiamo i loro centri con una linea retta, la tagliamo con un [iper]piano in un punto ugualmente distante dal confini delle [iper] sfere.

Nessuna rete neurale può separare più correttamente un suono da un altro.

Qui, tuttavia, è necessario effettuare una prenotazione. Tutto questo è vero se l'informazione sul suono è una nuvola di punti che si discostano dalla media ugualmente in tutte le direzioni, cioè si adatta bene all'ipersfera. Se questa nuvola fosse una forma complessa, ad esempio una salsiccia curva a 13 dimensioni, allora tutto il ragionamento di cui sopra non sarebbe corretto. E forse, con il giusto addestramento, la rete neurale potrebbe mostrare qui i suoi punti di forza.

Ma non rischierei. E applicherei, ad esempio, insiemi di distribuzioni normali (GMM), (che, tra l'altro, è fatto in CMU Sphinx). È sempre più bello quando capisci quale particolare algoritmo ha portato al risultato. E non come in una rete neurale: l'Oracolo, in base alle sue molte ore di brodo di cottura dai dati di allenamento, ti comanda di decidere che il suono richiesto è il suono n. 3. (Sono particolarmente infastidito quando cercano di affidare il controllo dell'auto alla rete neurale. Come poi, in una situazione non standard, capire perché l'auto ha girato a sinistra e non a destra? Onnipotente Neuron ha comandato?).

Ma gli insiemi di distribuzioni normali sono già un grande argomento separato, che va oltre lo scopo di questo articolo.

Spero che questo articolo ti sia stato utile e/o ti abbia fatto scricchiolare il giro.

Panoramica dei programmi per il controllo vocale del computer

Nell'articolo che segue, verrà presa in considerazione la questione del controllo vocale di un computer e verrà fornita una breve descrizione dei programmi popolari destinati a questo processo. Quindi, la parola nel nome "voce" deve essere intesa letteralmente - la capacità di lavorare con un PC, cioè dare / eseguire comandi / azioni familiari usando la tua voce e non i soliti attributi: un mouse, una tastiera. Ad esempio, per lavorare con una suite di applicazioni per ufficio, per pronunciare il testo, riconoscere il parlato e riprodurlo sotto forma di testo nell'applicazione selezionata.

Gorynych

Il software (programma) più testato e vecchio è Dragon NaturallySpeaking (di seguito Gorynych). Il programma Gorynych della versione 2010 testato nel tempo e migliorato al massimo durante il periodo della sua esistenza, fornisce un riconoscimento vocale accurato del 99%. Software molto semplice e di facile utilizzo, funziona con tutti i programmi di Office, è in grado di aiutare nella creazione e modifica di testi, tabelle e database. Con il programma è possibile effettuare ricerche in Internet e nel computer (tag vocali), inviare e-mail e messaggi/messaggi istantanei. Ottimo assistente per le piccole imprese. Sa come eseguire comandi per l'apertura e la riproduzione di file e così via. Ma c'è un avvertimento scarica il programma Gorynych per il controllo vocale del computer puoi solo pagare e c'è un "ma". Dopo l'installazione, il programma utilizza il tedesco, cambiare il quale in russo richiederà un certo sforzo da parte dell'utente.

Tipo premium

Non c'è meno degno in russo, il suo nome suona come Typle Premium. Questo software ha un'interfaccia più intuitiva e semplice. Il suo vantaggio risiede principalmente nella capacità di registrare molti comandi vocali. Riconoscimento vocale - 99%. Ad esempio, un utente vuole guardare di nuovo il suo film preferito, il suo compito è registrare in Typle Premium qualcosa come "Riproduci film" *** ". È perfettamente compatibile controllo vocale del computer windows xp - sistema operativo.

Sistema di riconoscimento vocale intelligente

Il programma è leggermente più modesto di quello che si chiama i due precedenti - Sistema di riconoscimento vocale intelligente (IVOS)... Puoi provare a scaricarlo gratuitamente (versioni iniziali) su Internet. Il programma è completamente compatibile con Windows, può convertire e riconoscere la voce del proprietario. Prevede inoltre la registrazione di comandi aggiuntivi per lavorare con l'apertura dei documenti. L'Intelligent Voice Recognition System (IVOS) dispone di motori vocali che consentiranno all'utente di produrre il doppiaggio di libri di testo elettronici. Interfaccia intuitiva e fedele. È comodo e facile da usare, ma è decisamente lontano dalle capacità dei primi due programmi.

Esistono molti altri programmi simili per la gestione di PC e dispositivi mobili. Il mercato offre opzioni sia a pagamento che gratuite. Tuttavia, se l'utente intende utilizzare il programma in un lavoro serio, vale la pena dare la preferenza al software a pagamento con supporto per gli sviluppatori.

Principali articoli correlati