Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • OS
  • Tehnologia bazelor de date multidimensionale. STATISTICA Tehnici exploratorii multivariate Tehnologii multivariate de analiza a datelor

Tehnologia bazelor de date multidimensionale. STATISTICA Tehnici exploratorii multivariate Tehnologii multivariate de analiza a datelor

Teoria variabilelor aleatoare studiază fenomenele probabilistice „în statică”, considerându-le ca niște rezultate fixe ale experimentelor. Metodele teoriei probabilităților clasice sunt insuficiente pentru descrierea semnalelor care reflectă fenomene aleatorii care evoluează în timp. Astfel de probleme sunt studiate de o ramură specială a matematicii numită teoria proceselor aleatorii.

Prin definiție, un proces aleatoriu este un tip special de funcție, caracterizat prin faptul că, în orice moment, valorile pe care le ia sunt variabile aleatoare.

Ansambluri de implementări.

Când avem de-a face cu semnale deterministe, le afișăm cu dependențe funcționale sau oscilograme. Dacă vorbim de procese aleatorii, atunci situația este mai complicată. Fixând valorile instantanee ale unui semnal aleator la un anumit interval de timp, obținem doar o singură realizare a unui proces aleatoriu. Un proces aleatoriu este o colecție infinită de astfel de realizări care formează un ansamblu statistic. De exemplu, un ansamblu este un set de semnale care pot fi observate simultan la ieșirile exact ale acelorași generatoare de tensiune de zgomot.

Nu este deloc necesar ca implementările unui proces aleatoriu să fie reprezentate de funcții cu comportament complex, neregulat în timp. De multe ori este necesar să se ia în considerare procese aleatorii formate, de exemplu, din tot felul de semnale armonice, în care unul dintre cei trei parametri este o variabilă aleatoare care ia o anumită valoare în fiecare implementare. Natura aleatorie a unui astfel de semnal constă în imposibilitatea determinării prealabile a valorii acestui parametru, anterior experimentului.

Procesele aleatoare formate din realizări care depind de un număr finit de parametri sunt de obicei numite procese aleatoare cvasi-deterministe.

Densitățile de probabilitate ale proceselor aleatorii.

Fie un proces aleatoriu, dat de un ansamblu de realizări, să fie un moment arbitrar în timp. Fixând valorile obținute în implementările individuale, efectuăm o secțiune transversală unidimensională a unui proces aleator dat și observăm o variabilă aleatorie. Densitatea sa de probabilitate se numește densitatea de probabilitate unidimensională a procesului în momentul de timp.

Conform definiției, cantitatea este probabilitatea ca realizările procesului aleator în momentul de timp să ia valori aflate în interval

Informațiile care pot fi extrase din densitatea unidimensională sunt insuficiente pentru a judeca natura dezvoltării realizărilor unui proces aleatoriu în timp. Mult mai multe informații pot fi obținute prin existența a două secțiuni ale unui proces aleatoriu în momente de timp nepotrivite. O variabilă aleatoare bidimensională apărută într-un astfel de experiment de gândire este descrisă printr-o densitate de probabilitate bidimensională. Această caracteristică a unui proces aleatoriu face posibilă calculați probabilitatea unui eveniment la care implementarea unui proces aleator la are loc într-o mică vecinătate a unui punct și pentru - într-o mică vecinătate a punctului

O generalizare naturală este secțiunea -dimensională a unui proces aleatoriu care duce la densitatea probabilității -dimensionale

Densitatea de probabilitate multidimensională a unui proces aleator trebuie să satisfacă condițiile uzuale impuse densității de probabilitate a unei colecții de variabile aleatoare (vezi § 6.2). În plus, valoarea nu ar trebui să depindă de ordinea în care sunt situate argumentele sale (condiția de simetrie).

Uneori, în loc de densitatea de probabilitate -dimensională, este convenabil să se utilizeze funcția caracteristică -dimensională, care este legată de densitatea corespunzătoare prin transformarea Fourier:

Descrierea proprietăților proceselor aleatorii folosind densități de probabilitate multidimensionale de înaltă dimensiune poate fi foarte detaliată. Cu toate acestea, dificultăți matematice serioase sunt adesea întâlnite pe această cale.

Funcția de moment a proceselor aleatorii.

Mai puțin detaliate, dar, de regulă, destul de satisfăcătoare din punct de vedere practic, caracteristicile proceselor aleatorii pot fi obținute prin calcularea momentelor acelor variabile aleatorii care se observă în secțiunile transversale ale acestor procese. Deoarece, în cazul general, aceste momente depind de argumente de timp, ele se numesc funcții moment.

Pentru ingineria radio statistică, trei funcții de moment de ordin inferior sunt de cea mai mare importanță, numite așteptare matematică, varianță și funcție de corelație.

Valorea estimata

este valoarea medie a procesului X (t) la momentul curent; medierea se realizează pe întregul ansamblu de realizări ale procesului.

Dispersia

face posibilă aprecierea gradului de împrăștiere a valorilor instantanee luate de realizările individuale într-o secțiune fixă ​​t, raportat la valoarea medie.

Moment central 2D

se numește funcția de corelare a unui proces aleatoriu Această funcție moment caracterizează gradul de conexiune statistică a acelor variabile aleatoare care se observă atunci când Comparând formulele (6.37), (6.38), observăm că atunci când se combină secțiunile transversale, funcția de corelare este egal numeric cu varianța:

Procese stocastice staționare.

Deci, se obișnuiește să se numească procese aleatorii, ale căror caracteristici statistice sunt aceleași în toate secțiunile.

Ei spun că un proces aleatoriu este staționar în sens restrâns; dacă oricare dintre densitatea sa de probabilitate -dimensională este invariantă în raport cu deplasarea în timp

Dacă restricționăm cerințele astfel încât așteptarea matematică și varianța procesului să nu depind de timp, iar funcția de corelare depinde doar de diferență -, atunci un astfel de proces aleatoriu va fi staționar în sens larg. Este clar că staționaritatea în sens restrâns implică staționaritate în sens larg, dar nu și invers.

După cum reiese din definiție, funcția de corelare a unui proces aleator staționar este pară:

În plus, valorile absolute ale acestei funcții pentru oricare nu depășesc valoarea acesteia pentru:

Metoda demonstrării este următoarea: din inegalitatea evidentă

urmează că

de unde urmează direct inegalitatea (6.41).

Este adesea convenabil să utilizați funcția de corelare normalizată

pentru care .

Pentru a ilustra conceptul de proces stocastic staționar, luați în considerare două exemple.

Exemplul 6.5. Un proces aleatoriu este format din realizările formei în care sunt cunoscute dinainte, în timp ce unghiul de fază este o variabilă aleatoare distribuită uniform pe intervalul -

Deoarece densitatea de probabilitate a unghiului de fază, așteptarea matematică a procesului

În mod similar, puteți găsi variația:

În sfârșit, funcția de corelare

Deci, acest proces aleatoriu satisface toate condițiile care sunt necesare pentru a asigura staționaritatea în sens larg.

Exemplul 6.6. Un proces aleatoriu are realizări ale formei și, în plus, numere date. - o variabilă aleatoare cu o lege de distribuție arbitrară. Valorea estimata

va fi independent de timp numai pentru.De aceea, în cazul general, procesul aleator considerat va fi nestaționar.

Proprietate ergonomică.

Un proces aleator staționar se numește ergodic dacă, la găsirea funcțiilor sale de moment, media asupra unui ansamblu statistic poate fi înlocuită cu media în timp. Operația de mediere este efectuată pe o singură implementare a cărei durată T poate fi teoretic arbitrar lungă,

Indicând media în timp prin paranteze unghiulare, scriem așteptările matematice ale unui proces aleator ergodic:

care este egal cu componenta constantă a implementării alese.

Dispersia unui proces similar

Deoarece cantitatea este puterea medie a realizării, iar cantitatea este puterea componentei constante, varianța are o semnificație vizuală a puterii componentei de fluctuație a procesului ergodic.

Funcția de corelare se găsește într-un mod similar:

O condiție suficientă pentru ergodicitatea unui proces aleator staționar în sens larg este tendința la zero a funcției de corelare cu o creștere nelimitată a deplasării în timp:

S-a demonstrat în matematică că această cerință poate fi oarecum relaxată. Se dovedește că un proces aleatoriu este ergodic dacă condiția Slutsky este îndeplinită:

Astfel, egalitatea (6.47) este valabilă pentru un proces armonic cu o fază inițială aleatorie (vezi Exemplul 6.5).

Măsurarea caracteristicilor proceselor aleatorii.

Dacă un proces aleatoriu este ergodic, atunci realizarea lui de lungime suficientă este un reprezentant „tipic” al unui ansamblu statistic. Studiind această implementare experimental, puteți obține o mulțime de informații care caracterizează acest proces aleatoriu.

Dispozitivul pentru măsurarea densității de probabilitate unidimensională a unui proces aleatoriu poate fi realizat după cum urmează. Densitatea de probabilitate unidimensională a unui proces aleator ergodic este o mărime proporțională cu timpul de rezidență relativ al realizării acestuia la nivelul dintre Să presupunem că există un dispozitiv cu două intrări, dintre care una este alimentată cu realizarea studiată x (t) , iar celălalt este o tensiune constantă de referință, al cărei nivel poate fi reglat. La ieșirea dispozitivului apar impulsuri video dreptunghiulare de amplitudine constantă, al căror început și sfârșit sunt determinate de momentele în timp în care valorile curente ale semnalului aleatoriu coincid fie cu nivelul, fie cu nivelul acestui dispozitiv. va fi proporțională cu densitatea de probabilitate

Orice dispozitiv indicator suficient de inerțial poate fi folosit pentru a măsura așteptările matematice ale unui proces aleatoriu [vezi. formula (6.43)].

Un dispozitiv care măsoară varianța unui proces aleatoriu, după cum urmează din (6.44), trebuie să aibă la intrare un condensator care separă componenta DC. Alți pași în procesul de măsurare - pătrarea și media în timp - sunt efectuate cu un voltmetru pătratic inerțial.

Principiul de funcționare al contorului funcției de corelare (corelometru) rezultă din formula (6.45). Aici, valorile instantanee ale semnalului aleatoriu după filtrarea componentei constante, împărțirea în canale, sunt transmise multiplicatorului, iar într-unul dintre canale semnalul este întârziat pentru un timp. Pentru a obține valoarea funcției de corelare, semnalul de la ieșirea multiplicatorului este procesat de o unitate inerțială, care efectuează o medie.

Indiferent de dimensiune

Aici se adoptă aceleași denumiri ca și în formula (6.26). Elementele matricei de corelație a acestui proces aleatoriu sunt determinate de funcția de corelație normalizată:

În cele ce urmează, vom folosi adesea densitatea gaussiană bidimensională

Un proces gaussian staționar ocupă un loc exclusiv printre alte procese aleatoare - oricare dintre densitatea sa de probabilitate multidimensională este determinată de două caracteristici: așteptarea matematică și funcția de corelare.

Prognoza analitică a proceselor multidimensionale.

Metoda parametrilor generalizati.

Scopul muncii: studiul tehnicilor practice de predicție a stării unui obiect multiparametric.

Scurte informatii teoretice:

O modificare a stării sistemelor tehnice poate fi considerată ca un proces caracterizat prin modificări ale unui set de parametri. Poziția vectorului de stare în spațiu determină gradul de performanță a sistemului. Starea sistemului este caracterizată de un vector în spațiul k-dimensional, unde coordonatele spațiului sunt k parametri ai sistemului.

Predicția stării se reduce la controlul preliminar periodic al parametrilor; determinarea la momente t i T 1 a monitorizării funcţiei de stare

Q = Q [ ] și calcularea valorilor funcției de stare Q în intervalul de timp T 2> T 1.

În acest caz, cu cât vectorul de stare este situat mai departe de hipersuprafața valorilor admisibile ale gradului de operabilitate Q*, cu atât operabilitatea sistemului este mai mare. Cu cât diferența * este mai mică, cu atât nivelul de performanță este mai scăzut.

Utilizarea metodelor de prognoză analitică presupune regularitatea modificărilor componentelor procesului în timp.

Ideea metodei parametrilor generalizați este că un proces caracterizat de multe componente este descris de o funcție unidimensională, ale cărei valori numerice depind de componentele controlate ale procesului. O astfel de funcție este considerată un parametru de proces generalizat. În acest caz, se poate dovedi că parametrul generalizat nu are o semnificație fizică specifică, ci este o expresie matematică construită artificial din componentele controlate ale procesului prezis.

La generalizarea parametrilor care caracterizează gradul de operabilitate a sistemelor tehnice, este necesar să se rezolve următoarele sarcini:

Determinarea valorilor relative ale parametrilor primari;

Evaluarea semnificației parametrului primar pentru aprecierea stării obiectului;

Construirea unei expresii matematice pentru un parametru generalizat.

Determinarea valorilor relative ale parametrilor primari este necesară datorită faptului că starea unui obiect poate fi caracterizată prin parametri cu dimensiuni diferite. Prin urmare, toți parametrii primari monitorizați ar trebui reduși la un singur sistem de calcul, în care să poată fi comparabili. Un astfel de sistem este sistemul de calcul relativ adimensional (normalizat).

De fapt, pentru fiecare parametru, s = 1, 2, ..., k, se poate selecta valoarea admisibilă, *, la atingerea căreia obiectul își pierde performanța, și valoarea optimă a opt (deseori este egală cu valoarea nominală a lui n).

Lăsați condiția să fie îndeplinită în timpul funcționării obiectului. Dacă , este suficient să introduceți în parametrul local și atunci condiția cerută va fi îndeplinită.

Să scriem parametrul fără dimensiune (normalizat) sub forma:

Unde , și la , și la .

Astfel, folosind expresia (1), parametrul este normalizat, iar valoarea normalizată adimensională se modifică în timp de la 1 la 0. De aici, după valoare, se poate judeca gradul de performanță al obiectului după acest parametru. Teoretic poate fi, dar asta înseamnă că în practică obiectul este inoperabil.

Puteți specifica diverse expresii normalizate care sunt convenabile pentru rezolvarea anumitor probleme, de exemplu:

etc., unde - respectiv curent, zero, mat. aşteptând parametrul S --lea.

Utilizarea expresiilor de normalizare permite obținerea unui set de mărimi adimensionale care caracterizează starea unui obiect. Cu toate acestea, cantitativ, aceeași modificare a acestor valori nu este echivalentă în ceea ce privește gradul de influență asupra modificării performanței obiectului, prin urmare, este necesar să se diferențieze parametrii primari. Acest proces se realizează folosind coeficienți de ponderare, ale căror valori caracterizează importanța parametrilor corespunzători pentru esența fizică a problemei. În acest caz, lăsați parametrii obiectului factori de ponderare corespunzători satisfacerea unuia sau altul criteriu dat și .

Gradul de performanță al unui obiect pentru un set de parametri monitorizați poate fi estimat folosind o expresie generalizantă

Unde este parametrul generalizat al obiectului.

Expresia (2) este o medie liniară. Din definirea parametrului generalizat rezultă că, cu cât este mai mare valoarea și, cu atât este mai mare contribuția termenului (parametrului) S la.

Un parametru generalizat poate fi definit folosind o expresie a formei

, (3)

care este media neliniară. Pentru un astfel de model este îndeplinită și condiția: cu atât mai mare și, cu atât mai mare este contribuția termenului în amploare.

În practică, sunt utilizate și alte forme de înregistrare a mediei neliniare, de exemplu:

, (4)

, (5)

unde alege astfel încât (5) oferind cea mai bună aproximare a rezultatelor obţinute experimental.

Când se iau în considerare expresii pentru un parametru generalizat, s-a presupus că acesta nu își schimbă semnul, adică întotdeauna. Dacă este necesar să se țină seama de semn, expresia (2) se transformă în formă

, (6)

Astfel, utilizarea unui parametru generalizat face posibilă reducerea problemei de a prezice starea unui obiect multiparametru la prezicerea unei funcții de timp unidimensionale.

Exemplu. Testele obiectului timp de 250 de ore, în care au fost controlați 6 parametri, au dat rezultatele prezentate în tabelul 1.

tabelul 1

I n, nom = 9,5

V g1. număr = 120

I a, nom = 2,0

I g3, nom = 70

După normalizarea valorilor parametrilor folosind expresia (1), tabelul ia forma (tabelul 2)

masa 2

Modul Tehnologii de analiză de explorare multidimensională STATISTICA(unul dintre modulele de produs STATISTICA Avansat) oferă o gamă largă de tehnologii de explorare, de la analiza cluster până la metode avansate de clasificare a arborelui, combinate cu un set imens de instrumente de vizualizare interactive pentru construirea de modele. Modulul include:

În modul Analiza grupului a fost implementat un set complet de metode pentru analiza cluster a datelor, inclusiv metode de k-means, clustering ierarhic și îmbinare cu două intrări. Datele pot veni atât în ​​forma sa originală, cât și sub forma unei matrice a distanțelor dintre obiecte. Observațiile, variabilele și/sau observațiile și variabilele pot fi grupate folosind diferite măsuri de distanță (euclidian, pătrat euclidian, blocuri (Manhattan), Chebyshev, putere, procent de neconformitate și coeficientul de corelație 1 al lui Pearson) și diferite reguli de combinare (legare) clustere (unică, conexiune completă, medie perechi neponderată și ponderată pentru grupuri, distanță neponderată, ponderată între centre, metoda lui Ward și altele).

Matricele de distanță pot fi salvate pentru analize ulterioare în alte module ale sistemului STATISTICA... Când efectuează analiza cluster k-means, utilizatorul are control complet asupra locației inițiale a centrelor clusterului. Pot fi executate planuri de analiză extrem de mari: de exemplu, cu legături ierarhice (ca arbore), puteți lucra cu o matrice de 90 de mii de distanțe. Pe lângă rezultatele standard ale analizei cluster, modulul oferă, de asemenea, un set divers de statistici descriptive și metode avansate de diagnosticare (schemă de fuziune completă cu niveluri de prag pentru clustering ierarhic, tabel ANOVA pentru clustering k-means). Informațiile despre apartenența obiectelor la clustere pot fi adăugate la fișierul de date și utilizate în analize ulterioare. Capacitățile grafice ale modulului Analiza grupului Include dendrograme personalizabile, diagrame de îmbinare în două sensuri, diagrame de modele de îmbinare, mijloace de grupare k-means și multe altele.

Modul Analiza factorilor conține o gamă largă de statistici și metode de analiză factorială (precum și analiza factorială ierarhică) cu diagnosticare avansată și o mare varietate de diagrame exploratorii și exploratorii. Aici puteți efectua analiza componentelor principale și a factorilor principali (general și ierarhic oblic) pe seturi de date care conțin până la 300 de variabile (modelele mai mari pot fi explorate folosind modulul (SEPATH)).

Analiza și clasificarea componentelor principale

STATISTICA include, de asemenea, un program de analiză și clasificare a componentelor principale. Ieșirile acestui program sunt valori proprii (normale, cumulate și relative), încărcări de factori și coeficienți de scor factori (care pot fi adăugate la fișierul de date de intrare, vizualizate în pictograf și recodificate interactiv), precum și câteva statistici mai specializate și diagnostice. Utilizatorul are următoarele metode de rotație a factorilor: varimax, biquartimax, quartimax și equimax (în funcție de sarcinile normalizate sau inițiale), precum și rotații oblice.

Spațiul factorilor poate fi vizualizat felie cu felie în diagrame de dispersie 2D sau 3D cu punctele de date marcate; printre alte instrumente grafice - diagrame „scree”, diverse tipuri de diagrame de dispersie, histograme, diagrame cu linii etc. După ce soluția factorială este determinată, utilizatorul poate calcula (reproduce) matricea de corelație și poate evalua consistența modelului factorilor prin analizarea matrice de corelație reziduală (sau matrice de varianță reziduală / covarianță). Ca intrare, puteți utiliza atât date brute, cât și matrice de corelare. Analiza factorială de confirmare și alte analize aferente pot fi efectuate folosind modulul Modelarea ecuației structurale(SEPATH) din bloc STATISTICA Modele generale liniare si neliniare unde un expert special pentru analiza factorilor de confirmare va ghida utilizatorul prin toate etapele construirii modelului.

Acest modul implementează un set complet de metode de analiză canonică (complementare cu metodele de analiză canonică integrate în alte module). Puteți lucra atât cu fișiere de date brute, cât și cu matrice de corelație; sunt calculate toate statisticile standard ale corelației canonice (vectori proprii și valori proprii, coeficienți de redundanță, ponderi canonice, încărcări, varianțe, criterii de semnificație pentru fiecare dintre rădăcini etc.), precum și unele diagnostice extinse. Pentru fiecare observație, pot fi calculate valorile variabilelor canonice, care pot fi apoi vizualizate pe pictograme încorporate (și, de asemenea, adăugate la fișierul de date).

Acest modul include o gamă largă de proceduri pentru proiectarea și evaluarea studiilor și chestionarelor eșantion. Ca în toate modulele sistemului STATISTICA, aici pot fi analizate seturi de date extrem de mari (o scară de 300 de poziții poate fi procesată într-un apel de program).

Este posibil să se calculeze statistici de fiabilitate pentru toate pozițiile de pe scară, să se selecteze interactiv subseturi și să se compare între subseturi de poziții folosind metoda „split-half” sau „split-part”. Într-un singur apel, puteți evalua fiabilitatea scalei totale și a subscalei. Cu ștergerea interactivă a pozițiilor, fiabilitatea scalei rezultate este calculată instantaneu fără a reaccesa fișierul de date. Pe măsură ce rezultatele analizei sunt emise: matrice de corelație și statistici descriptive pentru poziții, alfa lui Cronbach, alfa standardizată, corelația medie poziție-poziția, un tabel complet de analiză a varianței pentru scară, un set complet de statistici comune tuturor pozițiilor (inclusiv coeficienți de corelație multipli), semifiabilitatea corectată cu atenuarea divizată și corelația dintre cele două jumătăți.

Există o selecție mare de grafice (inclusiv diagrame de împrăștiere încorporate, histograme, linie și alte diagrame) și un set de proceduri interactive de tip „hy-if” pentru a vă ajuta să proiectați scale. De exemplu, atunci când adaugă un număr de întrebări la scară, utilizatorul poate calcula fiabilitatea așteptată sau poate estima numărul de întrebări care trebuie adăugate la scară pentru a obține fiabilitatea dorită. În plus, puteți corecta pentru atenuarea între scara curentă și o altă dimensiune (dată fiind fiabilitatea scalei curente).

Modul sisteme STATISTICA conține cea mai completă implementare a metodelor dezvoltate recent de construcție și testare eficiente (metoda arborilor de clasificare este o modalitate definită ("iterativă") de a prezice clasa căreia îi aparține un obiect, pe baza valorilor variabilelor predictoare pentru acest obiect). Arborii de clasificare pot fi construiți pe predictori categoriali sau ordinali sau pe un amestec al ambelor tipuri de predictori prin ramificarea pe variabile individuale sau pe combinațiile lor liniare.

Modulul implementează, de asemenea: o alegere între o căutare în forță brută a opțiunilor de ramificare (ca în pachetele THAID și CART) și ramificare discriminantă; selectarea imparțială a variabilelor de ramură (ca în pachetul QUEST); specificarea explicită a regulilor de oprire (ca în pachetul FACT) sau tăierea de la frunzele copacului până la rădăcină (ca în pachetul CART); tăierea după fracția erorilor de clasificare sau prin funcția de abatere; măsuri generalizate ale bunătății chi-pătrat, G-pătrat și indicele Gini. Probabilitățile anterioare de apartenență la clasă și costul erorilor de clasificare pot fi setate egale, estimate din date sau setate manual.

De asemenea, utilizatorul poate seta multiplicitatea verificării încrucișate în timpul construcției arborelui și pentru estimarea erorii, parametrul SE-regula, numărul minim de obiecte la vârful de tăiere, semințele pentru generatorul de numere aleatoare și parametrul alfa pentru selecție a variabilelor. Grafica încorporată ajută la explorarea datelor de intrare și de ieșire.

Acest modul conține o implementare completă a metodelor de analiză simplă și multidimensională a corespondențelor, fiind posibil să se analizeze tabele de dimensiuni foarte mari. Programul acceptă următoarele tipuri de fișiere de date: fișiere care conțin variabile categorizate, care sunt folosite pentru a construi o matrice de contingență (clasificare încrucișată); fișiere de date care conțin tabele de frecvență (sau orice alte măsuri de corespondență, relație, asemănare, dezordine etc.) și variabile de cod care definesc (enumeră) celulele tabelului de intrare; fișiere de date care conțin frecvențe (sau alte măsuri de conformitate). De exemplu, un utilizator poate crea și analiza direct un tabel de frecvență. În plus, în cazul analizei de corespondență multivariată, este posibilă specificarea directă a matricei Bert ca intrare.

În acest proces, programul calculează diverse tabele, inclusiv un tabel cu procente pe rând, pe coloană și procent din total, valori așteptate, diferențe între valorile așteptate și cele observate, abateri standardizate și contribuții la statistica chi-pătrat. Toate aceste statistici pot fi trasate pe histograme 3D și vizualizate folosind o tehnică de stratificare dinamică dedicată.

În modul se calculează valorile proprii generalizate și vectorii proprii și se produce un set standard de valori de diagnosticare, inclusiv valori singulare, valori proprii și o fracțiune de inerție atribuită fiecărei măsurători. Utilizatorul poate fie să selecteze numărul de măsurători, fie să stabilească un prag pentru procentul maxim cumulat de inerție.

Programul calculează coordonatele standard pentru punctele de rând și punctele de coloană. Utilizatorul poate alege între standardizarea după profil de rând, profil de coloană, profil de rând și coloană sau standardizare canonică. Pentru fiecare dimensiune și pentru fiecare punct-rând și punct-coloană, programul calculează valorile inerției, calității și cosinus ** 2. În plus, utilizatorul poate afișa (în fereastra de rezultate) matricele vectorilor singulari generalizați. Ca orice date din fereastra de lucru, aceste matrici sunt disponibile pentru procesare folosind programe în limbaj STATISTICA Visual Basic, de exemplu, pentru a utiliza orice metode non-standard pentru calcularea coordonatelor.

Utilizatorul poate calcula coordonatele și statisticile aferente (calitate și cosinus ** 2) pentru puncte suplimentare (-coloane sau -linii) și poate compara rezultatele cu punctele de rând și punctele de coloană inițiale. Puncte suplimentare pot fi utilizate în analiza de potrivire multivariată. Pe lângă histogramele 3D, care pot fi calculate pentru toate tabelele, utilizatorul poate afișa graficul cu valori proprii, diagrame uni, bidimensionale și tridimensionale pentru punctele rând și punctele coloanei. Punctele rând și punctele coloanei pot fi afișate simultan pe aceeași diagramă, împreună cu orice puncte suplimentare (fiecare tip de punct folosește o culoare diferită și un marcator unic, astfel încât punctele diferite vor fi ușor de distins pe diagrame). Toate punctele au marcatori, iar utilizatorul are posibilitatea de a seta dimensiunea marcatorului.

În modul a fost implementat un set complet de metode de scalare multidimensională (nonmetrică). Aici se pot analiza matrice de similaritate, diferențe și corelații între variabile, iar dimensiunea spațiului de scalare poate ajunge la 9. Configurația inițială poate fi calculată de program (folosind analiza componentelor principale) sau specificată de utilizator. Mărimea stresului și coeficientul de alienare sunt minimizate folosind o procedură iterativă specială.

Utilizatorul are capacitatea de a observa iterațiile și de a monitoriza modificările acestor valori. Configurația finală poate fi vizualizată în tabelul de rezultate, precum și în diagrame de dispersie 2D și 3D în spațiul la scară cu puncte de obiect marcate. Ieșirile sunt: ​​stresul nestandardizat (F), factorul de stres S al lui Kruskal și factorul de excludere. Nivelul de acord poate fi evaluat folosind diagrame Shepard (cu „d cu un capac” și „d cu un asterisc”). Ca toate rezultatele analizelor din sistem STATISTICA, configurația finală poate fi salvată ca fișier de date.

Modul conține o implementare completă a metodelor de analiză discriminantă treptat folosind funcții discriminante. STATISTICA include si un modul Modele de analiză discriminantă generală (GDA) pentru a se potrivi proiectelor de tip ANOVA / ANCOVA ale variabilelor dependente categorice sau pentru a efectua diferite tipuri de analize (de exemplu, alegerea mai bună a predicțiilor, profilarea probabilităților posterioare).

Programul vă permite să efectuați analize cu includerea sau excluderea treptată a variabilelor sau să introduceți în modelul blocuri de variabile definite de utilizator. Pe lângă numeroasele grafice și statistici care descriu funcția de împărțire (discriminare), programul conține și un set mare de instrumente și statistici pentru clasificarea observațiilor vechi și noi (pentru a evalua calitatea modelului). Rezultatele sunt: ​​statistici lambda Wilkes pentru fiecare variabilă, lambda privată, statistici F pentru includere (sau excludere), niveluri de semnificație p, valori de toleranță și pătratul coeficientului de corelație multiplă. Programul efectuează o analiză canonică completă și returnează toate valorile proprii (în formă directă și cumulativă), nivelurile lor de semnificație p, coeficienții funcției discriminante (canonice) (în formă directă și standardizată), coeficienții matricei structurale (factor). încărcări), valori medii ale funcției discriminante și greutăți discriminante pentru fiecare obiect (pot fi adăugate automat în fișierul de date).

Suportul grafic încorporat include: histograme de ponderi canonice pentru fiecare grup (și comune pentru toate grupurile), diagrame de dispersie speciale pentru perechi de variabile canonice (care indică grupului căruia îi aparține fiecare observație), un set mare de diagrame clasificate (multiple) , permițându-vă să explorați distribuția și relațiile dintre variabilele dependente pentru diferite grupuri (inclusiv: diagrame multiple, cum ar fi diagrame, histograme, diagrame de dispersie și diagrame de probabilitate normală) și multe altele.

În modul de asemenea, puteți calcula funcțiile standard de clasificare pentru fiecare grup. Rezultatele clasificării cazurilor pot fi afișate în termeni de distanțe Mahalanobis, probabilități posterioare și rezultatele clasificării în sine, iar valorile funcției discriminante pentru cazuri individuale (valori canonice) pot fi vizualizate pe pictograme de ansamblu și alte multidimensionale. diagrame disponibile direct din tabelele de rezultate. Toate aceste date pot fi adăugate automat la fișierul de date curent pentru analize ulterioare. De asemenea, puteți afișa matricea finală de clasificare, care arată numărul și procentul cazurilor clasificate corect. Există diverse opțiuni pentru stabilirea probabilităților a priori de apartenență la clase, precum și condiții de selecție care vă permit să includeți sau să excludeți anumite observații din procedura de clasificare (de exemplu, pentru a verifica apoi calitatea acesteia pe un eșantion nou).

Modele de analiză discriminantă generală (GDA)

Modul STATISTICA Modele de analiză discriminantă generală (GDA) este o aplicație și o extensie Modele liniare generale pentru a clasifica sarcinile. La fel ca modulul Analiza discriminantă GDA permite efectuarea de analize discriminante secvențiale de rutină. GDA prezintă problema analizei discriminante ca un caz special al modelului liniar general și oferă astfel noi tehnologii analitice extrem de utile.

Ca și în cazul analizei discriminante convenționale, GDA vă permite să selectați categoriile dorite de variabile dependente. În analiză, grupurile de elemente sunt scrise ca variabile indicator, iar toate metodele GRM pot fi aplicate cu ușurință. O mare varietate de statistici reziduale GRM și GLM sunt disponibile în dialogul de rezultate GDA.

GDA oferă o varietate de instrumente puternice pentru extragerea datelor și cercetarea aplicată. GDA calculează toate rezultatele analizei discriminante standard, inclusiv coeficienții funcției discriminante, rezultatele analizei canonice (coeficienți standardizați și bruti, teste în trepte ale rădăcinilor canonice etc.), statistici de clasificare (inclusiv distanța Mahalanobis, probabilitățile posterioare, clasificarea observațiilor în analize valide, matrice de clasificare greșită etc.). Pentru mai multe informații despre caracteristicile unice ale GDA

Un proces aleator staționar multidimensional este definit ca un set de procese aleatoare staționare și staționare interconectate ... Un astfel de proces este de obicei notat ca un vector coloană aleatoriu, în funcție de timp:

.

Procesele stocastice multidimensionale sunt utilizate pentru a descrie sisteme multidimensionale (multicanal). În această secțiune, luăm în considerare problema modelării digitale a proceselor aleatoare staționare multidimensionale normale. Rezultatul rezolvării acestei probleme, ca și în cazul unidimensional, este un algoritm care face posibilă formarea realizărilor discrete multidimensionale ale unui proces dat pe un computer digital. -procesul aleator staționar normal continuu dimensional este de obicei specificat fie sub forma matricei sale de corelație

sau sub forma unei matrice spectrale

Unde - funcțiile de autocorelare (at) și de corelație încrucișată (at) ale proceselor aleatoare - transformata Fourier a. Mai mult, din moment ce , elementele și matricea spectrală sunt conjugate complexe,

.

Procesele aleatoare normale multidimensionale discrete sunt definite în mod similar cu cele continue folosind corelații și matrici spectrale (35, 70]

Unde , și .

Este oportun să se formuleze problema modelării digitale a unui proces aleator normal multidimensional după cum urmează. Este dată o corelație sau o matrice spectrală a unui proces aleatoriu. Este necesar să se găsească un algoritm pentru formarea realizărilor discrete ale unui proces aleatoriu cu proprietăți de corelație (spectrale) specificate pe un computer digital.

Pentru a rezolva această problemă, vom folosi, ca și până acum, ideea unui filtru liniar de modelare. În acest caz, vorbim despre sinteza unui filtru de modelare multidimensional.

Un filtru de linie măsurat este definit ca un sistem dinamic liniar cu intrări și ieșiri. Dacă - acțiune de intrare și este răspunsul sistemului, atunci conexiunea dintre intrarea și ieșirea filtrului continuu liniar -dimensional este descrisă folosind matricea de transfer sub forma

Unde și - imagini ale semnalelor de intrare și respectiv de ieșire, în sensul transformării Laplace; - matricea de transfer a filtrului -dimensional, în care elementele sunt funcțiile de transfer ale canalelor -a intrare - -a ieșire.

Conexiunea intrare-ieșire în filtre liniare dimensionale discrete este descrisă într-un mod similar:

,

unde si - imagini în sensul transformării discrete Laplace a semnalelor de intrare și de ieșire; - matricea de transfer a unui filtru dimensional discret.

Diagrama bloc a unui filtru multidimensional folosind un filtru bidimensional ca exemplu este prezentată în Fig. 2.9, conform căruia

(2.107)

Vedem că fiecare dintre semnalele de ieșire și este suma operatorilor liniari din semnalele de intrare și. Relații similare sunt valabile în cazul general. Aceasta este identificarea matricelor de transfer.

Fie că influența la intrarea unui filtru liniar -dimensional este un zgomot alb -dimensional, adică un proces aleatoriu cu o matrice de corelație de forma

pentru timp continuu şi

pentru timp discret, unde - functie delta. Zgomotul alb dimensional este definit aici ca un set de procese aleatoare corelate reciproc independente.

Se poate arăta (a se vedea, de exemplu,) că atunci când este expusă la zgomot alb, matricea spectrală a procesului la ieșire - un filtru dimensional pentru timp continuu și, respectiv, discret, este legată de matricea de transfer a filtrului de către relaţii

(2.108)

unde simbolul denotă matricea transpusă.

Prin urmare, pentru a obține un proces aleator -dimensional cu o matrice spectrală dată, este necesar să treceți zgomotul alb -dimensional prin filtrul de modelare -dimensional, a cărui matrice de transfer satisface ecuațiile (2.108). Pentru a găsi matricea de transfer pentru o matrice spectrală dată, este necesară împărțirea acesteia din urmă în doi factori de forma (2.108). Această procedură se numește factorizare matrice spectrală. Poate fi implementat folosind algoritmi cunoscuți.

Filtrarea multivariată a zgomotului alb este destul de simplă: fiecare componentă un proces aleatoriu la ieșirea unui filtru dimensional cu o matrice de transfer este obținut prin însumarea componentelor proces de intrare, filtrat prin filtre unidimensionale cu funcții de transfer [vezi. formula (2.107)]. Algoritmii de filtrare unidimensionali sunt discutați mai sus.

Cu această metodă de modelare, sunt posibile două moduri: 1) o matrice spectrală dată a unui proces aleator continuu -dimensional poate fi factorizată direct pentru a obține matricea de transfer a unui filtru de modelare continuă și apoi, folosind metodele exacte sau aproximative de discretizare a filtre continue descrise mai sus, filtrare multivariată a zgomotului alb continuu; 2) pentru o matrice spectrală dată a unui proces -dimensional continuu, folosind transformarea -, se poate găsi matricea spectrală a procesului aleator discret corespunzător (vezi § 2.3), apoi, prin factorizare, se află funcția de transfer a modelării discrete filtrați și apoi efectuați filtrarea multidimensională a zgomotului alb discret.

Cele mai mari dificultăți se întâlnesc în factorizarea matricelor spectrale. În prezent, s-au dezvoltat algoritmi pentru factorizarea numai a matricelor spectrale raționale, adică acele matrici ale căror elemente sunt funcții raționale fracționale ale argumentelor sau.

Să descriem, omițând dovezile, unul dintre algoritmii de factorizare a matricelor spectrale raționale, preluat din.

Să fie dată o matrice spectrală rațională

.

Matricea poate fi redusă la formă

prin următoarele transformări.

1. Se determină rangul matricei, apoi unul dintre minorii de ordine principală este situat în colțul din stânga sus al matricei.

2. Matricea este redusă la o formă diagonală. Pentru a face acest lucru, primul rând înmulțit cu - se adaugă la al treilea rând al matricei, apoi prima coloană înmulțită cu; se obține matricea

, (2.109)

unde elementele matricei

au forma

(2.110)

Cu matricea se efectuează aceleași transformări ca și cu matricea originală ... Continuarea acestui proces la pasul a treia dă matricea diagonală

astfel încât .

3. Găsiți matricea auxiliară

ale căror elemente sunt următoarele:

(2.111)

unde sunt determinate din relaţiile de recurenţă

(2.112)

4. Găsiți polinoame auxiliare

Unde - zerourile de polinoame situate în semiplanul inferior, numărate de câte ori multiplicitatea lor maximă și sunt numitorii funcțiilor fracționale-raționale care sunt elemente ale matricei:

.

5. Prin metoda considerată la § 2.9, pct. 2, funcţiile fracţionare-raţionale

sunt prezentate sub formă

,

unde polinoamele și nu au zerouri în semiplanul inferior.

Aceasta încheie procesul de factorizare. Matricea finală de transfer a filtrului de modelare este scrisă sub formă

(2.113)

Aici descriem un algoritm pentru factorizarea matricelor spectrale raționale ale proceselor multidimensionale continue. Factorizarea matricelor spectrale ale proceselor discrete se realizează într-un mod similar, numai că în locul rădăcinilor situate în semiplanul inferior se iau rădăcinile situate în cercul unitar.

Exemplul 1. Să fie dat un proces aleator centrat staționar continuu bidimensional cu o matrice de corelație

, (2.114)

unde sunt unele constante pozitive și .

Matricea de corelație corespunzătoare matricei spectrale (2.114) are forma

, (2.115)

Unde și - momentele de autocorelare și de corelație încrucișată a proceselor și, respectiv; - coeficientul de corelare încrucișată a proceselor și a momentelor de timp coincidente. Coeficienții și sunt în acest caz lățimea (la nivelul 0,5) a spectrelor de energie şi spectrul energetic reciproc al proceselor şi.

Este necesară factorizarea matricei spectrale (2.114) pentru a obține matricea de transfer a filtrului de modelare.

Vom efectua procedura de factorizare pas cu pas în conformitate cu algoritmul de factorizare de mai sus.

1. În acest caz, rangul matricei spectrale.

2. Este nevoie de un pas pentru a aduce matricea în diagonală. Prin formulele (2.109) și (2.110), obținem

.

3. În conformitate cu expresiile (2.111) și (2.112), matricea auxiliară are forma

4. În cazul luat în considerare, trebuie să găsiți un singur polinom auxiliar. Pentru a face acest lucru, trebuie să găsiți rădăcinile numitorului elementului de matrice, adică rădăcinile polinomului. Aceste rădăcini sunt egale

Prin urmare,

.

5. În etapa finală se cere factorizarea funcțiilor fracțional-raționale

În acest caz, rădăcinile numărătorilor și numitorilor funcțiilor raționale fracționale și sunt ușor de calculat. Folosind rădăcinile situate în semiplanul superior (rădăcini cu părți imaginare pozitive), obținem și pentru variabila:

.

În fig. 2.9 prezintă o diagramă bloc a unui filtru de modelare bidimensional, la ieșirea căruia se formează un proces aleator bidimensional cu caracteristicile spectrale necesare dacă zgomotul alb acționează asupra intrării filtrului. Înlocuind filtrul bidimensional continuu cu filtrul discret corespunzător, obținem un algoritm pentru generarea pe un computer digital a realizărilor discrete ale unui proces normal aleator bidimensional, adică realizări discrete a două procese aleatoare normale staționare și staționare cuplate cu exponențial. funcții de auto- și corelație încrucișată de forma (2.115).

Într-o altă abordare a sintezei filtrului de modelare, trebuie mai întâi să găsim matricea spectrală a procesului aleator multidimensional discret corespunzător. În exemplul luat în considerare, această matrice are forma

Și matrice (2.116).

Exemplul luat în considerare arată că factorizarea matricelor spectrale este relativ ușoară dacă se pot găsi analitic zerourile polinoamelor corespunzătoare. La factorizarea matricei spectrale a unui proces bidimensional continuu, acest lucru nu a fost dificil, deoarece pentru a determina zerourile a fost necesar să se rezolve doar ecuații pătratice și biquadratice. La factorizarea matricei spectrale a unui proces bidimensional discret, au existat ecuații pătratice și o ecuație de întoarcere de gradul patru, care admite și o soluție analitică.

În alte cazuri, mai complicate, zerourile polinomului nu pot fi găsite întotdeauna analitic. În aceste cazuri, se recurge la metode numerice pentru rezolvarea ecuațiilor de gradul I. În general, procesul de factorizare poate fi implementat pe un computer digital ca program standard. În acest scop, pe lângă cel prezentat aici, pot fi utilizați și alți algoritmi de factorizare.

Trebuie remarcat faptul că toți algoritmii existenți în prezent pentru factorizarea matricelor spectrale sunt, în general, foarte laborioși.

Top articole similare