Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Operativni sistemi
  • Tehnologija multidimenzionalnih baza podataka. STATISTICA Multivarijantne istraživačke tehnike

Tehnologija multidimenzionalnih baza podataka. STATISTICA Multivarijantne istraživačke tehnike

Teorija slučajnih varijabli proučava probabilističke pojave "u statici", smatrajući ih nekim fiksnim rezultatima eksperimenata. Za opis signala koji odražavaju slučajne pojave koje se razvijaju u vremenu, metode klasične teorije vjerovatnoće su se pokazale nedovoljnim. Takve probleme proučava posebna grana matematike koja se zove teorija slučajnih procesa.

Po definiciji, slučajni proces je posebna vrsta funkcije, koju karakterizira činjenica da su u svakom trenutku vrijednosti koje uzima slučajne varijable.

implementacioni ansambli.

Suočavanje sa deterministički signali, prikazujemo ih kao funkcionalne zavisnosti ili oscilograme. Ako mi pričamošto se tiče slučajnih procesa, situacija je komplikovanija. Fiksiranjem trenutnih vrijednosti slučajnog signala za određeni vremenski period, dobijamo samo jednu implementaciju slučajnog procesa. Slučajni proces je beskonačan skup takvih realizacija koje čine statistički ansambl. Na primjer, ansambl je skup signala koji se može istovremeno posmatrati na izlazima potpuno istih generatora napona buke.

Uopšte nije neophodno da implementacije slučajnog procesa budu predstavljene funkcijama sa složenim, vremenski nepravilnim ponašanjem. Često je potrebno uzeti u obzir slučajne procese formirane, na primjer, od svih mogućih harmonijski signali, za koji je jedan od tri parametra slučajna varijabla koja uzima određenu vrijednost u svakoj implementaciji. Slučajna priroda takvog signala leži u nemogućnosti da se unaprijed zna vrijednost ovog parametra prije eksperimenta.

Slučajni procesi formirani realizacijama koje zavise od konačnog broja parametara obično se nazivaju kvazideterministički slučajni procesi.

Gustoće vjerovatnoće slučajnih procesa.

Neka je slučajni proces definisan ansamblom realizacija, neka je proizvoljan trenutak u vremenu. Fiksirajući vrijednosti dobijene u pojedinačnim implementacijama, izvodimo jednodimenzionalni dio ovog slučajnog procesa i promatramo slučajnu varijablu čija se gustina vjerovatnoće naziva jednodimenzionalna gustina vjerovatnoće procesa u trenutku

Prema definiciji, vrijednost je vjerovatnoća da će implementacija slučajnog procesa u jednom trenutku uzeti vrijednosti koje leže u intervalu

Informacije koje se mogu izvući iz jednodimenzionalnog denziteta nisu dovoljne da se sudi o prirodi razvoja realizacije slučajnog procesa u vremenu. Mnogo više informacija se može dobiti ako imate dva dijela slučajnog procesa u nepodudarnim vremenima. Dvodimenzionalna slučajna varijabla koja proizlazi iz takvog misaonog eksperimenta opisuje se dvodimenzionalnom gustinom vjerovatnoće. Ova karakteristika slučajnog procesa vam omogućava izračunati vjerovatnoću događaja da se implementacija slučajnog procesa u odvija u maloj okolini tačke i na - u malom okruženju tačke

Prirodna generalizacija je -dimenzionalni dio slučajnog procesa koji vodi do -dimenzionalne gustine vjerovatnoće

Multivarijantna gustina verovatnoće slučajnog procesa mora da zadovolji uobičajene uslove nametnute gustini verovatnoće skupa slučajnih varijabli (videti § 6.2). Osim toga, vrijednost ne bi trebala ovisiti o redoslijedu u kojem se nalaze njeni argumenti (uslov simetrije).

Ponekad je, umjesto -dimenzionalne gustine vjerovatnoće, zgodno koristiti funkciju -dimenzionalne karakteristike, koja je povezana s odgovarajućom gustinom Fourierovom transformacijom:

Opis svojstava slučajnih procesa koji koriste visokodimenzionalne višedimenzionalne gustine vjerovatnoće može biti prilično detaljan. Međutim, na tom putu često postoje ozbiljne matematičke poteškoće.

Momentne funkcije slučajnih procesa.

Manje detaljne, ali, po pravilu, sasvim zadovoljavajuće u praktičnom smislu, karakteristike slučajnih procesa mogu se dobiti izračunavanjem momenata onih slučajnih varijabli koje se uočavaju u poprečnim presjecima ovih procesa. Jer u opšti slučaj ovi momenti zavise od vremenskih argumenata, nazivaju se momentnim funkcijama.

Za statističku radiotehniku najveća vrijednost imaju tri momentne funkcije nižeg reda koje se nazivaju srednja vrijednost, varijansa i korelacija.

Očekivana vrijednost

je prosječna vrijednost procesa X(t) u trenutnom vremenu; usrednjavanje se vrši po čitavom ansamblu procesnih realizacija.

Disperzija

omogućava da se proceni stepen disperzije trenutnih vrednosti koje uzimaju pojedinačne implementacije u fiksnom preseku t, u odnosu na prosečnu vrednost.

2D centralni moment

se naziva korelacionom funkcijom slučajnog procesa Ova funkcija momenta karakteriše stepen statistička povezanost one slučajne varijable koje se uočavaju u Upoređujući formule (6.37), (6.38), napominjemo da kada se sekcije kombinuju, korelacija je numerički jednaka disperziji:

Stacionarni slučajni procesi.

Stoga je uobičajeno nazivati ​​nasumične procese čije su statističke karakteristike iste u svim dijelovima.

Za slučajni proces se kaže da je stacionaran u užem smislu; ako je bilo koja od njegove -dimenzionalne gustine vjerovatnoće invarijantna pod vremenskim pomakom

Ako su, međutim, zahtjevi ograničeni tako da matematičko očekivanje i varijansa procesa ne zavise od vremena, a korelacija zavisi samo od razlike - , tada će takav slučajni proces biti stacionaran u širem smislu. Jasno je da stacionarnost u užem smislu podrazumijeva stacionarnost u širem smislu, ali ne i obrnuto.

Kao što slijedi iz definicije, korelacijska funkcija stacionarnog slučajnog procesa je parna:

Osim toga, apsolutne vrijednosti ove funkcije za bilo koju ne prelaze njene vrijednosti za:

Metoda dokaza je sljedeća: iz očigledne nejednakosti

sledi to

odakle direktno slijedi nejednakost (6.41).

Često je zgodno koristiti normaliziranu funkciju korelacije

za koji .

Da biste ilustrirali koncept stacionarnog slučajnog procesa, razmotrite dva primjera.

Primjer 6.5. Slučajni proces se formira realizacijama oblika gde su unapred poznati, dok je fazni ugao slučajna varijabla ravnomerno raspoređena na segmentu -

Budući da je gustina vjerovatnoće faznog ugla matematičko očekivanje procesa

Slično, možete pronaći varijansu:

Konačno, funkcija korelacije

Dakle, ovaj slučajni proces zadovoljava sve uslove koji su neophodni da bi se osigurala stacionarnost u širem smislu.

Primjer 6.6. Slučajni proces ima realizacije oblika i, štaviše, datih brojeva. - slučajna varijabla sa proizvoljnim zakonom raspodjele. Očekivana vrijednost

će biti nezavisan od vremena samo za Stoga, u opštem slučaju, slučajni proces koji se razmatra će biti nestacionaran.

Ergodic property.

Stacionarni slučajni proces naziva se ergodičan ako se, u pronalaženju njegovih trenutnih funkcija, usrednjavanje po statističkom ansamblu može zamijeniti usrednjavanjem tokom vremena. Operacija usrednjavanja se izvodi na jednoj implementaciji čije trajanje T teoretski može biti proizvoljno veliko,

Označavajući vrijeme u prosjeku ugaonim zagradama, pišemo matematičko očekivanje ergodičkog slučajnog procesa:

koja je jednaka konstantnoj komponenti odabrane implementacije.

Disperzija takvog procesa

Pošto vrijednost predstavlja prosječnu implementacionu snagu, a vrijednost je snagu konstantne komponente, disperzija ima jasno značenje snage fluktuacijske komponente ergodičkog procesa.

Korelaciona funkcija se nalazi na isti način:

Dovoljan uslov za ergodičnost slučajnog procesa, koji je stacionaran u širem smislu, je težnja korelacione funkcije ka nuli sa neograničenim povećanjem vremenskog pomaka:

Matematika pokazuje da se ovaj zahtjev može donekle ublažiti. Ispada da je slučajni proces ergodičan ako je zadovoljen uslov Slutskog:

Dakle, jednakost (6.47) vrijedi za harmonijski proces sa slučajnim početna faza(vidi primjer 6.5).

Mjerenje karakteristika slučajnih procesa.

Ako je slučajni proces ergodičan, onda je njegova realizacija dovoljne dužine "tipični" predstavnik statističkog ansambla. Eksperimentalno proučavajući ovu implementaciju, može se dobiti mnogo informacija koje karakterišu ovaj slučajni proces.

Uređaj za mjerenje jednodimenzionalne gustine vjerovatnoće slučajnog procesa može se izraditi na sljedeći način. Jednodimenzionalna gustina vjerovatnoće ergodičkog slučajnog procesa je veličina proporcionalna relativnom vremenu provedenom na njegovoj implementaciji na nivou između. Pretpostavimo da postoji uređaj sa dva ulaza, od kojih je jedan snabdjeven implementacijom x(t) koji se proučava, a drugi je referentni jednosmerni napon čiji se nivo može regulisati. Na izlazu uređaja se pojavljuju pravougaoni video impulsi konstantne amplitude čiji su početak i kraj određeni trenucima u vremenu kada se trenutne vrijednosti slučajnog signala poklapaju ili sa nivoom ili sa nivoom. Ovaj uređaj će biti proporcionalan gustini vjerovatnoće

Bilo koji dovoljno inercijski pokazivački uređaj može se koristiti za mjerenje matematičkog očekivanja slučajnog procesa [vidi. formula (6.43)].

Uređaj koji mjeri disperziju slučajnog procesa, kao što slijedi iz (6.44), mora imati kondenzator na ulazu koji odvaja konstantnu komponentu. Dalje korake u procesu mjerenja - kvadriranje i usrednjavanje tokom vremena - izvodi inercijski kvadratni voltmetar.

Princip rada merača korelacione funkcije (korelometra) sledi iz formule (6.45). Ovdje se trenutne vrijednosti slučajnog signala, nakon filtriranja konstantne komponente, dijele na kanale i upućuju u množitelj, a u jednom od kanala signal kasni s vremenom. Da bi se dobila vrijednost korelacijske funkcije, signal sa izlaza množitelja se obrađuje inercijskom vezom, koja vrši usrednjavanje.

Bez obzira na veličinu

Ovdje se koristi ista notacija kao u formuli (6.26). Elementi korelacione matrice ovog slučajnog procesa određeni su normalizovanom korelacionom funkcijom:

U nastavku ćemo često koristiti dvodimenzionalnu Gausovu gustinu

Stacionarni Gausov proces zauzima izuzetno mesto među ostalim slučajnim procesima - bilo koja njegova višedimenzionalna gustina verovatnoće je određena dvema karakteristikama: matematičkim očekivanjem i korelacionom funkcijom.

Analitičko predviđanje višedimenzionalnih procesa.

Metoda generičkog parametra.

Cilj: proučavanje praktičnih tehnika za predviđanje stanja višeparametarskog objekta.

Kratke teorijske informacije:

Promena stanja tehničkih sistema može se posmatrati kao proces koji karakteriše promena određenog skupa parametara. Položaj vektora stanja u prostoru određuje stepen performansi sistema. Stanje sistema karakteriše vektor u k-dimenzionalnom prostoru, gde su koordinate prostora k parametara sistema , .

Predviđanje stanja se svodi na periodičnu preliminarnu kontrolu parametara; određivanje u momentima t i T 1 kontrole funkcije stanja

Q=Q[ ] i izračunavanje vrijednosti funkcije Q stanja u rasponu vremenskih vrijednosti T 2 > T 1 .

U ovom slučaju, što se vektor stanja nalazi dalje od hiperpovršine dozvoljenih vrijednosti stepena performansi Q*, to su performanse sistema koji se dijagnostikuje veće. Što je razlika * manja, to je niži nivo performansi.

Upotreba analitičkih metoda predviđanja pretpostavlja pravilnost promjena komponenti procesa tokom vremena.

Ideja metode generaliziranih parametara je da se proces karakteriziran mnogim komponentama opisuje jednodimenzionalnom funkcijom, čije numeričke vrijednosti ovise o kontrolisanim komponentama procesa. Takva funkcija se smatra generaliziranim parametrom procesa. U ovom slučaju može se ispostaviti da generalizovani parametar nema specifično fizičko značenje, već je matematički izraz konstruisan veštački od kontrolisanih komponenti predviđenog procesa.

Prilikom sumiranja parametara koji karakterišu stepen operativnosti tehničkih sistema, potrebno je rešiti sledeće probleme:

Definicije relativnih vrijednosti primarnih parametara;

Procjene značaja primarnog parametra za ocjenu stanja objekta;

Konstrukcija matematičkog izraza za generalizirani parametar.

Određivanje relativnih vrijednosti primarnih parametara neophodno je zbog činjenice da se stanje objekta može karakterizirati parametrima koji imaju različite dimenzije. Stoga, sve kontrolisane primarne parametre treba svesti na jedan sistem proračuna u kojem se mogu porediti. Takav sistem je sistem bezdimenzionalnog (normalizovanog) relativnog računa.

U stvarnosti, za svaki parametar ,s = 1, 2, …, k, moguće je izdvojiti prihvatljivu vrijednost, * , po dostizanju koje objekt gubi svoju funkcionalnost, a optimalna vrijednost opt ​​(često je jednaka nominalna vrijednost n).

Neka se stanje posmatra tokom rada objekta. Ako , dovoljno je uneti lokalni parametar i tada će traženi uslov biti zadovoljen.

Zapisujemo bezdimenzionalni (normalizirani) parametar u obliku:

gdje , i at , i kada .

Dakle, korištenjem izraza (1), parametar se normalizira, a bezdimenzionalna normalizirana vrijednost mijenja se od 1 do 0 tokom vremena. Teoretski, može biti, ali to znači da je u praksi objekt neoperabilan.

Možete specificirati različite normalizirane izraze koji su pogodni za rješavanje određenih problema, na primjer:

itd., gde - odnosno struja, nula, mat. čeka se S-ti parametar.

Upotreba normalizujućih izraza omogućava dobijanje skupa bezdimenzionalnih veličina koje karakterišu stanje objekta. Međutim, kvantitativno ista promjena ovih vrijednosti nije ekvivalentna u smislu stupnja utjecaja na promjenu performansi objekta, pa je potrebno razlikovati primarne parametre. Ovaj proces se provodi uz pomoć težinskih koeficijenata, čije vrijednosti karakteriziraju važnost odgovarajućih parametara za fizičku suštinu problema. Neka u ovom slučaju budu parametri objekta odgovaraju težinskim koeficijentima , zadovoljavajući jedan ili drugi zadati kriterijum, i .

Stepen zdravlja objekta u smislu skupa kontroliranih parametara može se procijeniti korištenjem generalizirajućeg izraza

Gdje je generalizirani parametar objekta.

Izraz (2) je linearni prosjek. Iz definicije generalizovanog parametra sledi da što je veća vrednost i, veći je doprinos S-tog člana (parametra) .

Generički parametar se može definirati korištenjem izraza forme

, (3)

što je nelinearni prosjek. Ovaj model također zadovoljava sljedeći uslov: što je veći i veći je doprinos člana u veličini.

U praksi se koriste i drugi oblici pisanja nelinearnog prosjeka, na primjer:

, (4)

, (5)

gdje bira tako da (5) daje najbolju aproksimaciju eksperimentalno dobijenim rezultatima.

Prilikom razmatranja izraza za generalizovani parametar, pretpostavljalo se da on ne mijenja predznak, odnosno uvijek . Ako je potrebno uzeti u obzir predznak, izraz (2) se pretvara u oblik

, (6)

Dakle, upotreba generaliziranog parametra omogućava da se problem predviđanja stanja višeparametarskog objekta svede na predviđanje jednodimenzionalne vremenske funkcije.

Primjer. Testiranje objekta u trajanju od 250 sati, kojim je kontrolisano 6 parametara, dalo je rezultate prikazane u tabeli 1.

Tabela 1

I n, nom = 9,5

V g1 . nom = 120

I a, nom = 2.0

I g3, nom = 70

Nakon normalizacije vrijednosti parametara pomoću izraza (1), tabela poprima oblik (tablica2)

Tabela 2

Modul Tehnologije multidimenzionalnog istraživanja za STATISTICA analizu(jedan od modula proizvoda STATISTIC Advanced) pruža širok spektar tehnologija istraživanja, od analize klastera do naprednih metoda stabla klasifikacije, u kombinaciji sa ogromnim spektrom interaktivnih alata za vizualizaciju za izgradnju modela. Modul uključuje:

U modulu klaster analiza implementiran je kompletan skup metoda analize podataka klastera, uključujući k-srednje vrednosti, hijerarhijsko grupisanje i metode spajanja sa dva ulaza. Podaci mogu doći kao originalni oblik, te u obliku matrice udaljenosti između objekata. Opažanja, varijable ili/ili zapažanja i varijable mogu se grupirati korištenjem različitih mjera udaljenosti (Euklid, Euklidski kvadrat, gradski blokovi (Manhattan), Čebišev, snaga, postotak neslaganja i Pearsonov 1-koeficijent korelacije) i različita pravila grupiranja (povezivanja) (pojedinačna, puna veza, neponderisani i ponderisani prosek grupe u paru, neponderisana, ponderisana udaljenost između centara, Wardova metoda i dr.).

Matrice udaljenosti mogu se sačuvati za dalju analizu u drugim sistemskim modulima STATISTIKA. Prilikom izvođenja klaster analize korištenjem metode k-means, korisnik ima puna kontrola preko početne lokacije centara klastera. Mogu se izvesti ekstremno veliki planovi analize: na primjer, sa hijerarhijskim (stablom) povezivanjem, možete raditi sa matricom od 90 hiljada udaljenosti. Pored standardnih rezultata klaster analize, u modulu je dostupan i raznovrstan skup deskriptivnih statistika i naprednih dijagnostičkih metoda (kompletna šema udruživanja sa nivoima praga za hijerarhijsko grupisanje, ANOVA tabela za k-means klasterisanje). Informacije o pripadnosti objekata klasterima mogu se dodati u datoteku podataka i koristiti u daljoj analizi. Grafičke karakteristike modul klaster analiza uključuju prilagodljive dendrograme, dvosmjerne dijagrame objedinjavanja, grafički dijagram objedinjavanja, k-means klastering srednji dijagram i još mnogo toga.

Modul Faktorska analiza sadrži širok spektar statističkih podataka i metoda faktorske analize (kao i hijerarhijske faktorske analize) sa naprednom dijagnostikom i velikim brojem dijagrama istraživanja i istraživanja. Ovdje možete izvršiti analizu (opšti i hijerarhijski kosi) glavnih komponenti i glavnih faktora za skupove podataka koji sadrže do 300 varijabli (veći modeli se mogu istražiti pomoću modula (SEPATH)).

Analiza i klasifikacija glavnih komponenti

STATISTIKA također uključuje program za analizu i klasifikaciju glavnih komponenti. Izlaz ovog programa je sopstvene vrijednosti(normalno, kumulativno i relativno), faktorska opterećenja i koeficijenti skora faktora (koji se mogu dodati u datoteku ulaznih podataka, pregledati na piktogramu i interaktivno prekodirati), kao i neke specijalizovanije statistike i dijagnostike. Korisnik ima na raspolaganju sledećim metodama faktori rotacije: varimax, biquartimax, quartimax i equimax (prema normalizovanim ili početnim opterećenjima), kao i kose rotacije.

Faktorski prostor se može vizuelno posmatrati deo po deo na 2D ili 3D dijagramima rasejanja sa označenim tačkama podataka; ostali grafički alati uključuju "scree" dijagrame, razne vrste dijagrama raspršenja, histograme, linijski grafovi i dr. Nakon što je faktorijalno rješenje određeno, korisnik može izračunati (reproducirati) matricu korelacije i ocijeniti konzistentnost faktorskog modela analizom rezidualne korelacijske matrice (ili matrice rezidualne varijanse/kovarijance). Na ulazu možete koristiti i originalne podatke i korelacijske matrice. Pomoću modula mogu se izvršiti potvrdna faktorska analiza i druge povezane vrste analiza Modeliranje strukturnih jednačina(SEPATH) iz bloka STATISTICA Opći linearni i nelinearni modeli, gdje će poseban čarobnjak za potvrdnu faktorsku analizu voditi korisnika kroz sve korake izgradnje modela.

Ovaj modul implementira kompletan skup metoda kanonske analize (dopunjujući metode kanonske analize ugrađene u druge module). Možete raditi i sa izvornim datotekama podataka i sa korelacionim matricama; izračunavaju se sve standardne statistike kanonske korelacije (svojstveni vektori i svojstvene vrijednosti, koeficijenti redundancije, kanonske težine, opterećenja, varijanse, testovi značajnosti za svaki od korijena, itd.), kao i neke proširene dijagnostike. Za svako opažanje mogu se izračunati vrijednosti kanonske varijable, koje se zatim mogu vidjeti na ugrađenim piktogramima (i također dodati u datoteku podataka).

Ovaj modul uključuje širok spektar procedura za dizajniranje i evaluaciju uzorka istraživanja i upitnika. Kao iu svim modulima sistema STATISTIKA, ovdje se mogu analizirati izuzetno veliki nizovi podataka (skala koja se sastoji od 300 pozicija može se obraditi u jednom pozivu programa).

Moguće je izračunati statistiku pouzdanosti za sve pozicije na skali, interaktivno odabrati podskupove i upoređivati ​​između podskupova pozicija pomoću poređenja podijeljenih na pola ili podijeljenih dijelova. U jednoj posjeti može se ocijeniti pouzdanost sumarne skale i podskala. Uz interaktivno brisanje pozicija, pouzdanost rezultirajuće skale se izračunava trenutno bez ponovnog pristupa datoteci podataka. Rezultati analize su: korelacijske matrice i deskriptivna statistika za pozicije, Cronbachova alfa, standardizirana alfa, prosječna korelacija pozicija-pozicija, kompletna ANOVA tabela za skalu, kompletan skup statistika zajedničkih za sve pozicije (uključujući višestruke koeficijente korelacije), split- polupouzdanost i korelacija između dvije polovine korigovane za slabljenje.

Dostupan veliki izbor grafove (uključujući ugrađene dijagrame raspršenosti, histograme, linijske grafikone i druge grafikone) i skup interaktivnih rutina šta-ako koji će vam pomoći da razvijete skale. Na primjer, prilikom dodavanja određenog broja stavki na vagu, korisnik može izračunati očekivanu pouzdanost ili procijeniti broj stavki koje je potrebno dodati na vagu da bi postigao željenu pouzdanost. Također je moguće ispraviti slabljenje između trenutne skale i drugog mjerenja (s obzirom na pouzdanost trenutne skale).

Modul sistemi STATISTIKA sadrži najpotpuniju implementaciju nedavno razvijenih metoda za efikasnu konstrukciju i testiranje (metoda klasifikacionih stabala je određena („iterativna“) metoda za predviđanje klase kojoj objekat pripada, na osnovu vrednosti prediktorskih varijabli za ovaj objekat). Klasifikaciono stablo se može graditi na kategoričkim ili ordinalnim prediktorima, ili na mješavini oba tipa prediktora grananjem na pojedinačne varijable ili na njihove linearne kombinacije.

Modul takođe implementira: izbor između punog nabrajanja opcija grananja (kao u THAID i CART paketima) i diskriminantnog grananja; nepristrasan izbor varijabli grananja (kao u QUEST paketu); eksplicitno postavljanje pravila zaustavljanja (kao u paketu FACT) ili rezidbe od listova drveta do njegovog korijena (kao u paketu CART); odsječen udjelom grešaka u klasifikaciji ili funkcijom odstupanja; generalizirane mjere fit hi-kvadrata, G-kvadrata i Gini indeksa. Apriorne vjerovatnoće pripadnosti klasama i troškovi klasifikacijskih grešaka mogu se postaviti jednakim, procijeniti iz podataka ili postaviti ručno.

Korisnik također može podesiti višestrukost unakrsne provjere tokom izgradnje stabla i za procjenu greške, parametar SE-pravila, minimalni broj objekata na graničnoj tački, sjeme za generator slučajnih brojeva i alfa parametar za odabir varijabli. Ugrađeni grafički alati pomažu u istraživanju ulaznih i izlaznih podataka.

Ovaj modul sadrži potpunu implementaciju jednostavnih i multivarijantnih metoda analize korespondencije, može analizirati tabele vrlo velike veličine. Program prihvata sljedeće tipove datoteka podataka: datoteke koje sadrže kategorizirane varijable, koje se koriste za izgradnju matrice nepredviđenih okolnosti (unakrsna klasifikacija); datoteke podataka koje sadrže tablice frekvencija (ili bilo koje druge mjere korespondencije, povezanosti, sličnosti, nereda, itd.) i varijable koda koje definiraju (nabrajaju) ćelije ulazne tablice; datoteke podataka koje sadrže frekvencije (ili druge mjere korespondencije). Na primjer, korisnik može direktno kreirati i analizirati tablicu frekvencija. Osim toga, u slučaju multivarijantne korespondencije, moguće je direktno specificirati Burtovu matricu kao ulazne podatke.

Tokom rada, program izračunava različite tabele, uključujući tabelu procenata po redovima, po kolonama i procentima ukupan broj, očekivane vrijednosti, razlike između očekivanih i posmatranih vrijednosti, standardizirane devijacije i doprinosi hi-kvadrat statistici. Sve ove statistike mogu se iscrtati na 3D histogramima i pregledati upotrebom posebne tehnike dinamičkog slojevanja.

U modulu generalizirane svojstvene vrijednosti i svojstveni vektori se izračunavaju i izlaze standardni set dijagnostičke veličine, uključujući singularne vrijednosti, vlastite vrijednosti i udio inercije po mjerenju. Korisnik može odabrati broj mjerenja ili postaviti graničnu vrijednost za maksimalni kumulativni postotak inercije.

Program izračunava standardne koordinate za tačke redova i kolona. Korisnik može birati između standardizacije profila redova, standardizacije profila kolona, ​​standardizacije profila redova i stupaca ili kanonske standardizacije. Za svaku dimenziju i za svaku tačku reda i kolone program izračunava vrijednosti inercije, kvaliteta i kosinusa**2. Dodatno, korisnik može prikazati (u prozoru rezultata) matrice generaliziranih singularnih vektora. Kao i svaki podatak iz radnog prozora, ove matrice su dostupne za obradu pomoću programa na jeziku STATISTIKA Visual Basic, na primjer, za korištenje bilo kojeg nestandardne metode koordinatni proračuni.

Korisnik može izračunati koordinate i odgovarajuću statistiku (kvalitet i kosinus**2) za dodatne tačke (-kolone ili -redove) i uporediti rezultate sa originalnim tačkama reda i kolone. Dodatne točke se mogu koristiti u multivarijantnoj analizi korespondencije. Pored 3D histograma koji se mogu izračunati za sve tabele, korisnik može prikazati dijagrame svojstvenih vrijednosti, jedno-, dvo- i trodimenzionalne grafikone za tačke redova i kolone. Tačke redova i tačke kolona mogu se istovremeno prikazati na istom grafikonu, zajedno sa svim dodatnim tačkama (svaka vrsta tačke koristi drugu boju i jedinstveni marker tako da će se različite tačke lako razlikovati na grafikonima). Sve tačke imaju markere, a korisnik ima mogućnost da podesi veličinu markera.

U modulu implementiran je kompletan skup metoda za (nemetričko) višedimenzionalno skaliranje. Ovdje se mogu analizirati matrice sličnosti, razlike i korelacije između varijabli, a dimenzija prostora skaliranja može biti do 9. Inicijalnu konfiguraciju može izračunati program (koristeći analizu glavnih komponenti) ili postaviti od strane korisnika. Količina stresa i faktor otuđenja se minimiziraju upotrebom posebne iterativne procedure.

Korisnik ima mogućnost da posmatra iteracije i prati promene ovih vrednosti. Konačna konfiguracija se može vidjeti u tabeli rezultata, kao i na 2D i 3D dijagramima raspršenosti u prostoru mjerila sa označenim tačkama objekta. Izlazni rezultati su: nestandardizirani napon (F), Kruskalov koeficijent naprezanja S i koeficijent isključenja. Nivo slaganja može se ocijeniti korištenjem Shepardovih grafikona (sa vrijednostima "d sa kapom" i "d sa zvjezdicom"). Kao i svi rezultati analize u sistemu STATISTIKA, konačna konfiguracija se može sačuvati kao datoteka sa podacima.

Modul sadrži potpunu implementaciju metoda postupne diskriminantne analize koristeći diskriminantne funkcije. STATISTIKA takođe uključuje modul Opći modeli diskriminantne analize (GDA) da se uklope u dizajne kategoričkih zavisnih varijabli sličnih ANOVA/ANCOVA, ili da se izvedu razne vrste analize (npr. najbolji izbor predviđanja, profilisanje posteriornih vjerovatnoća).

Program vam omogućava analizu uključivanje korak po korak ili isključivanjem varijabli ili uvođenjem korisnički definiranih blokova varijabli u model. Pored brojnih grafikona i statističkih podataka koji opisuju funkciju razdvajanja (diskriminacije), program takođe sadrži veliki skup alata i statistika za klasifikaciju starih i novih zapažanja (za procenu kvaliteta modela). Rezultati su: Wilksova lambda statistika za svaku varijablu, kvocijent lambda, F statistika za uključivanje (ili isključenje), p nivoi značajnosti, vrijednosti tolerancije i kvadrat koeficijenta višestruke korelacije. Program vrši potpunu kanonsku analizu i vraća sve svojstvene vrijednosti (direktne i kumulativne), nivoe njihove značajnosti p, koeficijente diskriminantne (kanonske) funkcije (u direktnom i standardiziranom obliku), koeficijente strukturne matrice (faktorska opterećenja), srednje vrijednosti diskriminantne funkcije i težine diskriminacije za svaki objekt (mogu se automatski dodati u datoteku podataka).

Ugrađena grafička podrška uključuje: histograme kanonskih težina za svaku grupu (i zajedničke za sve grupe), posebne dijagrame raspršenja za parove kanonskih varijabli (koje pokazuju kojoj grupi pripada svako opažanje), veliki skup kategoriziranih (višestrukih) dijagrama koji omogućavaju vam da istražite distribuciju i odnose između zavisnih varijabli za različite grupe (uključujući: višestruke dijagrame kao što su dijagrami okvira, histogrami, dijagrami raspršenja i dijagrami normalne vjerovatnoće) i još mnogo toga.

U modulu takođe se može izračunati standardne funkcije klasifikaciju za svaku grupu. Rezultati klasifikacije posmatranja mogu se prikazati u smislu Mahalanobisovih udaljenosti, posteriornih vjerovatnoća i samih rezultata klasifikacije, a vrijednosti diskriminantne funkcije za pojedinačna opažanja (kanonske vrijednosti) mogu se vidjeti na preglednim piktogramima i drugim multivarijantnim grafikonima dostupnim direktno iz tablica rezultata. Svi ovi podaci mogu se automatski dodati u trenutnu datoteku podataka za dalju analizu. Takođe možete prikazati konačnu matricu klasifikacije, koja pokazuje broj i procenat ispravno klasifikovanih zapažanja. Dostupan razne opcije postavljanje apriornih vjerovatnoća pripadnosti klasama, kao i uslova selekcije koji vam omogućavaju da uključite ili isključite određena zapažanja iz postupka klasifikacije (na primjer, kako biste potom provjerili njen kvalitet na novom uzorku).

Opći modeli za diskriminantnu analizu (GDA)

Modul Opći modeli za diskriminantnu analizu STATISTICA (GDA) je aplikacija i proširenje Generale Linearni modeli klasificirati zadatke. Isto kao i modul Diskriminantna analiza, GDA vam omogućava da izvodite konvencionalne sekvencijalne diskriminantne analize. GDA predstavlja problem diskriminantne analize kao poseban slučaj opšteg linearnog modela i na taj način pruža izuzetno korisne nove analitičke tehnologije koje definiše korisnik.

Kao i konvencionalna diskriminantna analiza, GDA vam omogućava da birate željene kategorije zavisne varijable. U analizi se grupe elemenata evidentiraju kao indikatorske varijable i sve GRM metode se mogu lako primijeniti. Širok izbor GRM i GLM rezidualnih statistika je dostupan u dijalogu rezultata GDA.

GDA pruža niz efikasnih alata za rudarenje podataka i primijenjeno istraživanje. GDA izračunava sve standardne rezultate diskriminantne analize, uključujući koeficijente diskriminantnih funkcija, rezultate kanonske analize (standardizovane i neobrađene koeficijente, kanonske testove koraka, itd.), statistiku klasifikacije (uključujući Mahalanobisovu udaljenost, posteriorne vjerovatnoće, klasifikaciju zapažanja u prihvatljivim analizama, pogrešnu klasifikaciju matrice itd.). Za Dodatne informacije o jedinstvene karakteristike GDA

Višedimenzionalni stacionarni slučajni proces definiran je kao skup stacionarnih i stacionarno povezanih slučajnih procesa . Takav proces se obično označava kao nasumični vektor kolone u zavisnosti od vremena:

.

Višedimenzionalni slučajni procesi se koriste u opisu višedimenzionalnih (višekanalnih) sistema. U ovom dijelu razmatramo problem digitalnog modeliranja normalnih višedimenzionalnih stacionarnih slučajnih procesa. Rezultat rješavanja ovog problema, kao iu jednodimenzionalnom slučaju, je algoritam koji omogućava formiranje višedimenzionalnih diskretnih realizacija datog procesa na digitalnom računaru. -dimenzionalni kontinuirani normalni stacionarni slučajni proces se obično specificira ili u obliku njegove korelacijske matrice

ili u obliku spektralne matrice

gdje - autokorelacione (za ) i međukorelacione (za ) funkcije slučajnih procesa - Fourierova transformacija od . Istovremeno, pošto , elementi i spektralna matrica su kompleksno konjugirani,

.

Diskretni višedimenzionalni normalni slučajni procesi su definirani slično kao kontinuirani procesi koristeći korelacijske i spektralne matrice (35, 70)

gdje , i .

Problem digitalnog modeliranja višedimenzionalnog normalnog slučajnog procesa treba formulirati na sljedeći način. Daje se korelacija ili spektralna matrica slučajnog procesa. Potrebno je pronaći algoritam za formiranje na digitalnom računaru diskretnih realizacija slučajnog procesa sa datim korelacionim (spektralnim) svojstvima.

Za rješavanje ovog problema koristimo, kao i prije, ideju linearnog filtera za oblikovanje. U slučaju koji se razmatra, radi se o sintezi višedimenzionalnog filtera za oblikovanje.

Dimenzionalni linearni filter je definisan kao linearni dinamički sistem sa ulazima i izlazima. Ako - ulazna akcija i je odgovor sistema, tada se odnos između ulaza i izlaza -dimenzionalnog linearnog kontinuiranog filtera opisuje korištenjem matrice prijenosa u obliku

gdje I - slike ulaznog i izlaznog signala, respektivno, u smislu Laplaceove transformacije; - matrica prijenosa -dimenzionalnog filtera, čiji su elementi prijenosne funkcije kanala -th input - -th output.

Ulazno-izlazna veza u diskretno-dimenzionalnim linearnim filterima opisana je slično:

,

gdje i - slike u smislu diskretne Laplaceove transformacije ulaznih i izlaznih signala; je matrica prijenosa diskretno-dimenzionalnog filtera.

Strukturni dijagram višedimenzionalnog filtera na primeru dvodimenzionalnog filtera prikazan je na sl. 2.9, prema kojem

(2.107)

Vidimo da je svaki od izlaznih signala i zbir linearni operatori od ulaznih signala i . Slične relacije postoje iu opštem slučaju. Ovo je identifikacija matrica prijenosa.

Neka akcija na ulazu -dimenzionalnog linearnog filtera bude -dimenzionalni bijeli šum, tj. slučajni proces s korelacijskom matricom oblika

za kontinuirano vrijeme i

za diskretno vrijeme, gdje - delta funkcija. -dimenzionalni bijeli šum je ovdje definiran kao skup neovisnih -koreliranih slučajnih procesa.

Može se pokazati (vidi, na primjer, ) da je pod utjecajem bijelog šuma, spektralna matrica procesa na izlazu - dimenzionalni filter za kontinuirano i diskretno vrijeme, povezana sa matricom prijenosa filtra pomoću odnosi

(2.108)

gdje simbol označava transponiranu matricu.

Stoga, da bi se dobio -dimenzionalni slučajni proces sa datom spektralnom matricom, potrebno je proći -dimenzionalni bijeli šum kroz -dimenzionalni filter oblikovanja čija prijenosna matrica zadovoljava jednačine (2.108). Da bismo pronašli matricu prijenosa iz date spektralne matrice, potrebno je podijeliti potonju na dva faktora oblika (2.108). Ovaj postupak se naziva faktorizacija spektralne matrice. Može se implementirati prema poznatim algoritmima.

Multidimenzionalno filtriranje bijelog šuma je prilično jednostavno: svaka komponenta nasumični proces na izlazu -dimenzionalnog filtera s matricom prijenosa dobiva se zbrajanjem po komponentama ulazni proces filtriran jednodimenzionalnim filterima sa funkcijama prijenosa [vidi. formula (2.107)]. Algoritmi jednodimenzionalnog filtriranja su razmotreni gore.

Ovom metodom modeliranja moguća su dva načina: 1) data spektralna matrica kontinuiranog dimenzionalnog slučajnog procesa može se direktno faktorizirati kako bi se dobila prijenosna matrica filtera za kontinuirano oblikovanje, a zatim, korištenjem egzaktnih ili aproksimativnih metoda diskretizacije gore opisani kontinuirani filteri za obavljanje višedimenzionalnog filtriranja kontinuiranog bijelog šuma; 2) s obzirom na spektralnu matricu kontinuiranog dimenzionalnog procesa, koristeći -transformaciju, možete pronaći spektralnu matricu odgovarajućeg diskretnog slučajnog procesa (vidi § 2.3), zatim pronaći funkciju prijenosa filtra za diskretno oblikovanje faktorizacijom, i zatim izvršite višedimenzionalno filtriranje diskretnog bijelog šuma.

Najveće poteškoće se susreću u faktorizaciji spektralnih matrica. Trenutno su algoritmi faktorizacije razvijeni samo za racionalne spektralne matrice, odnosno takve matrice čiji su elementi razlomke racionalne funkcije argumenata ili .

Opišimo, izostavljajući dokaze, jedan od algoritama za faktorizaciju racionalnih spektralnih matrica, preuzet iz .

Neka je data racionalna spektralna matrica

.

Matrica se može svesti na formu

kroz sledeće transformacije.

1. Određuje se rang matrice, tada se jedan od minora glavnog reda nalazi u gornjem lijevom uglu matrice.

2. Matrica se svodi na dijagonalni oblik. Da biste to učinili, prvi red pomnožen sa - dodaje se -tom redu matrice , , a zatim se prva kolona pomnožena sa - dodaje -toj koloni; matrica

, (2.109)

gdje su elementi matrice

izgleda kao

(2.110)

S matricom se izvode iste transformacije kao i s originalnom matricom . Nastavljajući ovaj proces u prvom koraku, dobijamo dijagonalnu matricu

takav da .

3. Pronađena je pomoćna matrica

čiji elementi izgledaju ovako:

(2.111)

gdje se određuju iz rekurentnih odnosa

(2.112)

4. Pronađeni su pomoćni polinomi

gdje - nule polinoma , koji leže u donjoj poluravni, broje se onoliko puta koliko je njihov maksimalni multiplicitet, i imenioci su razlomačno-racionalnih funkcija, koje su elementi matrice:

.

5. Prema metodi razmatranoj u § 2.9, tačka 2, razlomke racionalne funkcije

predstavljeni su u obliku

,

gdje su polinomi i nemaju nule u donjoj poluravni.

Ovo završava proces faktorizacije. Konačna matrica prijenosa filtera za oblikovanje je zapisana kao

(2.113)

Ovdje opisujemo algoritam faktorizacije za racionalne spektralne matrice kontinuiranih višedimenzionalnih procesa. Faktorizacija spektralnih matrica diskretnih procesa se izvodi na sličan način, ali umjesto korijena koji se nalazi u donjoj poluravni uzimaju se korijeni koji se nalaze u jediničnom krugu.

Primjer 1 Neka je dvodimenzionalni kontinuirani stacionarni centrirani slučajni proces s korelacijskom matricom

, (2.114)

gdje su neke pozitivne konstante, i .

Korelaciona matrica koja odgovara spektralnoj matrici (2.114) ima oblik

, (2.115)

gdje I - autokorelacioni i krokorelacioni momenti procesa, odnosno; - koeficijent međusobne korelacije procesa i podudarnih tačaka u vremenu. Koeficijenti i predstavljaju u ovom slučaju širinu (na nivou od 0,5) energetski spektri i međusobni energetski spektar procesa i .

Potrebno je faktorizirati spektralnu matricu (2.114) da bi se dobila matrica prijenosa filtera za oblikovanje.

Postupak faktorizacije ćemo provoditi korak po korak u skladu sa gore navedenim algoritmom faktorizacije.

1. In ovaj slučaj rang spektralne matrice.

2. Jedan korak je potreban da bi se napravila dijagonala matrice. Po formulama (2.109) i (2.110) dobijamo

.

3. U skladu sa izrazima (2.111) i (2.112), pomoćna matrica ima oblik

4. U slučaju koji se razmatra potrebno je pronaći samo jedan pomoćni polinom . Da biste to učinili, morate pronaći korijene nazivnika matričnog elementa, odnosno korijene polinoma. Ovi korijeni su

shodno tome,

.

5. U završnoj fazi potrebno je faktorizirati razlomke racionalnih funkcija

U ovom slučaju, korijeni brojnika i nazivnika frakcionih racionalnih funkcija i lako se izračunavaju. Koristeći korijene koji leže u gornjoj poluravni (korijeni s pozitivnim imaginarnim dijelovima), dobivamo i do varijable:

.

Na sl. Na slici 2.9 prikazan je blok dijagram dvodimenzionalnog filtera za oblikovanje, na čijem izlazu se formira dvodimenzionalni slučajni proces sa traženim spektralnim karakteristikama ako bijeli šum djeluje na ulaz filtera. Zamjenom kontinuiranog dvodimenzionalnog filtera odgovarajućim diskretnim filterom, dobijamo algoritam za generiranje diskretnih realizacija dvodimenzionalnog slučajnog normalnog procesa na digitalnom računaru, odnosno diskretne realizacije dva stacionarna i stacionarno povezana normalna slučajna procesa sa eksponencijalnim auto- i međukorelacijske funkcije oblika (2.115).

Sa drugim pristupom sintezi filtera za oblikovanje, prvo se mora pronaći spektralna matrica odgovarajućeg diskretnog višedimenzionalnog slučajnog procesa. U primjeru koji se razmatra ova matrica ima oblik

I matrice (2.116).

Razmatrani primjer pokazuje da se faktorizacija spektralnih matrica provodi relativno jednostavno ako se analitički mogu pronaći nule odgovarajućih polinoma. Kod faktorizacije spektralne matrice kontinuiranog dvodimenzionalnog procesa to nije bilo teško, jer je za određivanje nula bilo potrebno riješiti samo kvadratne i bikvadratne jednadžbe. Prilikom faktorizacije spektralne matrice diskretnog dvodimenzionalnog procesa, postojale su kvadratne jednačine i recipročna jednačina četvrtog stepena, koja takođe dozvoljava analitičko rešenje.

U drugim, složenijim slučajevima, nije uvijek moguće analitički pronaći nule polinoma. U tim slučajevima se pribegava numeričkim metodama za rešavanje jednačina th stepena. Generalno, proces faktorizacije se može implementirati na računaru kao standardni program. Za ovu svrhu mogu se koristiti i drugi algoritmi faktorizacije osim ovdje datog.

Treba napomenuti da su svi trenutno postojeći algoritmi spektralne matrične faktorizacije, generalno govoreći, veoma naporni.

Top Related Articles