Cum se configurează smartphone-uri și PC-uri. Portal informativ

Tehnologia bazelor de date multidimensionale.

Modelul de date relaționale, care a fost propus de E.F. Codd în 1970 și pentru care a primit premiul Turing un deceniu mai târziu, formează baza industriei de baze de date de mai multe miliarde de dolari de astăzi. În ultimii zece ani, a apărut un model de date multidimensional, care este utilizat atunci când scopul este de a analiza date mai degrabă decât de a efectua tranzacții. Tehnologia bazelor de date multidimensionale - factorul cheie analiza interactivă a seturilor mari de date pentru a sprijini luarea deciziilor. Astfel de baze de date tratează datele ca cuburi multidimensionale, ceea ce este foarte convenabil pentru analiza lor.

Modelele multidimensionale văd datele fie ca fapte cu parametri numerici corespunzători, fie ca dimensiuni textuale care caracterizează acele fapte. În comerțul cu amănuntul, de exemplu, o achiziție este un fapt, volumul și costul achiziției sunt dimensiuni, iar tipul de produs achiziționat și momentul și locul achiziției sunt dimensiuni. Interogările agregă valorile parametrilor pe întregul interval de măsurare, rezultând valori precum vânzările lunare totale ale unui anumit produs. Modelele de date multidimensionale au trei aplicații importante legate de analiza datelor.

  • Depozitele de date sunt integrate pentru a analiza informațiile din mai multe surse în întreaga întreprindere.
  • Sisteme operaționale prelucrare analitică(prelucrare analitică online - OLAP) vă permit să obțineți rapid răspunsuri la întrebări care acoperă volume mari de date în căutarea tendințelor generale.
  • Aplicațiile de data mining servesc la descoperirea cunoștințelor prin căutarea semi-automatică a modelelor și relațiilor necunoscute anterior în bazele de date.

Cercetătorii au propus formal modele matematice baze de date multidimensionale, iar apoi aceste propuneri au găsit o reflectare rafinată într-un specific instrumente software care implementează aceste modele. Bara laterală descrie evoluția modelului de date multidimensionale.

Foi de calcul și relații

Foi de calcul similare cu cea prezentată în Tabelul 1 sunt instrument la îndemână pentru a analiza datele de vânzări: ce produse au fost vândute, câte tranzacții au fost efectuate și unde. Un tabel pivot este o foaie de calcul bidimensională cu subtotaluri asociate și rezultate rezumate, care este utilizată pentru a vizualiza date mai complexe prin imbricarea mai multor dimensiuni x și y și afișarea datelor pe mai multe pagini. Tabelele principale acceptă de obicei selecția iterativă a subseturi de date și modificarea nivelului de detaliu afișat.

Foile de calcul nu sunt potrivite pentru gestionarea și stocarea datelor multidimensionale, deoarece leagă datele prea strâns de aspectul lor, fără a se separa informații structurale in functie de prezentarea dorita a informatiilor. Să presupunem că adăugarea unei a treia dimensiuni, cum ar fi timpul, sau gruparea datelor pe tipuri de produse generice, necesită o configurare mult mai complexă. Soluția evidentă constă în utilizarea unei foi de calcul separate pentru fiecare dimensiune. Dar această soluție este justificată doar într-o măsură limitată, deoarece analiza unor astfel de seturi de tabele devine rapid prea greoaie.

Utilizarea bazelor de date activate pentru SQL crește foarte mult flexibilitatea procesării datelor structurate. Cu toate acestea, pentru a formula multe calcule, cum ar fi indicatori cumulativi (vânzări pentru anul până în prezent), o combinație de rezultate finale și intermediare, clasarea, de exemplu, determinând cele mai bine vândute zece produse, prin versiune standard SQL este destul de dificil, dacă nu imposibil. Când rearanjați rândurile și coloanele, trebuie să specificați și să combinați manual diferitele vizualizări. Extensiile SQL, cum ar fi operatorul cubului de date și ferestrele de interogare, rezolvă parțial aceste probleme, dar sunt în general curate model relațional nu permite lucrul cu dimensiuni ierarhice la un nivel acceptabil.

Foi de calcul și baze de date relaționale procesatorii de date manipulează în mod adecvat seturile de date care au un număr mic de dimensiuni, dar nu îndeplinesc pe deplin cerințele unei analize aprofundate a datelor. Soluția este utilizarea tehnologiei care acceptă o gamă completă de instrumente de modelare a datelor multidimensionale.

cuburi

Bazele de date multidimensionale tratează datele ca cuburi, ceea ce reprezintă o generalizare foi de calcul pentru orice număr de măsurători. În plus, cuburile acceptă o ierarhie de dimensiuni și formule fără a le duplica definițiile. Un set de cuburi corespunzătoare constituie o bază de date multidimensională (sau depozit de date).

Cuburile sunt ușor de manipulat prin adăugarea de noi valori de dimensiune. În limbajul comun, acest termen se referă la o figură cu trei dimensiuni, dar teoretic un cub poate avea orice număr de dimensiuni. În practică, cel mai adesea cuburile de date au de la 4 la 12 dimensiuni. Instrumentele moderne se confruntă adesea cu blocaje de performanță atunci când așa-numitul hipercub are mai mult de 10-15 dimensiuni.

Combinațiile de valori ale dimensiunii definesc celulele cubului. Depinzând de aplicație specifică celulele dintr-un cub pot fi localizate fie împrăștiate, fie dense. Cuburile tind să devină dezarticulate pe măsură ce numărul de dimensiuni și granularitatea valorilor dimensiunilor crește.

În fig. Figura 1 prezintă un cub care conține date despre vânzări pentru cele două orașe daneze prezentate în Tabelul 1 cu o dimensiune suplimentară - „Timp”. Celulele corespunzătoare stochează datele despre volumul vânzărilor. În exemplu, puteți găsi un „fapt” - o celulă negoală care conține parametrii numerici corespunzători - pentru fiecare combinație de timp, produs și oraș în care a fost efectuată cel puțin o vânzare. Celula conține valori numerice asociate cu un fapt - în acest caz, volumul vânzărilor este singurul parametru.

În general, un cub poate reprezenta doar două sau trei dimensiuni odată, dar poate arăta mai multe prin imbricarea unei dimensiuni în alta. Astfel, prin proiectarea unui cub în spațiu bidimensional sau tridimensional, este posibilă reducerea dimensiunii cubului prin agregarea unor dimensiuni, ceea ce duce la lucrul cu valori ale parametrilor mai complexe. De exemplu, când analizăm vânzările în funcție de oraș și oră, cumulăm informații pentru fiecare combinație de oraș și timp. Deci, în fig. 1, adăugând câmpurile 127 și 211, obținem vânzările totale pentru Copenhaga în 2001.

Măsurătorile

Dimensiunile sunt un concept cheie în bazele de date multidimensionale. Modelarea multidimensională implică utilizarea dimensiunilor pentru a oferi cât mai mult context posibil pentru fapte. Spre deosebire de bazele de date relaționale, redundanța controlată în bazele de date multidimensionale este în general considerată justificabilă dacă crește valoarea informației. Deoarece datele dintr-un cub multidimensional sunt adesea colectate din alte surse, cum ar fi un sistem tranzacțional, problemele de redundanță asociate cu actualizările pot fi rezolvate mult mai ușor. De regulă, nu există redundanță în fapte, doar în măsurători.

Dimensiunile sunt folosite pentru a selecta și agrega date la nivelul dorit de detaliu. Dimensiunile sunt organizate într-o ierarhie formată din mai multe niveluri, fiecare dintre acestea reprezentând nivelul de detaliu necesar analizei corespunzătoare.

Uneori este util să definiți mai multe ierarhii pentru o dimensiune. De exemplu, modelul poate defini timpul atât în ​​anii fiscali, cât și în anii calendaristici. Mai multe ierarhii au unul sau mai multe niveluri comune, cele mai joase, cum ar fi ziua și luna, iar modelul le grupează în mai multe niveluri superioare — trimestrul fiscal și trimestrul calendaristic. Pentru a evita definițiile duplicate, metadatele bazei de date multidimensionale definesc o ierarhie de dimensiuni.

În fig. Figura 2 prezintă diagrama locației pentru datele de vânzări din Tabelul 1. Dintre cele trei niveluri de dimensiuni ale locației, Orașul este cel mai mic. Valorile la nivel de oraș sunt grupate în valori la nivel de țară, de exemplu Aalborg și Copenhaga sunt în Danemarca. Nivelul T reprezintă toate dimensiunile.

În unele modele multidimensionale, un nivel are mai multe proprietăți asociate care conțin informații simple, neierarhice. De exemplu, Dimensiunea lotului poate fi o proprietate de nivel în dimensiunea Produs. Dimensiunea Dimensiune lot poate primi și aceste informații. Utilizarea mecanismului proprietăților nu crește numărul de dimensiuni din cub.

Spre deosebire de spații liniare, de care se ocupă algebra matriceală, modelele multidimensionale de obicei nu oferă funcții de ordonare sau distanță pentru valorile dimensiunilor. Singura „ordonare” este că valorile sunt mai multe nivel inalt conțin valori ale nivelurilor inferioare. Cu toate acestea, pentru unele dimensiuni, cum ar fi timpul, ordonarea valorilor dimensiunilor poate fi utilizată pentru a calcula informații agregate, cum ar fi vânzările totale pentru o anumită perioadă. Majoritatea modelelor necesită definirea unei ierarhii de dimensiuni pentru a forma arbori echilibrați - ierarhiile trebuie să aibă aceeasi inaltime de-a lungul tuturor ramurilor și fiecare valoare de nivel non-rădăcină este de un singur părinte.

Date

Faptele reprezintă un subiect - un model sau un eveniment care trebuie analizat. În majoritatea modelelor de date multidimensionale, faptele sunt definite în mod unic printr-o combinație de valori de dimensiune; un fapt există numai atunci când celula pentru o anumită combinație de valori nu este goală. Cu toate acestea, unele modele tratează faptele ca „obiecte de primă clasă” cu proprietăți speciale. Majoritatea modelelor multidimensionale necesită, de asemenea, ca fiecare fapt să fie asociat cu o valoare la un nivel inferior al fiecărei dimensiuni, dar unele modele nu cerinta obligatorie.

Fiecare fapt are o anumită granularitate, definită de nivelurile de la care este creată combinația sa de valori de dimensiune. De exemplu, granularitatea unui fapt din cubul prezentat în Fig. 1 este (An x Produs x Oraș). (An x Tip x Oraș) și (Ziua x Produs x Oraș) - granularități mai grosiere și, respectiv, mai fine.

Depozitele de date conțin de obicei următoarele trei tipuri de fapte.

  • Evenimente cel puțin la nivelul celei mai mari granularități, de regulă, evenimentele din lumea reală sunt modelate, fiecare fapt reprezentând o instanță specifică a fenomenului studiat. Exemplele includ vânzările, clicurile mouse-ului pe o pagină Web sau mișcarea mărfurilor într-un depozit.
  • Instantanee modelați starea unui obiect la un moment dat, cum ar fi nivelurile de disponibilitate a mărfurilor într-un magazin sau depozit și numărul de utilizatori ai unui site Web. Aceeași instanță a unui fenomen din lumea reală, cum ar fi o anumită cutie de fasole, poate apărea în mai multe fapte.
  • Instantaneu cumulativ conțin informații despre activitățile organizației pentru o anumită perioadă de timp. De exemplu, vânzările cumulate pentru perioada anterioară, inclusiv luna curentă, pot fi ușor comparate cu lunile corespunzătoare ale anului precedent.

Un depozit de date conține adesea toate cele trei tipuri de fapte. Aceleași date sursă, de exemplu, mișcarea mărfurilor într-un depozit, pot fi conținute în trei tipuri diferite de cuburi: fluxul de mărfuri în depozit, o listă de mărfuri și fluxul pentru anul până la data curentă.

Opțiuni

Parametrii constau din două componente:

  • o caracteristică numerică a unui fapt, de exemplu, prețul sau venitul din vânzări;
  • o formulă, de obicei o funcție agregată simplă, să spunem suma, care poate combina mai multe valori ale parametrilor într-una singură.

Într-o bază de date multidimensională, parametrii reprezintă de obicei proprietăți ale faptului pe care utilizatorul dorește să le exploreze. Parametrii iau valori diferite pentru diferite combinații de dimensiuni. Proprietatea și formula sunt alese pentru a reprezenta o valoare semnificativă pentru toate combinațiile de niveluri de agregare. Deoarece metadatele definesc formula, datele, spre deosebire de o foaie de calcul, nu sunt replicate.

Când calculezi trei diverse clase parametrii se comportă complet diferit.

  • Parametri aditivi poate fi combinat în mod semnificativ în orice dimensiune. De exemplu, este logic să însumăm vânzările totale pentru produs, locație și timp, deoarece acest lucru nu provoacă suprapunere între fenomenele din lumea reală care generează fiecare dintre aceste valori.
  • Parametrii semi-aditivi, care nu pot fi combinate într-una sau mai multe dimensiuni. De exemplu, însumarea stocurilor din diferite produse și depozite are sens, dar însumarea stocurilor de mărfuri în momente diferite este lipsită de sens, deoarece același fenomen fizic poate fi numărat de mai multe ori.
  • Parametri non-aditivi nu combinați pe nicio dimensiune, de obicei deoarece formula aleasă nu permite combinarea mijloacelor de nivel scăzut în media de nivel superior.

Parametrii aditivi și non-aditivi pot descrie fapte de orice fel, în timp ce parametrii semi-aditivi sunt utilizați de obicei cu instantanee sau instantanee agregate.

Cereri

O bază de date multidimensională este concepută în mod natural pentru anumite tipuri cereri.

  • Interogări de tip felie și zaruri faceți o alegere care reduce cubul. De exemplu, puteți lua în considerare secțiunea transversală a cubului din Fig. 1, luând în considerare doar acele celule care ating pâinea, iar apoi o reduc și mai mult, lăsând celule referitoare doar la anul 2000. Fixarea unei valori de dimensiune reduce dimensiunea cubului, dar sunt posibile și operațiuni de selecție mai generale.
  • Solicitări precum drill-down și roll-up- operatii inverse care folosesc o ierarhie de dimensiuni si parametri pentru agregare. Generalizarea la valori mai mari corespunde cu eliminarea dimensionalității. De exemplu, o acumulare de la nivelul „Oraș” la nivelul „Țară” din Fig. 2 reunește valorile pentru Aalborg și Copenhaga într-o singură valoare - Danemarca.
  • Interogări detaliate combina cuburi care au una sau mai multe dimensiuni comune. Din punctul de vedere al algebrei relaționale, o astfel de operație realizează o îmbinare.
  • Interogări de tip clasament returnează numai acele celule care apar în partea de sus sau de jos a unei liste ordonate într-un anumit mod, de exemplu, cele mai bine vândute 10 produse la Copenhaga în 2000.
  • Rotire cubul oferă utilizatorilor posibilitatea de a vedea datele grupate după alte dimensiuni.

Implementarea

Bazele de date multidimensionale sunt implementate în două forme principale.

  • Sistemele de procesare analitică online multidimensională (MOLAP) stochează date în structuri multidimensionale specializate. Sistemele MOLAP includ în mod obișnuit facilități pentru procesarea matricelor rare și utilizează indexarea și hashingul avansat pentru a căuta date atunci când se execută interogări.
  • Relațional sisteme OLAP(ROLAP) utilizează baze de date relaționale pentru a stoca date și, de asemenea, utilizează structuri de index specializate, cum ar fi hărți de biți, pentru a obține de mare vitezăîndeplinirea cererilor.

Sistemele MOLAP permit în general o utilizare mai eficientă a spatiu pe disc, precum și timpi de răspuns mai scurti la procesarea cererilor.

Timp de răspuns redus la procesarea cererilor

Cele mai importante tehnici de creștere a performanței în bazele de date multidimensionale sunt precalcularea. Omologul lor specializat este preagregarea, care reduce timpul de răspuns la interogările care acoperă volume potențial uriașe de date într-o măsură suficientă pentru analiza interactivă a datelor.

Calcularea și stocarea sau „materializarea” volumelor de vânzări agregate pe țară și lună este un exemplu de pre-agregare. Această abordare vă permite să primiți rapid răspunsuri la întrebările privind vânzările totale, de exemplu, într-o lună, într-o țară, sau pe trimestru și țară în același timp. Aceste răspunsuri pot fi obținute din date precalculate și nu este nevoie să accesați informațiile aflate în depozitul de date.

Bazele de date relaționale comerciale moderne, precum și sistemele multidimensionale specializate, conțin instrumente pentru optimizarea interogărilor bazate pe agregate precalculate (agregate) și recalcularea automată a agregatelor stocate la actualizarea datelor subiacente.

Preagregarea completă - materializarea tuturor combinațiilor de agregate - este imposibilă deoarece necesită prea mult spațiu pe disc și timp pentru calculele preliminare. In loc de asta sisteme moderne OLAP urmează o abordare mai practică a pre-agregării, materializând doar combinații selectate de agregate și apoi utilizându-le pentru a calcula alte agregate mai eficient. Reutilizați agregate necesită menținerea structurii corecte de date multidimensionale.

Literatură
  1. R. Winter, „Baze de date: Înapoi în jocul OLAP”, Intelligent Enterprise Magazine, vol. 1, nr. 4, 1998
  2. E. Thomsen, G. Spofford, D. Chase, Microsoft OLAP Solutions, John Wiley & Sons, New York, 1999

Torben Bach Pedersen, Christian S. Jensen, Tehnologia bazelor de date multidimensionale. IEEE Computer, decembrie 2001. Copyright IEEE Computer Society, 2001. Toate drepturile rezervate. Retipărit cu permisiunea.

Modul Tehnologii de analiză exploratorie multidimensională STATISTICA(unul dintre modulele de produs STATISTICA Avansat) furnizează o gamă largă de tehnologii de explorare, variind de la analiza cluster până la metode avansate de arbore de clasificare, combinate cu o gamă largă de instrumente de vizualizare interactivă pentru construirea de modele. Modulul include:

În modul Analiza grupului implementate Set complet metode de analiză a datelor cluster, inclusiv metode de k-means, clustering ierarhic și pooling bidirecțional. Datele pot intra fie forma originala, și sub forma unei matrice a distanțelor dintre obiecte. Observațiile, variabilele și/și observațiile și variabilele pot fi grupate folosind diferite măsuri de distanță (euclidian, euclidian pătrat, blocuri (Manhattan), Chebyshev, putere, procent de dezacord și coeficientul de corelație 1 al lui Pearson) și diverse reguli de grupare (singure). , legătură completă, medie pe grupe neponderată și ponderată pe perechi, distanță neponderată, ponderată între centre, metoda lui Ward și altele).

Matricele de distanță pot fi salvate pentru analize ulterioare în alte module de sistem STATISTICA. Atunci când efectuează analiza cluster folosind metoda k-means, utilizatorul are control total de mai sus locația inițială centre de cluster. Pot fi efectuate planuri de analiză extrem de mari: de exemplu, cu legături ierarhice (arborele), puteți lucra cu o matrice de 90 de mii de distanțe. În plus față de rezultatele standard ale analizei cluster, modulul oferă, de asemenea, un set divers de statistici descriptive și metode avansate de diagnosticare (o schemă completă de pooling cu niveluri de prag pentru clustering ierarhic, un tabel de analiză a varianței pentru clustering k-means). Informațiile despre dacă obiectele aparțin clusterelor pot fi adăugate la fișierul de date și utilizate în analize ulterioare. Capacitățile grafice ale modulului Analiza grupului includ dendrograme personalizate, diagrame de grupare bidirecțională, reprezentare grafică a modelelor de grupare, diagrame cu medii de grupare k-means și multe altele.

Modul Analiza factorilor conține o gamă largă de statistici și metode de analiză factorială (precum și analiza factorială ierarhică) cu diagnosticare avansată și o mare varietate de grafice de cercetare și explorare. Aici puteți efectua analiza (generală și oblică ierarhică) a componentelor principale și a factorilor principali pentru seturile de date care conțin până la 300 de variabile (modelele mai mari pot fi examinate folosind modulul (SEPATH)).

Analiza și clasificarea componentelor principale

STATISTICA include, de asemenea, software pentru analiza și clasificarea componentelor principale. Ieșirea acestui program este valori proprii(regulat, cumulativ și relativ), încărcările factorilor și coeficienții scorului factorilor (care pot fi adăugate la fișierul de date de intrare, vizualizate în pictograme și în modul interactiv recode), precum și unele statistici și diagnostice mai specializate. Utilizatorul are la dispoziție următoarele metode de rotație a factorilor: varimax, biquartimax, quartimax și equimax (prin sarcini normalizate sau inițiale), precum și rotații oblice.

Spațiul factorilor poate fi vizualizat vizual felie cu felie în diagrame de dispersie 2D sau 3D cu punctele de date marcate; printre altele instrumente grafice- diagrame scree, diferite tipuri de diagrame de dispersie, histograme, grafice cu linii etc. Odată ce soluția factorilor este determinată, utilizatorul poate calcula (reproduce) matricea de corelație și poate evalua consistența modelului factorilor prin analiza matricei de corelație reziduală (sau matricea de varianță/covarianță reziduală). Ca intrare, puteți utiliza atât datele sursă, cât și matricele de corelare. Analiza factorială de confirmare și alte tipuri de analize conexe pot fi efectuate folosind modulul Modelarea ecuației structurale(SEPATH) din bloc STATISTICA Modele generale liniare si neliniare, unde un expert special pentru analiza factorilor de confirmare va ghida utilizatorul prin toate etapele construcției modelului.

Acest modul implementează un set complet de metode de analiză canonică (completând metodele de analiză canonică integrate în alte module). Puteți lucra atât cu fișiere de date sursă, cât și cu matrice de corelație; Sunt calculate toate statisticile standard de corelație canonică (vectori proprii și valori proprii, coeficienți de redundanță, greutăți canonice, încărcări, varianțe, teste de semnificație pentru fiecare dintre rădăcini etc.), precum și unele diagnostice avansate. Pentru fiecare observație, pot fi calculate valori ale variabilelor canonice, care pot fi apoi vizualizate în pictograme încorporate (și, de asemenea, adăugate la fișierul de date).

Acest modul include o gamă largă de proceduri de proiectare și evaluare a sondajelor și chestionarelor. Ca în toate modulele de sistem STATISTICA, aici pot fi analizate cantități extrem de mari de date (o scală formată din 300 de poziții poate fi procesată într-un singur apel la program).

Este posibil să se calculeze statistici de fiabilitate pentru toate elementele de scară, să se selecteze interactiv subseturi și să se facă comparații între subseturile de articole folosind metoda „split-half” sau „split-part”. Într-o examinare, poate fi evaluată fiabilitatea scalei totale și a subscalei. Prin ștergerea interactivă a elementelor, fiabilitatea scalei rezultate este calculată instantaneu fără a revedea fișierul de date. Rezultatele analizei sunt: ​​matrice de corelație și statistici descriptive pentru itemi, alfa lui Cronbach, alfa standardizată, corelația medie item-articol, un tabel ANOVA complet pentru scară, un set complet de statistici comune tuturor itemilor (inclusiv coeficienți de corelație multipli) , împărțire-jumătate de fiabilitate și corelație corectată cu atenuare între cele două jumătăți.

Există o selecție mare de grafice (inclusiv diagrame de dispersie încorporate, histograme, grafice liniare și alte grafice) și un set de rutine interactive care să vă ajute să dezvoltați scale. De exemplu, atunci când adăugați un număr de întrebări la o scală, utilizatorul poate calcula fiabilitatea așteptată sau poate estima numărul de întrebări care trebuie adăugate la scară pentru a obține fiabilitatea dorită. În plus, puteți corecta atenuarea între scara curentă și o altă măsurătoare (dată fiind fiabilitatea scalei curente).

Modul sisteme STATISTICA conține cea mai completă implementare a dezvoltat în În ultima vreme metode de construcție și testare eficiente (metoda arborelui de clasificare este o metodă specifică („iterativă”) de predicție a clasei căreia îi aparține un obiect, pe baza valorilor variabilelor predictoare pentru acest obiect). Arborii de clasificare pot fi construiți folosind predictori categoriali sau ordinali, sau un amestec al ambelor tipuri de predictori, prin ramificarea variabilelor individuale sau prin combinații liniare ale acestora.

Modulul implementează, de asemenea: o alegere între o căutare completă a opțiunilor de ramificare (ca în pachetele THAID și CART) și ramificare discriminantă; selectarea imparțială a variabilelor de ramură (ca în pachetul QUEST); stabilirea explicită a regulilor de oprire (ca în pachetul FACT) sau tăierea de la frunzele copacului până la rădăcina acestuia (ca în pachetul CART); cut off prin proporția erorilor de clasificare sau prin funcția de abatere; Măsurile generalizate ale bunătății potrivirii sunt chi-pătrat, G-pătrat și indicele Gini. Probabilitățile anterioare de apartenență la clasă și costurile erorilor de clasificare pot fi setate egale, estimate din date sau setate manual.

De asemenea, utilizatorul poate specifica factorul de validare încrucișată în timpul construirii arborelui și pentru estimarea erorilor, parametrul regulii SE, numărul minim de obiecte la nodul de tăiere, semințele pentru generatorul de numere aleatoare și parametrul alfa pentru selecția variabilelor. Instrumentele grafice încorporate ajută la explorarea datelor de intrare și de ieșire.

Acest modul conține o implementare completă a metodelor simple și multidimensionale de analiză a corespondenței; poate analiza foarte mult tabele dimensiuni mari. Programul acceptă următoarele tipuri de fișiere de date: fișiere care conțin variabile categorizate, care sunt utilizate pentru a construi o matrice de contingență (clasificare încrucișată); fișiere de date care conțin tabele de frecvență (sau orice alte măsuri de corespondență, conexiune, asemănare, dezordine etc.) și variabile de cod care definesc (enumerează) celulele tabelului de intrare; fișiere de date care conțin frecvențe (sau alte măsuri de conformitate). De exemplu, utilizatorul poate crea și analiza direct un tabel de frecvență. În plus, în cazul analizei corespondenței multidimensionale, este posibilă specificarea directă a matricei Burt ca date de intrare.

În timpul funcționării, programul calculează diverse tabele, inclusiv un tabel de procente pe rânduri, pe coloane și procente de numărul total, valorile așteptate, diferențele dintre valorile așteptate și cele observate, abaterile standardizate și contribuțiile la statistica chi-pătrat. Toate aceste statistici pot fi reprezentate în histograme 3D și vizualizate folosind o tehnică specială de stratificare dinamică.

În modul valorile proprii generalizate și vectorii proprii sunt calculate și eliberate set standard mărimi de diagnosticare, inclusiv valori singulare, valori proprii și cota de inerție atribuită fiecărei măsurători. Utilizatorul poate fie să aleagă numărul de măsurători, fie să seteze o valoare de prag pentru procentul maxim cumulat de inerție.

Programul calculează coordonatele standard pentru punctele rând și punctele coloanei. Utilizatorul poate alege între standardizarea după profiluri de rând, profiluri de coloană, profiluri de rând și coloană sau standardizare canonică. Pentru fiecare dimensiune și pentru fiecare punct de rând și punct de coloană, programul calculează valorile inerției, calității și cosinus**2. În plus, utilizatorul poate afișa (în fereastra de rezultate) matrice de vectori singulari generalizați. Ca orice date din fereastra de lucru, aceste matrici sunt disponibile pentru procesare folosind programe în limbaj STATISTICA Visual Basic, de exemplu, pentru a utiliza orice metode non-standard calcule de coordonate.

Utilizatorul poate calcula coordonatele și statisticile asociate (calitate și cosinus**2) pentru puncte suplimentare (-coloane sau -rânduri) și poate compara rezultatele cu punctele de rând și coloană inițiale. Puncte suplimentare pot fi utilizate în analiza corespondenței multivariate. În plus față de histogramele 3D care pot fi calculate pentru toate tabelele, utilizatorul poate afișa diagrame cu valori proprii, diagrame uni, două și tridimensionale pentru rânduri de puncte și coloane de puncte. Punctele de rând și punctele de coloană pot fi afișate simultan pe aceeași diagramă, împreună cu orice puncte suplimentare (fiecare tip de punct folosește o culoare diferită și un marcator unic, astfel încât diferitele puncte să fie ușor de distins pe diagrame). Toate punctele au marcatori, iar utilizatorul are posibilitatea de a seta dimensiunea marcatorului.

În modul a fost implementat un set complet de metode de scalare multidimensională (nonmetrică). Aici pot fi analizate matrice de similaritate, diferență și corelații între variabile, iar dimensiunea spațiului de scalare poate ajunge la 9. Configurația inițială poate fi calculată de program (folosind analiza componentelor principale) sau specificată de utilizator. Mărimea stresului și coeficientul de alienare sunt minimizate folosind o procedură iterativă specială.

Utilizatorul are posibilitatea de a observa iterațiile și de a monitoriza modificările acestor valori. Configurația finală poate fi vizualizată în tabelul cu rezultate și în diagrame de dispersie spațiale la scară 2D și 3D cu punctele caracteristice marcate. Rezultatele de ieșire sunt: ​​efort nestandardizat (F), coeficientul de stres Kruskal S și coeficientul de alienare. Nivelul de acord poate fi evaluat folosind diagramele lui Shepard (cu valorile „d cu cap” și „d cu stea”). Ca toate rezultatele analizelor din sistem STATISTICA, configurația finală poate fi salvată ca fișier de date.

Modul conține o implementare completă a metodelor de analiză discriminantă treptat folosind funcții discriminante. STATISTICA include, de asemenea, modul Modele generale Analiză discriminantă (GDA) pentru a se potrivi proiectelor de tip ANOVA/ANCOVA pe variabile dependente categorice sau pentru a efectua tipuri variate analize (de exemplu, cea mai bună alegere de predicții, profilarea probabilităților posterioare).

Programul vă permite să analizați cu activare pas cu pas sau prin eliminarea variabilelor sau introducerea blocurilor de variabile definite de utilizator în model. Pe lângă numeroasele grafice și statistici care descriu funcția de discriminare, programul conține și un set mare de instrumente și statistici pentru clasificarea observațiilor vechi și noi (pentru a evalua calitatea modelului). Rezultatele sunt: ​​statistica lambda lui Wilks pentru fiecare variabilă, lambda parțială, statistica F pentru includere (sau excludere), niveluri de semnificație p, valori de toleranță și coeficient de corelație multiplă pătrat. Programul efectuează o analiză canonică completă și produce toate valorile proprii (directe și cumulate), nivelurile de semnificație p ale acestora, coeficienții de funcție discriminanți (canonici) (directi și standardizați), coeficienții matricei structurale (încărcări de factori), valorile medii ale funcției discriminante și greutăți discriminante pentru fiecare obiect (acestea pot fi adăugate automat la fișierul de date).

Suportul grafic încorporat include: histograme de ponderi canonice pentru fiecare grup (și comune pentru toate grupurile), diagrame de dispersie speciale pentru perechi de variabile canonice (care indică grupului căruia îi aparține fiecare observație), un set mare de diagrame clasificate (multiple) care permit pentru a explora distribuțiile și relațiile dintre variabilele dependente pentru diferite grupuri (inclusiv: diagrame multiple, cum ar fi diagrame de interval, histograme, diagrame de dispersie și diagrame de probabilitate normală) și multe altele.

În modul se mai poate calcula specificații standard clasificări pentru fiecare grupă. Rezultatele clasificării observațiilor pot fi deduse în termeni de distanțe Mahalanobis, probabilități posterioare și rezultate de clasificare în sine, iar valorile funcției discriminante pentru observații individuale (valori canonice) pot fi vizualizate în pictograme de prezentare generală și alte diagrame multivariate accesibile direct din tabelele cu rezultate. Toate aceste date pot fi adăugate automat la fișierul de date curent pentru analize ulterioare. De asemenea, puteți afișa matricea de clasificare rezultată, care arată numărul și procentul de cazuri clasificate corect. Există diverse opțiuni pentru specificarea probabilităților a priori de apartenență la clasă, precum și condiții de selecție care vă permit să includeți sau să excludeți anumite observații din procedura de clasificare (de exemplu, pentru a verifica apoi calitatea acesteia pe un eșantion nou).

Modele de analiză discriminantă generală (GDA).

Modul STATISTICA Modele de analiză discriminantă generală (GDA). este o aplicație și o extensie General Modele liniare pentru a clasifica sarcinile. La fel ca modulul Analiza discriminantă,GDA permite analiza discriminantă secvențială convențională. GDA reprezintă problema analizei discriminante ca ocazie speciala model liniar general și oferă astfel noi tehnologii analitice personalizate extrem de utile.

La fel ca analiza discriminantă obișnuită, GDA vă permite să selectați categoriile dorite de variabile dependente. În analiză, grupurile de elemente sunt scrise ca variabile indicator, iar toate tehnicile GRM pot fi aplicate cu ușurință. O selecție largă de statistici reziduale GRM și GLM sunt disponibile în dialogul Rezultate GDA.

GDA oferă o varietate de instrumente puternice pentru data mining și cercetare aplicată. GDA calculează toate rezultatele analizei discriminante standard, inclusiv coeficienții funcției discriminante, rezultatele analizei canonice (coeficienți standardizați și bruti, teste de rădăcină canonică în trepte etc.), statisticile de clasificare (inclusiv distanța Mahalanobis, probabilitățile posterioare, clasificarea observațiilor în analize valide, clasificarea greșită). matrici etc.). Pentru Informații suplimentare despre caracteristicile unice ale GDA

Teoria variabilelor aleatoare studiază fenomenele probabilistice „în statică”, considerându-le ca unele rezultate înregistrate ale experimentelor. Pentru a descrie semnale care reflectă fenomene aleatorii care se dezvoltă în timp, metodele teoriei probabilităților clasice se dovedesc a fi insuficiente. Astfel de probleme sunt studiate de o ramură specială a matematicii numită teoria proceselor aleatorii.

Prin definiție, un proces aleatoriu este un tip special de funcție, caracterizat prin faptul că, în orice moment, valorile pe care le ia sunt variabile aleatoare.

Ansambluri de implementari.

De-a face cu semnale deterministe, le afișăm dependențe funcționale sau oscilograme. Dacă vorbim de procese aleatorii, atunci situația se dovedește a fi mai complicată. Prin fixarea valorilor instantanee pe o anumită perioadă de timp semnal aleator, obținem doar o singură implementare a procesului aleator. Un proces aleatoriu este o colecție infinită de astfel de realizări care formează un ansamblu statistic. De exemplu, un ansamblu este un set de semnale care pot fi observate simultan la ieșirile generatoarelor de tensiune de zgomot complet identice.

Nu este deloc necesar ca implementările unui proces aleatoriu să fie reprezentate de funcții cu comportament complex, neregulat în timp. Este adesea necesar să se ia în considerare procesele aleatorii formate, de exemplu, de tot felul de semnale armonice, în care unul dintre cei trei parametri este o variabilă aleatorie care ia o anumită valoare în fiecare implementare. Natura aleatorie a unui astfel de semnal constă în imposibilitatea de a cunoaște în prealabil valoarea acestui parametru, înainte de experimentare.

Procesele aleatoare formate din implementări care depind de un număr finit de parametri sunt de obicei numite procese aleatoare cvasi-deterministe.

Densitățile de probabilitate ale proceselor aleatorii.

Să fie un proces aleatoriu specificat de un ansamblu de implementări și să fie un moment arbitrar în timp. Fixând valorile obținute în implementări individuale, efectuăm o secțiune unidimensională a acestui proces aleatoriu și observăm variabila aleatoare. Densitatea sa de probabilitate se numește densitatea de probabilitate unidimensională a procesului într-un moment de timp.

Conform definiției, o cantitate este probabilitatea ca realizările unui proces aleatoriu la un moment dat să ia valori aflate în interval

Informațiile care pot fi extrase din densitatea unidimensională nu sunt suficiente pentru a judeca natura dezvoltării realizărilor unui proces aleatoriu în timp. Mult mai multe informații pot fi obținute prin existența a două secțiuni ale unui proces aleatoriu în momente divergente de timp.Variabila aleatoare bidimensională care apare într-un astfel de experiment de gândire este descrisă printr-o densitate de probabilitate bidimensională.Această caracteristică a unui proces aleatoriu face este posibil să se calculeze probabilitatea evenimentului, care constă în faptul că implementarea procesului aleator at are loc într-o mică vecinătate a punctului și când - într-o mică vecinătate a punctului

O generalizare naturală este o secțiune transversală -dimensională a unui proces aleatoriu care duce la o densitate de probabilitate -dimensională

Densitatea de probabilitate multivariată a unui proces aleator trebuie să satisfacă condițiile uzuale impuse densității de probabilitate a unui set de variabile aleatoare (vezi § 6.2). În plus, valoarea nu ar trebui să depindă de ordinea în care sunt situate argumentele sale (condiția de simetrie).

Uneori, în loc de densitatea de probabilitate -dimensională, este convenabil să folosiți funcția caracteristică -dimensională, care este legată de densitatea corespunzătoare prin transformarea Fourier:

Descrierea proprietăților proceselor aleatorii folosind densități de probabilitate multidimensionale înalte poate fi foarte detaliată. Cu toate acestea, dificultăți matematice serioase sunt adesea întâlnite pe această cale.

Funcția de moment a proceselor aleatorii.

Mai puțin detaliate, dar, de regulă, destul de satisfăcătoare din punct de vedere practic, caracteristicile proceselor aleatoare pot fi obținute prin calcularea momentelor acelor variabile aleatorii care se observă în secțiunile transversale ale acestor procese. Deoarece în cazul general aceste momente depind de argumente de timp, ele se numesc funcții de moment.

Pentru ingineria radio statistică, trei funcții de moment de ordin inferior, numite așteptare matematică, funcție de dispersie și corelație, sunt de cea mai mare importanță.

Valorea estimata

este valoarea medie a procesului X(t) la momentul curent; medierea se realizează pe întregul ansamblu de implementări de proces.

Dispersia

permite să se judece gradul de dispersie a valorilor instantanee luate de implementări individuale într-o secțiune fixă ​​t, raportat la valoarea medie.

Moment central bidimensional

se numeşte funcţia de corelare a unui proces aleator.Această funcţie de moment caracterizează gradul legătura statistică acele variabile aleatoare care se observă la compararea formulelor (6.37), (6.38), observăm că la combinarea secțiunilor, funcția de corelare este numeric egală cu dispersia:

Procese aleatorii staționare.

Acesta este numele obișnuit pentru procesele aleatoare ale căror caracteristici statistice sunt aceleași în toate secțiunile.

Se spune că un proces aleatoriu este staționar în sens restrâns; dacă oricare dintre densitatea sa de probabilitate -dimensională este invariantă în raport cu deplasarea în timp

Dacă limităm cerințele la faptul că așteptarea matematică și dispersia procesului nu depind de timp, iar funcția de corelare depinde doar de diferență -, atunci un astfel de proces aleatoriu va fi staționar în sens larg. Este clar că staționaritatea în sens restrâns implică staționaritate în sens larg, dar nu și invers.

După cum rezultă din definiție, funcția de corelare a unui proces aleator staționar este pară:

În plus, valorile absolute ale acestei funcții pentru oricare nu depășesc valoarea acesteia pentru:

Metoda demonstrării este următoarea: din inegalitatea evidentă

urmează că

de unde urmează direct inegalitatea (6.41).

Este adesea convenabil să utilizați funcția de corelare normalizată

pentru care .

Pentru a ilustra conceptul de proces aleator staționar, luați în considerare două exemple.

Exemplul 6.5. Un proces aleatoriu este format din implementări ale formei în care sunt cunoscute în prealabil, în timp ce unghiul de fază este o variabilă aleatoare distribuită uniform pe segment -

Deoarece densitatea de probabilitate a unghiului de fază este așteptarea matematică a procesului

În mod similar, puteți găsi variația:

În sfârșit, funcția de corelare

Deci, acest proces aleatoriu îndeplinește toate condițiile care sunt necesare pentru a asigura staționaritatea în sens larg.

Exemplul 6.6. Un proces aleatoriu are implementări ale formei și, în plus, numere date. - o variabilă aleatoare cu o lege de distribuție arbitrară. Valorea estimata

va fi independent de timp numai la Prin urmare, în cazul general, procesul aleatoriu luat în considerare va fi nestaționar.

Proprietate de ergodicitate.

Un proces aleator staționar se numește ergodic dacă, la găsirea funcțiilor sale de moment, media asupra unui ansamblu statistic poate fi înlocuită cu media în timp. Operația de mediere este efectuată pe o singură implementare a duratei T, care teoretic poate fi arbitrar lungă,

Indicând media timpului cu paranteze unghiulare, scriem așteptările matematice ale unui proces aleator ergodic:

care este egal cu componenta constantă a implementării selectate.

Varianta unui proces similar

Deoarece valoarea reprezintă puterea medie a implementării, iar valoarea este puterea componentei constante, dispersia are o semnificație clară a puterii componentei de fluctuație a procesului ergodic.

Funcția de corelare se găsește în mod similar:

O condiție suficientă pentru ergodicitatea unui proces aleator, staționar în sens larg, este tendința funcției de corelare la zero cu o creștere nelimitată a deplasării în timp:

Matematica arată că această cerință poate fi oarecum relaxată. Se dovedește că procesul aleatoriu este ergodic dacă condiția Slutsky este îndeplinită:

Astfel, egalitatea (6.47) este valabilă în raport cu un proces armonic cu o fază inițială aleatorie (vezi exemplul 6.5).

Măsurarea caracteristicilor proceselor aleatorii.

Dacă un proces aleatoriu este ergodic, atunci realizarea lui de lungime suficientă este un reprezentant „tipic” al unui ansamblu statistic. Studiind experimental această implementare, se pot obține o mulțime de informații care caracterizează acest proces aleatoriu.

Un dispozitiv pentru măsurarea densității de probabilitate unidimensională a unui proces aleatoriu poate fi proiectat după cum urmează. Densitatea de probabilitate unidimensională a unui proces aleator ergodic este o valoare proporțională cu timpul relativ al implementării acestuia la nivelul între.Să presupunem că există un dispozitiv cu două intrări, dintre care una este furnizată cu implementarea studiată x(t ), iar celălalt este alimentat cu o tensiune constantă de referință, al cărei nivel este reglat. La ieșirea dispozitivului apar impulsuri video dreptunghiulare de amplitudine constantă, al căror început și sfârșit sunt determinate de momentele în timp în care valorile curente ale semnalului aleatoriu coincid fie cu nivelul, fie cu nivelul. acum măsurați, să zicem, folosind un instrument indicator convențional, valoarea medie a curentului creat de o secvență de impulsuri video, apoi citirile acestui dispozitiv vor fi proporționale cu densitatea probabilității

Orice dispozitiv indicator suficient de inerțial poate fi folosit pentru a măsura așteptările matematice ale unui proces aleatoriu [vezi. formula (6.43)].

Un dispozitiv care măsoară dispersia unui proces aleatoriu, după cum urmează din (6.44), trebuie să aibă la intrare un condensator care separă componenta constantă. Alte etape ale procesului de măsurare - pătrarea și media timpului - sunt efectuate de un voltmetru pătratic inerțial.

Principiul de funcționare al contorului de funcție de corelare (corelometru) rezultă din formula (6.45). Aici, valorile instantanee ale unui semnal aleatoriu, după filtrarea componentei constante, sunt împărțite în canale și transmise unui multiplicator, iar într-unul dintre canale semnalul este întârziat pentru un timp. Pentru a obține valoarea funcției de corelare, semnalul de la ieșirea multiplicatorului este procesat de o legătură inerțială, care efectuează o medie.

Indiferent de dimensiune

Aici se folosește aceeași notație ca și în formula (6.26). Elementele matricei de corelație a acestui proces aleatoriu sunt determinate de funcția de corelație normalizată:

În cele ce urmează, vom folosi adesea densitatea gaussiană bidimensională

Un proces gaussian staționar ocupă un loc excepțional printre alte procese aleatoare - oricare dintre densitatea sa de probabilitate multidimensională este determinată de caracteristicile sale: așteptarea matematică și funcția de corelare.

© 2005 A. I. Saichev*, S. G. Utkin*

TRANZIȚIA PROCESELOR DE SĂRIT MULTIDIMENSIONAL DE LA DIFUZIA ANOMALĂ LA DIFUZIA LINEARĂ

Sunt luate în considerare procesele multidimensionale ale mersurilor aleatorii „cvasi-anomale”, care au asimptotice de difuzie liniară la timpi mari și se supun legilor de difuzie anormală la timpi intermediari (de asemenea destul de mari în raport cu scalele microscopice). Este demonstrată trecerea unui proces asemănător unui salt de la difuzie anormală la difuzie liniară. Folosind calcule numerice, se confirmă validitatea calculelor analitice pentru cazuri bidimensionale și tridimensionale. ,.....

Cuvinte cheie: subdifuzie anormală, superdifuzie anormală, ecuații diferențiale fracționale parțiale, asimptotice intermediare, plimbări aleatoare cvasi-anomale.

1. INTRODUCERE

Semnul principal al difuziei anormale este creșterea neliniară a pătratului mediu al procesului aleator în timp: >r: V» „

caracteristică, de exemplu, unor fenomene fizice precum difuzia turbulentă, dinamica haotică a sistemelor hamiltoniene, transferul de sarcină în semiconductori amorfi etc. Dinamica unor astfel de fenomene este modelată în mod adecvat prin procese aleatoare de tip salt cu anumite distribuții / (r) ale intervale dintre sărituri și distribuții w (x) mărimea sărurilor.

De asemenea, se știe că difuzia anormală are loc din cauza unei încălcări a teoremei limitei centrale (CLT) sau a legii numerelor mari (LBN) (vezi, de exemplu,). La rândul său, inaplicabilitatea ZBC se datorează infinitității primelor momente de așteptare pentru sărituri, iar încălcarea CPT este asociată cu infinitatea momentelor secunde de sărituri. Aceste circumstanțe servesc drept obiect de critică a teoriei difuziei anormale de către fizicieni, care notează pe bună dreptate că pentru majoritatea fenomenelor fizice aceste puncte sunt limitate.

„Universitatea de Stat Nijni Novgorod, Nijni Novgorod, Rusia. E-mail: [email protected]; [email protected]

Pret 18 ^ub. Legare 1 frecare.

456 A. I. SAICHEV, S. G. Utkin;

Scopul acestei lucrări este de a demonstra faptul că subdifuzia anormală poate apărea și în „cazul clasic” când ZBC și CPT sunt valabile. Și anume, alături de procesele de difuzie „pur” anormale studiate în detaliu, există și procese aleatoare „cvasi-anomale” care se supun legilor difuziei liniare la timpi foarte mari și la scară spațială, iar la momente „intermediare” demonstrează anomalii universale. -asimptotice de difuzie. Această lucrare este dedicată analizei unor astfel de procese aleatoare cvasi-anomale în spații de dimensiuni diferite. S-a descoperit, în special, că, spre deosebire de difuzia multidimensională clasică, coordonatele aleatorii ale procesului de salt de difuzie anormală sunt dependente statistic chiar și cu componente independente ale vectorilor de salt aleatoriu.

2. MERGE ALEATORIE

Să luăm în considerare un proces tipic de mers aleatoriu care se supune celei mai simple ecuații stocastice hh-.

*-----. < к 1

Fără pierderea generalității, presupunem că intervalele de așteptare aleatoare pentru salturile t~k = tk - ifc-i și salturile aleatoare hk în sine sunt independente reciproc și au, de asemenea, aceleași distribuții f(t) și respectiv w(x). Este evident că

unde N(t) este numărul de salturi la momentul t. Aceasta este o funcție inversă timpului celui de-al n-lea salt T(n):

t = T(n) = ] " "

Folosind relația de echivalență evidentă pentru aceste funcții ~!! N(t)^n T(n)

iar despărţirea unităţii este m.„ >".. l ■ >.

1= ^IIn(z) = ^, z>0, „U ■

unde x(z) este funcția pas, derivăm o ecuație pentru funcția caracteristică a procesului luat în considerare X (f):

©(«; t) = (¿»ХМ) = £ /exp (w £ hk) V p=0 ^ ^ fc=1 " "

Pret 18 stejar. Legarea Í r.

■go) subdiferenţa anormală şi CPT sunt valabile. Și sunt difuziune pro-l, supuse unor scale legale, anormal-difuzive dar astfel de cvasi-anomalie-1. S-a descoperit în partea I că coordonatele aleatoare sunt chiar dependente

umbrit cel mai simplu

Aștept sărituri și am și unul-)

Primul salt T(n):

r > O, ^ " funcția logică a

TRANZIȚIA PROCESELOR MULTIDIMENSIONALE JUMPY. ..

Să aplicăm transformarea Laplace pe ambele părți ale egalității și să însumăm progresia geometrică rezultată:

Expresia găsită pentru imaginea Laplace 0(u; s) a funcției caracteristice este un analog multidimensional al ecuației Montroll-Weiss. Aici f(s) este imaginea Laplace a distribuției intervalelor dintre sărituri, iar w(u) este funcția caracteristică a sărituri. Din ultima egalitate este clar că Q(u; s) respectă ecuația

0(u;s) - w(u)Q(u;s) =

.......... ÎM (2-2)

Aplicându-i transformatele inverse Fourier și Laplace, este ușor de obținut (în funcție de tipul distribuțiilor f(r) și w(x)) atât ecuația clasică Kolmogorov-Feller, cât și ecuațiile cinetice de difuzie anormală.

3. ECUAȚII ASIMPTOTICE PENTRU DENSITATEA PROBABILITĂȚII DE MERCAT X(t)

După cum sa menționat mai sus, forma ecuației pentru densitatea de probabilitate W(x; t) depinde de tipul distribuțiilor f(r) și tu(x), sau mai precis, de imaginea lor Laplace f(s) și de caracteristica funcția w(u). În continuare, vom obține ecuații asimptotice pentru W(x; t), valabile pe diverse scări de timp, în cazul distribuției /(r) cu imaginea Laplace

V „I + sp” >

unde S este un parametru mic. Toate momentele /(r) sunt limitate, ceea ce o face din punct de vedere fizic mai corectă decât distribuția exponențială fracțională aferentă (corespunzătoare valorii 6 = 0), care este una dintre cele cheie în teoria difuziei anormale. Să luăm în considerare cazul în care parametrul 6 este atât de mic încât intervalul de timp între 1 și 1/(5 este suficient de mare. Apoi procesul X(t) trece prin trei etape succesive. Inițial, la momentele t 1, comportamentul lui procesul depinde de structura fină a distribuțiilor /(t ) u(x) iae reflectă legile universale ale difuziei.În plus, la momente între 1 și 1/6, datorită cozilor de putere-lege în scădere lent a distribuției / (t), procesul se supune legilor de difuzie anormale.Atunci, la t 3> 1/6, procesul se supune legii difuziei liniare normale datorita cozilor descrescatoare exponential ale distributiei /(r) la m 1/6.

Să substituim f(s) (3.1) în ecuația (2.2) și să discutăm comportamentul său asimptotic pentru s 1, care corespunde proprietăților probabilistice ale unui proces de salt la timpi mari.

În raport cu imaginea Laplace a distribuției /(t), evidențiem cazul s oo, precum și cazul 6 s 1, responsabil pentru modul „intermediar” 1

Pret 18 ^ub. Legare 1 frecare.

iar (2.2) va lua forma

A. I. SAICHEV, S. G. UTKIN

în ©(“;“) + - w(“)]in(“; 5) = 1,

iar în al doilea / (c) ~ 1 - (1 + 8$) și, în consecință,

""§("; e) + (1 + - th(")]in(i; ") = în"-1.

Aplicând transformarea inversă Fourier și Laplace la egalitățile obținute, ajungem la ecuația Kolmogorov-Feller

> + [tsg(x.^ _ * Ts*)] =< оо,

sau la ecuația generalizată Kolmogorov-Feller

A+b0)t*m) - w(x-l)*yu(,x)) = 1“*“

caracteristică, de exemplu, a unei distribuții normale multivariate cu coordonate independente și aceeași dispersie a2 de-a lungul tuturor axelor. Apoi, ecuațiile de difuzie liniară și anormală pentru diferite asimptotice de timp urmează din ecuațiile de mai sus, respectiv:

e-l ".(< "■

T? 2 ore* "" h"#""" " g(1 -0)

Soluția la primul dintre ele este binecunoscută:

xShx), !«*<-. (3.3)

* „I” (x O- (1 + 1 + -

unde n este dimensiunea spațiului procesului aleator. Soluția celei de-a doua ecuații este dată în secțiunea următoare.

În acest scop h în n-dimensional

componente ale argumentului! /3-stabil

Tag-Leffle multidimensional

Astfel difuzia

Unde , și .

Este recomandabil să se formuleze problema modelării digitale a unui proces aleator normal multidimensional după cum urmează. Este dată o corelație sau o matrice spectrală a unui proces aleatoriu. Este necesar să se găsească un algoritm pentru generarea de implementări discrete ale unui proces aleatoriu cu proprietăți de corelație (spectrale) date pe un computer digital.

Pentru a rezolva această problemă, vom folosi, ca și până acum, ideea unui filtru liniar de modelare. În cazul luat în considerare, vorbim despre sinteza unui filtru de modelare multidimensional.

Un filtru liniar dimensional este definit ca un sistem dinamic liniar cu intrări și ieșiri. Dacă - influenţa de intrare şi este răspunsul sistemului, atunci conexiunea dintre intrarea și ieșirea filtrului liniar continuu -dimensional este descrisă folosind o matrice de transfer sub forma

Unde Și - imagini ale semnalelor de intrare și respectiv de ieșire, în sensul transformării Laplace; - matricea de transfer a unui filtru -dimensional, ale cărui elemente sunt funcții de transfer ale canalelor -a intrare - -a ieșire.

Conexiunea intrare-ieșire în filtre liniare dimensionale discrete este descrisă în mod similar:

,

unde si - imagini în sensul transformării discrete Laplace a semnalelor de intrare și de ieșire; - matricea de transfer a unui filtru dimensional discret.

Diagrama bloc a unui filtru multidimensional folosind un exemplu de filtru bidimensional este prezentată în Fig. 2.9, conform căruia

(2.107)

Vedem că fiecare dintre semnalele de ieșire și este suma operatorilor liniari din semnalele de intrare și . Relații similare sunt valabile în cazul general. Aceasta este identificarea matricelor de transfer.

Fie influența la intrarea filtrului liniar -dimensional zgomot alb -dimensional, adică un proces aleatoriu cu o matrice de corelație de forma

pentru timp continuu şi

pentru timp discret, unde - functie delta. -zgomotul alb dimensional este definit aici ca un set de procese aleatoare independente, -corelate.

Se poate arăta (vezi, de exemplu,) că atunci când este expusă la zgomot alb, matricea spectrală a procesului la ieșire - filtru dimensional pentru timp continuu și, respectiv, discret, este legată de matricea de transfer a filtrului prin relații

(2.108)

unde simbolul denotă matricea transpusă.

În consecință, pentru a obține un proces aleator -dimensional cu o matrice spectrală dată, este necesar să treceți zgomotul alb -dimensional printr-un filtru de modelare -dimensional, a cărui matrice de transfer satisface ecuațiile (2.108). Pentru a găsi matricea de transfer dintr-o matrice spectrală dată, este necesară împărțirea acesteia din urmă în doi factori de forma (2.108). Această procedură se numește factorizarea matricelor spectrale. Poate fi implementat folosind algoritmi cunoscuți.

Filtrarea multidimensională a zgomotului alb este destul de simplă: fiecare componentă proces aleatoriu la ieșirea unui filtru dimensional cu o matrice de transfer este obținut prin însumarea componentelor proces de intrare, filtrat prin filtre unidimensionale cu funcții de transfer [vezi. formula (2.107)]. Algoritmii de filtrare unidimensionali sunt discutați mai sus.

Cu această metodă de modelare, sunt posibile două moduri: 1) o matrice spectrală dată a unui proces aleator continuu-dimensional poate fi factorizată direct pentru a obține matricea de transfer a unui filtru de modelare continuă și apoi, folosind metodele exacte sau aproximative de discretizare a continuului filtrele descrise mai sus, filtrarea multidimensională a albului continuu poate fi efectuată de zgomot; 2) dată fiind matricea spectrală a unui proces -dimensional continuu, folosind transformarea -, puteți găsi matricea spectrală a procesului aleator discret corespunzător (vezi § 2.3), apoi, prin factorizare, găsiți funcția de transfer a filtrului de modelare discretă , și apoi efectuați filtrarea multidimensională a zgomotului alb discret.

Cele mai mari dificultăți se întâlnesc la factorizarea matricelor spectrale. În prezent, au fost dezvoltați algoritmi pentru factorizarea numai a matricelor spectrale raționale, adică a unor astfel de matrici ale căror elemente sunt funcții fracționale-raționale ale argumentelor sau .

Să descriem, omițând dovezi, unul dintre algoritmii de factorizare a matricelor spectrale raționale, preluat din.

Să fie dată o matrice spectrală rațională

.

Matricea poate fi redusă la formă

prin următoarele transformări.

1. Se determină rangul matricei, apoi unul dintre minorii majori ai ordinului este situat în colțul din stânga sus al matricei.

2. Matricea este redusă la formă diagonală. Pentru a face acest lucru, primul rând înmulțit cu - se adaugă la al treilea rând al matricei, apoi prima coloană înmulțită cu ; se adaugă la a treia coloană. rezultatul este o matrice

, (2.109)

unde sunt elementele matricei

arată ca

(2.110)

Cu matricea se efectuează aceleași transformări ca și cu matricea originală . Continuarea acestui proces la pasul a treia produce o matrice diagonală

astfel încât .

3. Se găsește matricea auxiliară

ale căror elemente au următoarea formă:

(2.111)

unde sunt determinate din relaţii de recurenţă

(2.112)

4. Găsiți polinoame auxiliare

Unde - zerourile de polinoame , situate în semiplanul inferior, numărate de câte ori multiplicitatea lor maximă și sunt numitorii funcțiilor raționale fracționale, care sunt elemente ale matricei:

.

5. Conform metodei discutate în § 2.9, paragraful 2, funcții fracționale-raționale

sunt prezentate sub formă

,

unde polinoamele și nu au zerouri în semiplanul inferior.

Acest lucru completează procesul de factorizare. În cele din urmă, matricea de transfer a filtrului de modelare este scrisă sub formă

(2.113)

Aici descriem un algoritm pentru factorizarea matricelor spectrale raționale ale proceselor multidimensionale continue. Factorizarea matricelor spectrale ale proceselor discrete se realizează într-un mod similar, numai că în loc de rădăcini situate în semiplanul inferior, sunt luate rădăcini situate în cercul unitar.

Exemplul 1. Să fie dat un proces aleator centrat staționar continuu bidimensional cu o matrice de corelație

, (2.114)

unde sunt unele constante pozitive și .

Matricea de corelație corespunzătoare matricei spectrale (2.114) are forma

, (2.115)

Unde Și - momentele de autocorelare şi corelaţie reciprocă ale proceselor şi, respectiv; - coeficientul de corelare încrucișată a proceselor și a momentelor de timp coincidente. Coeficienții și reprezintă în acest caz lățimea (la nivelul de 0,5) a spectrelor de energie și spectrul energetic reciproc al proceselor și .

Este necesară factorizarea matricei spectrale (2.114) pentru a obține matricea de transfer a filtrului de modelare.

Vom efectua procedura de factorizare pas cu pas în conformitate cu algoritmul de factorizare de mai sus.

1. În acest caz, rangul matricei spectrale este.

2. Reducerea matricei la diagonală necesită un pas. Folosind formulele (2.109) și (2.110) obținem

.

3. În conformitate cu expresiile (2.111) și (2.112), matricea auxiliară are forma

4. În cazul luat în considerare, trebuie să găsiți un singur polinom auxiliar. Pentru a face acest lucru, trebuie să găsiți rădăcinile numitorului elementului de matrice, adică rădăcinile polinomului. Aceste rădăcini sunt egale

Prin urmare,

.

5. În etapa finală, este necesară factorizarea funcțiilor fracțional-raționale

În acest caz, rădăcinile numărătorilor și numitorilor funcțiilor raționale fracționale sunt ușor de calculat. Folosind rădăcinile situate în semiplanul superior (rădăcini cu părți imaginare pozitive), obținem pentru variabilă:

.

În fig. Figura 2.9 prezintă o diagramă bloc a unui filtru de modelare bidimensional, la ieșirea căruia se formează un proces aleator bidimensional cu caracteristicile spectrale necesare dacă se aplică zgomot alb la intrarea filtrului. Înlocuind un filtru bidimensional continuu cu un filtru discret corespunzător, obținem un algoritm pentru generarea de implementări discrete ale unui proces normal aleator bidimensional pe un computer digital, adică implementări discrete a două procese aleatoare normale staționare și staționare cu exponențial. funcții de auto- și corelație încrucișată de forma (2.115).

O altă abordare a sintetizării unui filtru de modelare necesită mai întâi găsirea matricei spectrale a procesului aleator multidimensional discret corespunzător. În exemplul luat în considerare, această matrice are forma

Și matrice (2.116).

Exemplul luat în considerare arată că factorizarea matricelor spectrale se realizează relativ simplu dacă este posibil să se găsească analitic zerourile polinoamelor corespunzătoare. La factorizarea matricei spectrale a unui proces bidimensional continuu, acest lucru nu a fost dificil, deoarece pentru a determina zerourile a fost necesar să se rezolve doar ecuații pătratice și biquadratice. La factorizarea matricei spectrale a unui proces bidimensional discret au existat ecuații pătratice și o ecuație reciprocă de gradul al patrulea, care admite și o soluție analitică.

În alte cazuri, mai complexe, zerourile polinomului nu pot fi găsite întotdeauna analitic. În aceste cazuri, se recurge la metode numerice pentru rezolvarea ecuațiilor de gradul I. În general, procesul de factorizare poate fi implementat pe un computer digital ca program standard. În acest scop, pe lângă cel prezentat aici, pot fi utilizați și alți algoritmi de factorizare.

Trebuie remarcat faptul că toți algoritmii existenți în prezent pentru factorizarea matricelor spectrale sunt, în general, foarte intensivi în muncă.

Cele mai bune articole pe această temă