Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • Televizoare (Smart TV)
  • Sisteme multidimensionale cu pierderi. STATISTICA Tehnici exploratorii multivariate Tehnologii multivariate de analiza a datelor

Sisteme multidimensionale cu pierderi. STATISTICA Tehnici exploratorii multivariate Tehnologii multivariate de analiza a datelor

Paginile 513-523

Procese multidimensionale

Până acum, am luat în considerare modele care constau dintr-o singură relație care leagă serii de timp. În acest caz, am ales una dintre variabile ca fiind endogene, iar restul variabilelor au fost exogene. O astfel de împărțire nu este întotdeauna naturală, de multe ori este necesar să se ia în considerare simultan mai multe relații, în care aceleași variabile sunt incluse atât ca endogene, cât și ca exogene. După cum puteți vedea din ultima prelegere, o variabilă nu poate fi întotdeauna considerată exogenă și, de fapt, trebuie să luăm în considerare un model DGP format din mai multe ecuații. Aceasta înseamnă modelarea mai multor serii de timp în același timp, cu alte cuvinte - modelarea unui proces aleator multidimensional.

Să începem cu definiția. Luați în considerare un vector = (xt 1, xt2, ..., xtk)T, a cărui componentă este o serie temporală. superscriptul va indica numărul componentei, iar cel de jos, ca mai înainte, momentul în timp. distribuția componentelor este caracterizată printr-o familie de densități de distribuție comune de forma: f n ( Xt1i1, xt2i2, ..., xtnîn) ‚N = 1, 2, .... Condiția de staționaritate în sens restrâns este încă independența deplasării în timp a întregii familii de densități de distribuție comune. Abia acum, pe lângă toate combinațiile posibile de valori ale unui proces aleatoriu în momente diferite, argumentele densităților de probabilitate sunt, de asemenea, tot felul de combinații de diferite componente în momente diferite. De exemplu, pentru o densitate bidimensională, obținem din condiția de staționaritate: f 2 (Xt 1 ,Xt 2 ) = f 2 (x 1t + r, x 2t + r) pentru orice τ. Distribuția comună a componentelor pentru același moment în timp nu depinde de timp. Luați în considerare o altă funcție de distribuție, de exemplu, una tridimensională, care include valorile primei componente în două momente diferite de timp și ale celei de-a doua componente într-un al treilea moment de timp. Staționaritatea înseamnă asta f 3 (Xt 1 ,Xt + h 1 ,Xt + s 2 ) = f 3 (x 1t + τ , x 2t + s + τ ) ... Putem spune că aceasta este proprietatea invarianței la o deplasare în timp. Adică, dacă valoarea lui τ este adăugată la fiecare moment de timp, atunci funcția de densitate nu se va modifica. Este clar că staționaritatea unui proces multidimensional implică staționaritatea fiecăreia dintre componentele sale.

Ca și în cazul unidimensional, staționaritatea în sens restrâns implică o serie de proprietăți ale caracteristicilor proceselor aleatorii. În primul rând, să începem cu valoarea așteptată. Așteptările matematice pentru fiecare componentă sunt independente de celelalte componente. Prin urmare, dacă procesul multidimensional este staționar, așteptarea matematică a fiecărei componente nu depinde de timp. Vectorul așteptărilor matematice E ( nu depinde de timp.

Acum să luăm în considerare momentele de ordinul doi. Fiecare componentă este caracterizată de varianță și funcție de autocorelare. Dacă o serie unidimensională este staționară, funcțiile sale de autocorelare și autocovarianță depind doar de deplasarea τ: Corr (τ) = Corr ( Xti,Xjt + r) = р i (τ), dar acum putem lua în considerare al doilea moment mixt pentru diferite componente, precum și Corr ( Xti,Xjt + r). Este firesc să numim o astfel de valoare o funcție de corelație încrucișată. Dacă componentele formează un proces staționar multidimensional, atunci corelația încrucișată va fi o funcție a deplasării în timp τ. Notăm această funcție R ij (τ) ... Este destul de evident că R ij (τ) = R ji (-τ) ... Pentru o valoare fixă ​​a lui τ, elementele R ij (τ) formează o matrice R în funcție de τ. Valoarea τ egală cu zero corespunde matricei de corelație a vectorului

În secțiunea anterioară, ne-am uitat la o diagramă de tranziție de stare 2D. Pentru un număr tot mai mare de fluxuri de sarcină, numărul de stări (și, prin urmare, de ecuații) crește foarte rapid. Cu toate acestea, puteți simplifica problema utilizând o structură de diagramă de tranziție de stare. Luați în considerare diagrama bidimensională de tranziție a stării prezentată în Fig. 10.2. Pentru patru stări adiacente, fluxul în sensul acelor de ceasornic trebuie să fie egal cu fluxul opus (Kingman, 1969), (Sutton, 1980). Aruncă o privire la fig. 10.2.


Orez. 10.2.

În sensul acelor de ceasornic:


În sens invers acelor de ceasornic:


Putem anula ambele expresii pentru probabilitățile de stare și apoi obținem condiția (10.12). O condiție necesară și suficientă pentru reversibilitate este ca următoarele două expresii să fie egale.

În sensul acelor de ceasornic:

(10.12)

În sens invers acelor de ceasornic:

Dacă aceste două expresii sunt egale, atunci există echilibru local sau parțial... Astfel, o condiție necesară pentru reversibilitate este ca dacă există un flux (săgeată) din starea i în starea j, atunci trebuie să existe și un flux (săgeată) din starea j în starea i. Putem aplica ecuații de secțiune între oricare două stări conectate. Deci din figura 10.2 obținem:

(10.13)

Putem exprima orice probabilitate a unei stări în termeni de probabilitate a unei stări, alegând orice cale între aceste două stări ( criteriile Kolmogorov). Putem, de exemplu, alege o cale:

Apoi obținem următoarea ecuație de echilibru:

(10.17)

Dacă luăm în considerare un sistem multidimensional cu pierderi cu N fluxuri de sarcină, atunci orice flux de sarcină poate fi un proces Poisson dependent de stare. Într-un anumit fir, pot exista încărcări de acest tip BPP(Bernoulli, Poisson, Pascal). Pentru N - dimensională sisteme, condițiile de reversibilitate sunt similare cu (10.12). Criteriul lui Kolmogorov trebuie îndeplinit pentru toate căile posibile. În practică, nu întâmpinăm probleme, deoarece soluția obținută conform ipotezei de reversibilitate va fi soluția corectă dacă și numai dacă sunt îndeplinite ecuațiile de echilibru ale nodului. În secțiunea următoare, vom folosi acest lucru ca bază pentru a introduce un model de încărcare multidimensional generic.

Sisteme cu pierderi multidimensionale

În această secțiune, luăm în considerare generalizările teoriei clasice ale teletraficului pentru sistemele care constau din mai multe tipuri de fluxuri de încărcare care ajung la un singur canal sau grup de canale sau pachete de canale. Fiecare flux de sarcină poate avea parametri separați și poate fi fluxuri de apel Poisson dependente de stare, cu clase limitate și trafic multislot. Această clasă generală de modele este insensibilă la distribuția timpului de ședere care poate fi o clasă. Introducem generalizări pe rând și prezentăm un mic studiu de caz pentru a ilustra ideile principale.

Limitarea clasei

În comparație cu cazul discutat în secțiunea 10.1, acum vom limita numărul de cereri concurente pentru fiecare fir de încărcare (clasă). Astfel, nu va exista disponibilitate deplină, dar spre deosebire de sistemele de aglomerație, unde fizic există acces doar la canalele specificate, acum este posibil să folosim toate canalele, dar în orice moment putem ocupa doar un număr limitat de ele. Acest lucru asigură protecția serviciului (protecția numărului de VC = limitare pe clasă de serviciu = strategie de prag de prioritate). Astfel, introducem restricții privind numărul de apeluri concurente în clasa j, după cum urmează:

(10.18)

Dacă ultima constrângere nu este satisfăcută, atunci obținem grupuri separate care corespund la N unidimensionale independente obișnuite sisteme cu pierderi... Din cauza limitărilor, diagrama de tranziție a stărilor a fost trunchiată. Pentru două fluxuri de încărcare, este prezentat în Figura 10.3.


Orez. 10.3.

Rețineți că diagrama de tranziție a stării trunchiate este încă reversibilă și că valoarea relativă la valoare nu se modifică atunci când este trunchiată. Se schimbă doar constanta de normalizare. De fapt, datorită proprietății de echilibru local, putem elimina orice stare fără a modifica proprietățile menționate mai sus. Puteți lua în considerare constrângeri de clasă mai generale pentru seturi de fluxuri de sarcină, astfel încât orice flux de sarcină să aibă un număr minim (garantat) de canale alocate.

Procese generalizate de serviciu de încărcare

Putem lua în considerare PCT -I sarcină numai ca în secțiunea 10.1. Fiecare flux de sarcină poate fi dependent de stare, de exemplu, fluxul de apel Poisson cu dependență de stare liniară și propria sa rată de ieșire (moarte), vezi (10.16) și (10.17)

Sistemul îndeplinește condițiile de reversibilitate, vezi (10.12). Astfel, forma lucrării există și pentru BPP-fluxuri de sarcină și procese Poisson mai generale dependente de stare. Dacă toate fluxurile de încărcare sunt procese Engset (binomale), atunci obținem formula Engset multidimensională (Jensen, 1948). După cum sa menționat mai sus, sistemul este insensibil la distribuțiile timpilor de rezidență în sistem. Fiecare flux de sarcină poate avea propria sa distribuție separată a timpului de rezidență.

Sarcina cu mai multe sloturi

În sistemele de servicii integrate, lățimea de bandă necesară poate depinde de tipul de serviciu. De exemplu, un canal (slot) este necesar pentru a deservi o conexiune telefonică doar vocală, în timp ce, de exemplu, transmisia video poate necesita canale în același timp. Primim restricții suplimentare:

(10.19)
(10.20)

unde este numărul real de apeluri tip. Diagrama de tranziție a stării rezultată va fi reversibilă și va fi sub forma unui produs.


A.L. Pomerantsev, O.E. Rodionova


În literatura științifică și tehnică internă, expresia „controlul statistic multidimensional al proceselor” - MSPC (Controlul statistic al procesului multivariat).
MSPC este o abordare modernă a modelării proceselor multidimensionale (multifactoriale), bazată pe utilizarea metodelor matematice de proiecție care vă permit să evidențiați ascunse în seturi mari de date. (latent) variabilelor şi analizează conexiunile care există în sistemul studiat. MSPC este o evoluție naturală a abordării cunoscute ca SPC (Control statistic al procesului)- controlul statistic al proceselor, cu trecerea la un nivel superior de prelucrare a datelor acumulate.
Ce procese analizează MSPC? În primul rând, desigur, producția. Cu toate acestea, poate fi util și pentru întreprinderile comerciale, sferele bancare și de asigurări etc., adică acolo unde este necesar să se ia în mod regulat decizii care afectează eficiența întreprinderii. MSPC este înțeles ca o activitate cu mai multe fațete legate de monitorizarea, modelarea și managementul proceselor multifactoriale, care vizează stabilizarea funcționării unei întreprinderi, creșterea eficienței acesteia și, în final, producerea de produse de calitate sau furnizarea de servicii de calitate.
Control de calitate- acesta este acum un subiect la modă, deși munca de înaltă calitate în sine a fost întotdeauna relevantă pentru orice întreprindere. Cuvântul „calitate” are multe semnificații și este utilizat pe scară largă atât în ​​viața de zi cu zi, cât și în literatura specială. De exemplu, „calitate” este unul dintre sinonimele cuvântului „proprietate” - adică o caracteristică inerentă a ceva. Adesea, termenul „calitate” reflectă o evaluare subiectivă a unui produs sau serviciu.
Luați în considerare punctul de vedere al producătorului, pentru care calitate- aceasta este respectarea unui anumit standard la un cost minim.
Tocmai pentru a atinge această calitate servește controlul statistic multidimensional al proceselor.
Întreprinderea poate fi împărțită în patru niveluri principale de control al calității.
Control intuitiv al expertilor ... Există în fiecare întreprindere atunci când un expert-tehnolog, în rolul căruia poate acționa orice persoană responsabilă, decide personal dacă produsul fabricat este de înaltă calitate sau nu. În consecință, el decide și ce impact ar trebui exercitat asupra procesului pentru a obține produse de calitate. Această abordare, de exemplu, este folosită într-un restaurant bun, unde bucătarul însuși evaluează calitatea preparatelor și ajustează rețetele pentru prepararea lor. Acest nivel de control dă roade în întreprinderile mici și numai cu un expert calificat. Înlocuirea sau doar boala unui expert poate duce la o scădere catastrofală a calității produsului. De îndată ce întreprinderea crește și un expert (sau un grup de experți) nu mai poate controla personal întregul proces tehnologic, întreprinderea trebuie să treacă la un alt nivel de control al calității.
Control descriptiv ... Cu o astfel de organizare a muncii, pentru fiecare loc de muncă există o instrucțiune care descrie ce, cum, cu ce instrumente este necesar să se facă și care reglementează acuratețea efectuării anumitor operațiuni. Aceasta este abordarea care există, de exemplu, în magazinele de tip fast-food. (fast food), ca urmare a faptului că produc produse de calitate similară în toată lumea. În prezent, această abordare este larg răspândită, în special prin certificarea întreprinderilor pentru conformitatea cu cerințele ISO 9001.
Monitorizare statistică ... Metodele SPC au fost propuse de Schuhart la începutul anilor 30, dar au început să fie implementate pe scară largă în întreprinderi abia de la mijlocul anilor 50. În termeni generali, ideea din spatele acestei abordări este următoarea. Anumiți indicatori de proces predefiniti sunt măsurați în mod regulat la fabrică. Dacă acești indicatori fluctuează în limitele stabilite (niveluri critice), atunci se consideră că procesul este controlabil, dacă nu, controlul este încălcat și s-a produs un eveniment care necesită intervenție pentru restabilirea funcționării normale. Pentru o astfel de monitorizare se folosesc Diagramele de control Shewhart, carduri de sume acumulate etc. Cardurile se completează direct la locul de producție, prin urmare concluziile trase cu ajutorul lor permit, dacă este cazul, să se ia măsuri imediate.
Există mai multe motive pentru care metodele de control de mai sus sunt necesare, dar nu sunt suficiente măsuri pentru a obține un produs final de calitate adecvată. În primul rând, este necesar să se controleze nu numai calitatea produsului final, ci și procesul de producție în sine. În al doilea rând, controlul indicatorilor individuali, fără interconectarea acestora, fie nu asigură calitatea corespunzătoare a produsului de ieșire, fie supraestimează excesiv indicatorii de producție, ducând la numeroase alarme false.
Control statistic multivariat (MSPC) ... Procesul de producție este un sistem complex, multidimensional, care este caracterizat, de regulă, de zeci, sute sau chiar mii de indicatori și o persoană nu poate urmări simultan modificările fiecărui indicator. Există două soluții posibile la această problemă. În primul rând, computerul poate informa operatorul doar despre acei indicatori care „depășesc” valoarea critică. În al doilea rând, metodele multivariate pot fi utilizate pentru a genera diagrame de control generalizate pentru Analiza componentelor principale.
Metodele de control multivariate produc mai puține alarme false și sunt, de asemenea, un instrument puternic pentru analiza potențialelor situații de urgență. Pentru a înțelege esența MSPC și, având în vedere că o persoană joacă un rol important în această abordare, experiența sa, ia în considerare un exemplu de modelare a acţiunilor căpitanului navei, care ia toate deciziile pe navă și ale cărui instrucțiuni sunt îndeplinite fără îndoială.
Eficiența unei companii de transport maritim angajată în transportul regulat regulat de pasageri și mărfuri este determinată, în primul rând, de precizia lucrării, adică de strictețea programului și, în al doilea rând, de utilizarea economică a combustibilului, care depinde direct asupra acţiunilor calificate ale căpitanului.
Pe una dintre aceste trasee, pentru o perioadă destul de îndelungată, au fost colectați și înregistrați diverși parametri care caracterizează procesul de navigare (tabel). Au fost 20 de astfel de indicatori în total (doar câțiva sunt afișați în tabel), printre aceștia negestionate și gestionate variabile precum și variabile - răspunsuri caracterizarea eficienţei (calităţii) muncii.
Port Variabile negestionate Variabile controlate Părere
Vreme Moduri de mișcare Rezultat
Vânt Bou-
ne
scurgere-
nu
Număr
trece-
gras
Greutatea încărcăturii Viteza motorului Pescajul navei diferă-
chirie
Consum
jale-
ce
Târziu
Danemarca
Bergen 10 5 30 123 452 5000 25 10 120 0
Larvik 12 4 35 85 523 4500 40 5 150 0
Maloy 8 5 25 142 384 5000 50 0 180 -2
Volda 2 2 10 102 412 4500 20 5 190 0
Alesund 5 3 14 56 235 4000 -50 5 120 3
Molde 2 1 2 86 341 4000 -30 3 50 0
Kristiansund 1 5 3 140 120 4000 -35 5 85 -5
Trondheim 5 5 15 112 462 5000 20 8 320 0
Malm 6 6 3 50 385 4500 -25 10 105 1
Narvik 7 6 6 75 225 4500 -50 5 85 5
Namsos 8 7 5 94 302 3500 -60 3 95 -4

O analiză matematică a datelor obținute a arătat că acest sistem nu are 20 de grade de libertate, așa cum s-ar putea aștepta, ci doar 5. Cu alte cuvinte, numărul de mărimi independente (nu fizice specifice, ci ascunse, „latente” doar inerente). la acest sistem) este mai mic decât numărul de caracteristici măsurate. Acest lucru se datorează faptului că sistemul are conexiuni interne (corelații)între indicatori. Natura acestor conexiuni este dublă. Pe de o parte, ele sunt generate de motive obiective - de exemplu, puterea vântului și înălțimea valului sunt în mod evident legate. Pe de altă parte, corelațiile apar și din motive subiective - la urma urmei, căpitanul nu a schimbat aleatoriu valorile variabilelor controlate, ci a fost ghidat de anumite obiective, ceea ce a dus la apariția unor conexiuni suplimentare destul de rigide. Drept urmare, a fost posibilă construirea unui model matematic în funcție de cinci variabile latente, care descriau comportamentul căpitanului navei într-o gamă largă de condiții externe. Dacă introduceți valori specifice ale variabilelor necontrolate în acest model, puteți calcula valorile variabilelor controlate, adică puteți sugera căpitanului ce moduri trebuie să alegeți pentru a ajunge la timp la următoarea destinație cu un consum minim de combustibil. Pe de altă parte, căpitanul însuși poate introduce valorile parametrilor controlați în sistem pentru a obține o estimare a acțiunilor intenționate, de exemplu, pentru a afla cât combustibil va cheltui.
De ce ai reusit sa construiesti acest model? Model de comportament din aceasta căpitan, manager de aceasta navă în aceste condiții, a fost posibilă construirea doar pentru că s-a studiat activitatea cu scop cu experienta căpitan. De aceea, sistemul studiat, ca urmare, s-a dovedit a avea nu atât de multe grade interne de libertate. Dacă în locul unui căpitan cu experiență, de exemplu, ar fi plasat un copil, care ar trage aleatoriu mânerele și ar modifica parametrii controlați, niciun model nu ar putea crea, deoarece sistemul nu ar conține logica internă și numărul de grade de libertate. ar fi fost imens. În același timp, a fost necesar să-l convingem pe căpitan să efectueze uneori nerezonabile, din punctul său de vedere, acțiuni, de exemplu, să meargă mai departe decât de obicei în mare deschisă, să aleagă echipamentul greșit al navei etc. Astfel de date sunt necesar pentru a studia comportamentul sistemului la maximum o gamă largă de condiții - numai atunci modelul construit va descrie în mod adecvat sistemul studiat.
Aplicarea practică a acestui sistem a dat rezultate tangibile - în ciuda unui scepticism considerabil, compania de transport maritim a beneficiat în cele din urmă de utilizarea acestuia. În același timp, ar trebui să se acorde atenție următoarelor puncte fundamentale: în primul rând, nimeni nu și-a propus să scoată căpitanul de pe navă - sarcina era să creeze un sistem care să ofere doar recomandări; în al doilea rând, pentru soluție au fost folosite doar modele simple, „formale”, conectând variabilele de intrare și de ieșire și nu au fost folosite dependențe fizice complexe, care descriu efectul diferitelor forțe asupra navei, traiectoria navei etc. În al treilea rând, Aplicarea practică a acestui sistem a dat rezultate tangibile - în ciuda unui scepticism destul de mare, compania de transport maritim a beneficiat în cele din urmă de utilizarea sa. În același timp, ar trebui să se acorde atenție următoarelor puncte fundamentale: în primul rând, nimeni nu și-a propus să scoată căpitanul de pe navă - sarcina era să creeze un sistem care să ofere doar recomandări; în al doilea rând, pentru soluție au fost folosite doar modele simple, „formale”, conectând variabilele de intrare și de ieșire, și nu au fost folosite dependențe fizice complexe care descriu efectul diferitelor forțe asupra navei, traiectoria navei etc. În al treilea rând, problema nu a fost pusă construirea unui model universal care să descrie acțiunile oricărui căpitan pe orice navă - era vorba doar despre o clasă foarte specifică de nave care parcurg o anumită rută.
Ni se pare că exemplul analizat, cu tot exotismul său, ilustrează cu succes ideea principală a MSPC. Într-adevăr, scopul căpitanului este să atingă standardul, adică să ajungă la timp în fiecare port cu un cost minim, adică consum de combustibil. Acțiunile căpitanului, de fapt, nu diferă mult de acțiunile tehnologului: există indicatori necontrolați, controlați și de ieșire care caracterizează modurile de funcționare ale sistemului.
De ce este nevoie de MSPC? Aceasta este o alternativă reală la metodele costisitoare de îmbunătățire a calității în condițiile în care o companie nu poate cumpăra echipamente noi, nu are materii prime de intrare cu proprietăți stabile și nu poate instala dispozitive de control costisitoare. Ce oferă MSPC? Studiați, rezumați și folosiți propria experiență în condiții normale, pe echipamentele existente și cu materiile prime disponibile. Această abordare poate fi rezumată foarte succint folosind stilul sloganului acum popular.
Ţintă.Învățați de la noi înșine să luăm deciziile corecte în diverse situații.
Facilităţi. Colectarea regulată de indicatori reali și analiza lor matematică.
Rezultat. Calitate menținând în același timp costurile pentru o producție stabilă.
Trebuie remarcat faptul că MSPC nu este un program de calculator specific pe care trebuie doar să îl cumpărați și să îl instalați la întreprindere. Aceasta este o anumită abordare, s-ar putea chiar spune, o filozofie care necesită eforturi comune, pe de o parte - specialiști care lucrează la o anumită întreprindere și bine conștienți de procesul tehnologic și blocajele acestuia, iar pe de altă parte - matematicieni care cunosc metodele care permit rezolvarea unor astfel de probleme. În același timp, zona activităților comune include: stabilirea problemei, determinarea și colectarea indicatorilor, testarea modelelor construite în producție.
Pentru a înțelege esența unui anumit sistem sau proces, este necesar să se măsoare și să colecteze date... Având în vedere că analiza multivariată a datelor în general și MSPC în special nu se bazează pe modele funcționale (semnificative), ci pe modelarea formală a datelor, întrebarea ce date să colecteze necesită o luare în considerare separată. Să ne oprim doar asupra anumitor puncte fundamentale.
Totul începe cu un număr mare de măsurători, adică cu colectarea datelor (vezi tabelul). Într-un tabel, fiecare coloană conține toate valorile unei variabile și fiecare rând (numit o mostră) - valorile tuturor variabilelor pentru un eșantion. Un eșantion poate fi considerat atât momentul în timp, cât și numărul lotului, cât și numele clientului, adică orice eveniment caracteristic sistemului studiat. Deci, în exemplul luat în considerare, proba este un feribot între două porturi ale cursului navei.
Variabil poate fi orice valoare care caracterizează funcţionarea sistemului. De exemplu, aciditatea unei băuturi produse poate fi cuantificată ( pH), dar poate fi determinat calitativ („dulce”, „demidulce”, etc.).
Datele necesare colectate în tabel nu înseamnă că am studiat fenomenul, întrucât acest tabel trebuie analizat folosind metode adecvate pentru a extrage informația sistematică. Dacă există puține variabile, de exemplu, două sau trei, atunci analiza poate fi efectuată folosind metode tradiționale, construind grafice pentru date bidimensionale și tridimensionale (Fig. 1, 2). De îndată ce există mulți astfel de indicatori, atunci este necesar să se aplice analiza multivariată a datelor, care se află în centrul MSPC.

Este important de înțeles că datele inițiale conțin întotdeauna atât informații esențiale, care se numesc semnal, și aleatoriu, care se numește zgomot... Zgomotul, în primul rând, este înțeles ca erori de măsurare, caracteristici individuale ale probelor măsurate, erori de modelare etc. În abordarea avută în vedere, zgomotul include și informații sistematice care nu au nicio legătură cu procesul studiat. Separarea datelor în semnal și zgomot este o problemă centrală de modelare, soluția la care este echilibrarea lor corectă. Pe de o parte, nivelul de zgomot nu poate fi subestimat, adică modelul trebuie să fie prea detaliat, deoarece în acest caz modelul va deveni instabil. Pe de altă parte, supraestimând zgomotul, pierdem o parte semnificativă a datelor, iar modelul își pierde puterea de predicție. Metodele de analiză multivariată a datelor, în primul rând, fac să fie relativ ușor de manipulat matrice mari și, în al doilea rând, separarea semnalului și a zgomotului.
Pentru a construi un model care nu numai că funcționează adecvat într-o gamă restrânsă de condiții, dar este capabil să simuleze diferite procese, de exemplu, atunci când se utilizează materii prime de diferite calități, este necesară cea mai largă experiență posibilă. Experiență proastă, eliberarea refuzurilor nu poate fi eliminată din date, deoarece aceste informații sunt necesare și pentru a construi modelul. Nu este necesar să se efectueze o selecție preliminară de eșantioane sau variabile, alegându-le pe cele mai semnificative - acest lucru se decide în procesul de analiză a sistemului. Variabilele sunt adesea interconectate, iar informația de bază - un semnal - este conținută chiar în acest sistem de legături. Dacă o parte din date este aruncată din orice motiv, atunci riscăm să pierdem informații importante.
Desigur, modelul (oricât de complex ar fi) nu va fi niciodată complet exact. Dar un model bun este un instrument eficient pentru înțelegere și, prin urmare, pentru gestionarea procesului. Pentru a construi un astfel de model, sunt necesare date informative și benigne.
Să revenim la diagrama care descrie cele patru niveluri de control al calității. Folosind exemplul căpitanului navei, am văzut că prezența primului nivel, intuitiv-expert, este o condiție prealabilă pentru construirea unui model MSPC. Al doilea nivel descriptiv este, de asemenea, necesar, deși poate nu la nivelul întregii întreprinderi, ci doar pentru a reglementa procedura de colectare a datelor, descrierea ar trebui să răspundă cuprinzător la următoarele întrebări: ce și când să măsoare; cine face măsurători; cum sunt stocate rezultatele. Al treilea nivel de control - monitorizarea statistică - oferă răspunsuri la toate aceste întrebări și pregătește trecerea la MSPC, pentru care este nevoie de foarte puțin - pentru a aplica analizei matematice multivariate datelor existente, care se bazează pe o abordare de proiecție.
Vom descrie MSPC din punctul de vedere al unui lucrător de producție și nu ne vom lăsa distras de detalii matematice nesemnificative care pot fi găsite, de exemplu, în, ci vom încerca să transmită esența abordării proiecției folosind o interpretare geometrică.
Să începem cu cel mai simplu exemplu: atunci când în sistem există doar două variabile măsurabile, atunci datele colectate pot fi reprezentate grafic pe un plan (vezi Fig. 1). Fiecare rând al tabelului sursă (adică, modelul) corespunde unui punct din planul variabilelor cu coordonatele corespunzătoare. Să introducem o nouă axă (prima componentă principală - PC1), astfel încât modificarea maximă a datelor să aibă loc de-a lungul ei și să proiectăm toate punctele pe această nouă axă. Dacă presupunem o situație ideală în care valorile semnalului sunt situate de-a lungul acestei linii drepte, iar împrăștierea se datorează zgomotului, atunci, proiectând datele inițiale pe axa GK1, selectăm o structură de date semnificativă și o descriem doar cu o nouă variabilă. Iar restul datelor, care nu sunt explicate prin această descriere - distanța de la punct la noua axă - pot fi considerate zgomot. Acest zgomot poate fi analizat mai departe, căutând o parte semnificativă în el - a doua componentă principală etc. până când zgomotul devine cu adevărat zgomot, adică un set haotic aleatoriu de cantități.
În general, procesul de proiecție trece prin următoarele etape (vezi Fig. 2):
1) centrul noului de date este localizat și noua origine a coordonatelor este transferată acolo - aceasta este componenta principală zero (PC0);
2) se alege direcția de modificare maximă a datelor - aceasta este prima componentă principală (PC1);
3) dacă datele nu sunt complet descrise (zgomotul este mare), atunci se alege o altă direcție (GK2) - perpendiculară pe prima, pentru a descrie modificarea rămasă a datelor etc.
Ca urmare, analiza componentelor principale prezintă probe într-un spațiu nou de dimensiuni mai mici. Acest lucru nu numai că înlocuiește un sistem de coordonate cu altul, dar reduce și nivelul de zgomot (adică influența diferiților factori externi) asupra sistemului. În fig. 2 arată o scădere a dimensiunii sistemului de la trei la doi, ceea ce nu este o scădere semnificativă a dimensiunii. Adesea există o scădere cu ordine de mărime, de exemplu, de la 300 de variabile inițiale la 3-5 componente principale.
Un exemplu de control al procesului de producție construit din date obținute la o fabrică chimică reală, dar oarecum simplificat în scopuri ilustrative. De ceva timp a fost investigat procesul tehnologic (53 de stări ale sistemului - probă), care a fost monitorizat de 17 senzori (variabile). Pentru fiecare indicator, au fost stabilite limitele superioare și inferioare ale valorilor acceptabile. Conform abordării SPC, fiecare variabilă are propria sa diagramă de control (Fig. 3). Când indicatorul depășește nivelul critic, operatorul primește un semnal de avertizare.

Dacă ar fi puține variabile, atunci această abordare nu ar crea probleme. Cu toate acestea, este dificil pentru un operator să controleze simultan dinamica modificărilor tuturor (în acest caz, 17) variabile (Fig. 4).

Cea mai simplă analiză vă permite să faceți transformări evidente ale datelor inițiale:
1) deplasați fiecare variabilă astfel încât media să fie zero;
2) normalizați fiecare variabilă astfel încât să o aduceți la nivelul critic general, de exemplu + 1.
Transformări simple similare, numite în metoda MSPC pregătirea datelor, permit simplificarea semnificativă a percepției vizuale a informațiilor despre proces.
Ca urmare, operatorul va vedea pe ecran o imagine care reflectă starea sistemului la un anumit moment în timp (citiri normalizate ale senzorilor), care este deja ușor de controlat (Fig. 5). Pe ea, valoarea fiecărei variabile normalizate este reprezentată de un grafic cu bare, a cărui înălțime se modifică în timpul procesului. Este deja vizibil aici cât de departe este fiecare indicator de nivelurile critice.

Cu toate acestea, o astfel de transformare nu rezolvă o altă problemă importantă care apare la monitorizarea unui număr mare de indicatori - cum să răspundeți la semnalele de avertizare. Printre cele 17 variabile măsurate, există mai multe variabile controlate. Dacă unul dintre ei se apropie de nivelul critic superior, atunci este firesc să-l scadă, dacă la cel inferior, atunci să-l crească. Dar cum rămâne cu variabilele negestionate, ale căror valori nu pot fi modificate direct? Ajută aici ca toți indicatorii din sistem să fie interconectați. De exemplu, cu cât temperatura este mai mare, cu atât presiunea este mai mare etc. Prin urmare, operatorul poate schimba indirect variabilele necontrolate prin reglarea celor controlate. În general, în astfel de sisteme complexe, pătrunse de conexiuni interne, acțiunea fiecărui operator determină o modificare simultană a tuturor indicatorilor, și nu întotdeauna de dorit. În mod ideal, pentru a obține rezultatul dorit, este necesară modificarea strict dozată a valorilor tuturor variabilelor controlate în același timp, ceea ce este practic imposibil. Prin urmare, apar erori care duc la căsătorie.
Prezența conexiunilor interne în abordarea obișnuită a sarcinii de management provoacă probleme, dar pentru MSPC, dimpotrivă, este o binecuvântare. Când se aplică, metodele de proiecție sunt folosite pentru a distinge variabilele latente generalizate în sistem. Deci, în exemplul luat în considerare, s-a dovedit că poate fi descris doar cu două componente principale. În fig. 6 prezintă proiecțiile tuturor celor 53 de stări măsurate ale sistemului (eșantioane) pe planul celor două componente principale.

În același timp, nivelul de zgomot, adică ponderea datelor inexplicabile, este de doar 4%. Aceasta înseamnă că fiecare observație - un șir de 17 numere - poate fi reconstruită din două valori ale proiecțiilor pe axa componentelor principale cu o precizie relativă nu mai slabă de 0,04. În plus, a fost posibil să se stabilească o relație neechivocă între ieșirea valorii oricărui senzor dincolo de nivelul de referință și ieșirea unui punct din planul PC dincolo de limitele elipsei critice (vezi Fig. 6). Acum operatorul poate urmări schimbarea poziției punctului care caracterizează starea sistemului în plan, ceea ce, desigur, este mult mai ușor.
Problema managementului este, de asemenea, mult simplificată. Operatorul poate controla deja doar două variabile „latente”, ajustându-le dacă este necesar. În acest caz, există o schimbare simultană sincronă a tuturor variabilelor originale, „fizice”. Apropo, această tehnică este folosită implicit în multe aparate electrocasnice complexe, de exemplu, la receptoarele de televiziune, unde utilizatorul are la dispoziție un număr limitat de butoane de control care controlează un număr mare de variabile fizice ascunse de el. Pentru ca un astfel de sistem de control să fie convenabil și eficient, trebuie mai întâi configurat. Acest proces se numește calibrare(sau absolviri) - prin analogie cu procedura de montare a instrumentelor de măsurare - prin urmare, analiza datelor multivariate se mai numește și calibrare multivariată.
Înainte de a utiliza practic modelul matematic construit în timpul calibrării, acesta este supus procedurii verificări, adică trebuie să vă asigurați că este capabil să prezică corect starea sistemului. Pentru a face acest lucru, măsurați și colectați noi (verificare) date despre procesul studiat și utilizați modelul construit pentru a prezice aceste valori. Dacă valorile prezise diferă ușor de cele măsurate, atunci se consideră că modelul a trecut testul și poate fi utilizat în practică. Dacă nu, atunci trebuie să efectuați o nouă calibrare, mai precisă. Adesea, proprietățile unui sistem simulat se pot schimba dramatic (tranziția la noi materii prime) sau treptat (uzura echipamentului). În acest caz, modelul construit anterior devine inutilizabil și trebuie rafinat. Cu această formulare, sarcina MSPC nu este o acțiune unică, ci un program țintă pentru analizarea și îmbunătățirea calității muncii întreprinderii.
În ultimul deceniu, MSPC a fost utilizat pe scară largă la nivel mondial în diverse domenii industriale pentru procese continue precum:
controlul și prognozarea calității hârtiei de ziar în funcție de compoziția materiei prime;
controlul calității producției de cupru și analiza compoziției impurităților;
controlul calității benzinei.
În plus, MSPC este utilizat și în cazurile în care procesul constă din etape separate, iar pentru a obține produse de înaltă calitate, este necesar să se controleze cinetica proceselor într-una sau mai multe etape, de exemplu:
controlul asupra producției de drojdie de panificație;
controlul procesului de polimerizare în producerea polietilenei de joasă densitate.
Concluzii. MSPC este o abordare modernă utilizată în întreaga lume pentru a monitoriza procesele de producție, a îmbunătăți funcționarea acestora, a îmbunătăți calitatea produselor și a dezvolta noi tehnologii și produse. Modelarea matematică utilizată în MSPC nu se bazează pe construcția de modele fizice complexe (chimice etc.), ci pe o simplă analiză a datelor de intrare și de ieșire. Procedura de aplicare MSPC parcurge următoarele etape principale:
1) enunţarea problemei, construirea unui plan de observare;
2) monitorizarea procesului, colectarea datelor;
3) analiza datelor, stabilirea legăturilor ascunse între indicatori;
3) construirea si verificarea modelului;
4) aplicarea practică a modelului pentru rezolvarea problemelor curente;
5) analiza practicii de aplicare și corectare a modelului.
Ultimele două etape nu sunt unice, ci trebuie aplicate continuu pentru a obține rezultate optime de producție.
MSPC prezintă starea procesului de producție într-o formă simplă și vizuală și este o continuare logică și o dezvoltare a metodelor standard de control statistic al procesului. Această abordare vă permite să obțineți rezultate durabile chiar și cu echipamente învechite și calitate instabilă a materiilor prime. Revenind la clasificarea nivelurilor de control al calității, dată la începutul articolului, se poate observa că MSPC, într-un sens, „închide cercul”, revenind producția la controlul „patriarhal” inițial, dar la un nivel diferit calitativ și cantitativ. nivel de sistem. Nu este un secret pentru nimeni că controlul intuitiv și expert al producției (o bunica în bucătăria ei) poate oferi cea mai înaltă calitate care nu poate fi comparată cu producția în linie. Folosind MSPC, este posibilă generalizarea și formalizarea matematică a experienței individuale, de neprețuit, a fiecărui specialist și, prin urmare, extinderea ei la procesele de producție în masă. Ni se pare că Rusia, cu numeroșii săi specialiști experimentați capabili să asigure o producție stabilă în condiții instabile, este un subiect unic pentru această abordare. Aici ar trebui să aducă cele mai impresionante rezultate, mai ales că costurile asociate cu implementarea MSPC sunt mult mai mici decât, să zicem, achiziționarea de echipamente noi.

LISTA LITERATURII UTILIZATE
1. Shewhart W.A. Controlul economic al calității produsului fabricat. - Van Nostrand, New York, 1931.
2. MacGregor J., Kourti Th. Statistical process Control of Multivariate Processes // Control Engineering Practice, 1995 (3), P. 403-413.
3. Kourti Th., MacGregor J. Recent Developments in Multivariate SPC Methods for Monitoring and Diagnosing Process and Product Performance // J. of Quality Technology. 1996 28 (4), p. 309-323.
4. Hцskuldsson A. Metode de predicție în știință și tehnologie. Editura Thor, Danemarca 1996.
5. Eriksson L., Johansson E., Kettaneh-Wold N., Wold S. Multi- and Megavariate Data Analysis, Umetrics AB, Umea, 2001.
6. Esbensen K.H. Multivariate Data Analysis - In Practice Ed. a 4-a, CAMO, 2000.
7. Martens H. și Nzhs T. Multivariate calibration, John Wiley & Sons, Chichester, 1989.
8. Buletin informativ INFOMetrix 11-4 / 91. Evaluarea octanului benzinei prin spectroscopie în infraroșu apropiat. Infometix, Inc. Seattle, Washington SUA.
9. Kourti Th., MacGregor J. Analiza proceselor, monitorizarea și diagnosticarea, folosind metode de proiecție multivariată. Chemom. Intelege. laborator. Sisteme. 1995 (28), p. 3-21.

Preparat pe baza materialelor RIA „Standarde și calitate”

Modelul de date relaționale, care a fost propus de E.F. Codd în 1970 și pentru care a primit Premiul Turing un deceniu mai târziu, servește drept fundație pentru industria de baze de date de mai multe miliarde de dolari. În ultimii zece ani, s-a dezvoltat un model de date multidimensional, care este utilizat atunci când scopul este de a analiza datele, și nu de a executa tranzacții. Tehnologia bazelor de date multidimensionale este un factor cheie pentru analiza interactivă a seturilor mari de date pentru a sprijini luarea deciziilor. Astfel de baze de date tratează datele ca cuburi multidimensionale, ceea ce este foarte convenabil pentru analiza lor.

Modelele multivariate tratează datele fie ca fapte cu parametri numerici corespunzători, fie ca dimensiuni textuale care caracterizează acele fapte. În comerțul cu amănuntul, de exemplu, o achiziție este un fapt, volumul și costul achiziției sunt parametri, iar tipul de produs achiziționat, timpul și locul achiziției sunt măsurători. Interogările agregă valorile parametrilor dintr-o gamă de măsurători, rezultând valori precum vânzările lunare totale ale unui anumit produs. Modelele de date multidimensionale au trei aplicații importante legate de problemele de analiză a datelor.

  • Depozitele de date sunt integrate pentru a analiza informații din mai multe surse dintr-o întreprindere.
  • Sistemele de procesare analitică online (OLAP) oferă răspunsuri rapide la întrebările care acoperă cantități mari de date în căutarea tendințelor generale.
  • Aplicațiile de data mining servesc la descoperirea cunoștințelor prin căutarea semi-automatică a modelelor și relațiilor necunoscute anterior în bazele de date.

Cercetătorii au propus modele matematice formale pentru baze de date multidimensionale, iar apoi aceste propuneri au fost rafinate în instrumente software specifice care implementează aceste modele. Bara laterală descrie evoluția modelului de date multidimensionale.

Foi de calcul și relații

Foile de calcul, cum ar fi cea prezentată în Tabelul 1, sunt un instrument la îndemână pentru analiza datelor despre vânzări: ce produse sunt vândute, câte oferte au fost făcute și unde. Un tabel pivot este o foaie de calcul bidimensională cu subtotaluri și totaluri asociate, care este utilizată pentru a vizualiza date mai complexe prin imbricarea mai multor dimensiuni x și y și afișarea datelor pe mai multe pagini. Tabelele principale acceptă de obicei selecția iterativă de subseturi de date și se modifică la nivelul de detaliu afișat.

Foile de calcul nu sunt potrivite pentru gestionarea și stocarea datelor multidimensionale deoarece leagă datele prea strâns de aspectul lor, fără a separa informațiile structurale de prezentarea dorită a informațiilor. De exemplu, adăugarea unei a treia dimensiuni, cum ar fi timpul, sau gruparea datelor pe tipuri de produse generice, necesită personalizare mult mai complexă. Soluția evidentă este să folosiți o foaie de calcul separată pentru fiecare dimensiune. Dar o astfel de decizie este justificată doar într-o măsură limitată, deoarece analiza unor astfel de seturi de tabele devine rapid greoaie.

Utilizarea bazelor de date care acceptă SQL crește foarte mult flexibilitatea manipulării datelor structurate. Cu toate acestea, este dificil, dacă nu imposibil, să se formuleze multe calcule, cum ar fi agregatele (vânzările anuale până în prezent), combinația de totaluri și rezultate intermediare și clasarea, cum ar fi determinarea celor mai bine vândute zece produse, folosind SQL standard. . Când rearanjați rândurile și coloanele, trebuie să specificați și să combinați manual diferitele vizualizări. Extensiile SQL precum operatorul de cuburi de date și ferestrele de interogare rezolvă parțial aceste probleme; în general, un model relațional pur nu permite lucrul cu dimensiuni ierarhice la un nivel acceptabil.

Foile de calcul și bazele de date relaționale gestionează în mod adecvat seturile de date care au dimensiuni reduse, dar nu îndeplinesc pe deplin cerințele extragerii de date. Soluția este utilizarea tehnologiei care acceptă întreaga gamă de instrumente de modelare a datelor multidimensionale.

Cuba

Bazele de date multidimensionale consideră datele ca cuburi, care sunt generalizări ale foilor de calcul la orice număr de dimensiuni. În plus, cuburile mențin o ierarhie a dimensiunilor și formulelor fără a-și duplica definițiile. Un set de cuburi corespunzătoare constituie o bază de date multidimensională (sau depozit de date).

Cuburile sunt ușor de gestionat prin adăugarea de noi valori de dimensiune. În uz comun, acest termen desemnează o figură cu trei dimensiuni, totuși, în teorie, un cub poate avea orice număr de dimensiuni. În practică, majoritatea cuburilor de date au între 4 și 12 dimensiuni. Instrumentele moderne se confruntă adesea cu o lipsă de performanță atunci când așa-numitul hipercub are mai mult de 10-15 dimensiuni.

Combinațiile de valori ale dimensiunii definesc celulele din cub. În funcție de aplicația specifică, celulele din cub pot fi localizate fie împrăștiate, fie dens. Cuburile tind să devină fragmentate pe măsură ce numărul de dimensiuni și granularitatea valorilor dimensiunilor crește.

În fig. 1 prezintă un cub care conține date despre vânzări pentru două orașe daneze indicate în tabelul 1 cu o dimensiune suplimentară - „Timp”. Datele de vânzări sunt stocate în celulele corespunzătoare. În exemplu, puteți găsi un „fapt” - o celulă negoală care conține parametrii numerici corespunzători - pentru fiecare combinație de timp, produs și oraș în care a fost efectuată cel puțin o vânzare. Celula conține valorile numerice asociate faptului - în acest caz, este volumul vânzărilor - singurul parametru.

În general, un cub vă permite să reprezentați doar două sau trei dimensiuni odată, dar puteți afișa mai multe prin imbricarea unei dimensiuni în alta. Astfel, prin proiectarea unui cub pe un spațiu bidimensional sau tridimensional, se poate reduce dimensiunea cubului prin agregarea unora dintre dimensiuni, ceea ce duce la lucrul cu valori mai complexe ale parametrilor. De exemplu, analizând vânzările în funcție de oraș și oră, cumulăm informații pentru fiecare combinație de oraș și timp. Deci, în fig. 1, adăugarea câmpurilor 127 și 211 oferă vânzările totale pentru Copenhaga în 2001.

Măsurătorile

Măsurătorile sunt un concept cheie în bazele de date multidimensionale. Modelarea multivariată implică utilizarea dimensiunilor pentru a oferi un context cât mai mare posibil pentru fapte. Spre deosebire de bazele de date relaționale, redundanța controlată în bazele de date multidimensionale este în general considerată justificată dacă crește valoarea informației. Deoarece datele dintr-un cub multidimensional sunt adesea colectate din alte surse, cum ar fi un sistem tranzacțional, problemele de redundanță asociate cu actualizările pot fi mult mai ușor de rezolvat. De regulă, nu există redundanță în fapte, ea există doar în dimensiuni.

Dimensiunile sunt utilizate pentru selectarea și agregarea datelor la nivelul de detaliu necesar. Dimensiunile sunt organizate într-o ierarhie de mai multe niveluri, fiecare dintre acestea reprezentând nivelul de detaliu necesar pentru analiza asociată.

Uneori este util să definiți mai multe ierarhii pentru o dimensiune. De exemplu, un model poate defini timpul atât în ​​anii fiscali, cât și în anii calendaristici. Mai multe ierarhii au unul sau mai multe niveluri comune, cele mai joase, cum ar fi ziua și luna, iar modelul le grupează în mai multe niveluri superioare - trimestrul fiscal și trimestrul calendaristic. Pentru a evita definițiile duplicate, metadatele bazei de date multidimensionale definesc ierarhia dimensiunilor.

În fig. Figura 2 prezintă schema de locație pentru datele de vânzări din Tabelul 1. Dintre cele trei niveluri de dimensiuni ale locației, cel mai mic este Oraș. Valorile la nivel de oraș sunt grupate în valori la nivel de țară, de exemplu, Aalborg și Copenhaga sunt în Danemarca. Nivelul T reprezintă toate dimensiunile.

În unele modele multidimensionale, un nivel are mai multe proprietăți înrudite care conțin informații simple, neierarhice. De exemplu, Dimensiunea pachetului ar putea fi o proprietate de nivel în dimensiunea Produs. Dimensiunea Dimensiune pachet poate primi și aceste informații. Utilizarea mecanismului de proprietate nu crește numărul de dimensiuni din cub.

Spre deosebire de spațiile liniare, de care se ocupă algebra matriceală, modelele multidimensionale, în general, nu oferă funcții de ordonare sau distanță pentru valorile dimensiunilor. Singura „ordonare” este aceea că valorile de nivel superior conțin valorile de nivel inferior. Cu toate acestea, pentru unele dimensiuni, cum ar fi timpul, ordonarea valorilor dimensiunilor poate fi utilizată pentru a calcula informații agregate, cum ar fi vânzările totale într-o anumită perioadă. Majoritatea modelelor necesită definirea unei ierarhii de dimensiuni pentru a forma arbori echilibrați — ierarhiile trebuie să aibă aceeași înălțime în toate ramurile și fiecare valoare non-rădăcină trebuie să aibă un singur părinte.

Fapte

Faptele reprezintă un subiect - un model sau un eveniment care trebuie analizat. În majoritatea modelelor de date multidimensionale, faptele sunt definite în mod unic printr-o combinație de valori de dimensiune; un fapt există doar atunci când celula pentru o anumită combinație de valori nu este goală. Cu toate acestea, unele modele tratează faptele ca „obiecte de primă clasă” cu proprietăți speciale. Majoritatea modelelor multidimensionale necesită, de asemenea, ca fiecare fapt să aibă o valoare la nivelul inferior al fiecărei dimensiuni, dar în unele modele acest lucru nu este necesar.

Fiecare fapt are o anumită granularitate, definită de nivelurile de la care este creată combinația lor de valori de dimensiune. De exemplu, granularitatea unui fapt din cubul prezentat în Fig. 1 este (Anul x Produs x Oraș). (Anul x Tipul x Orașul) și (Ziua x Produsul x Orașul) sunt granularități mai grosiere și, respectiv, mai fine.

Depozitele de date conțin de obicei următoarele trei tipuri de fapte.

  • Evenimente (eveniment), cel puțin la nivelul celei mai mari granularități, de regulă, se simulează evenimente din lumea reală, fiecare fapt reprezentând o instanță specifică a fenomenului studiat. Exemplele includ vânzările, clicurile pe o pagină Web sau deplasarea articolelor într-un depozit.
  • Instantanee modelați starea unui obiect la un moment dat în timp, cum ar fi nivelurile de disponibilitate a mărfurilor într-un magazin sau depozit și numărul de utilizatori ai unui site Web. Aceeași instanță a unui fenomen din lumea reală, cum ar fi o anumită cutie de fasole, poate apărea în mai multe fapte.
  • Instantaneu cumulativ conțin informații despre activitățile organizației pentru o anumită perioadă de timp. De exemplu, vânzările cumulate pentru perioada anterioară, inclusiv luna curentă, pot fi ușor comparate cu lunile corespunzătoare ale anului precedent.

Depozitul de date conține adesea toate cele trei tipuri de fapte. Aceleași date brute, de exemplu, mișcarea mărfurilor în depozit, pot fi conținute în trei tipuri diferite de cuburi: fluxul de mărfuri în depozit, lista mărfurilor și fluxul pentru anul până în prezent.

Parametrii

Parametrii constau din două componente:

  • caracteristicile numerice ale faptului, de exemplu, prețul sau veniturile din vânzări;
  • o formulă, de obicei o funcție agregată simplă, să zicem o sumă, care poate combina mai multe valori ale parametrilor într-una singură.

Într-o bază de date multidimensională, parametrii reprezintă de obicei proprietăți ale faptului pe care utilizatorul dorește să le examineze. Parametrii iau valori diferite pentru diferite combinații de măsurători. Proprietatea și formula sunt selectate pentru a reprezenta o valoare semnificativă pentru toate combinațiile de niveluri de agregare. Deoarece metadatele definesc o formulă, datele, spre deosebire de foile de calcul, nu sunt replicate.

Cele trei clase de parametri diferite se comportă foarte diferit în calcule.

  • Parametri aditivi poate fi combinat în mod semnificativ în orice dimensiune. De exemplu, este logic să însumăm vânzările totale pentru produs, locație și timp, deoarece acest lucru nu provoacă o suprapunere între fenomenele din lumea reală care generează fiecare dintre aceste valori.
  • Parametrii semi-aditivi, care nu pot fi combinate într-una sau mai multe dimensiuni. De exemplu, însumarea stocurilor pentru diferite mărfuri și depozite are sens, dar însumarea stocurilor de mărfuri în momente diferite este lipsită de sens, deoarece același fenomen fizic poate fi numărat de mai multe ori.
  • Parametri non-aditivi nu combinați în nicio dimensiune, de obicei deoarece formula aleasă nu combină mediile de nivel scăzut în media de nivel superior.

Parametrii aditivi și non-aditivi pot descrie fapte de orice fel, în timp ce parametrii semi-aditivi sunt utilizați de obicei cu instantanee sau instantanee agregate.

Întrebări

O bază de date multidimensională este concepută în mod natural pentru anumite tipuri de interogări.

  • Interogări de tip felie și zaruri faceți o alegere care micșorează cubul. De exemplu, puteți lua în considerare secțiunea transversală a cubului din Fig. 1, luând în considerare doar acele celule care ating pâinea, iar apoi o scurtează și mai mult, lăsând celulele doar referitor la anul 2000. Înghețarea unei valori de dimensiune reduce dimensiunea cubului, dar sunt posibile operații de selecție mai generale.
  • Interogări de detaliere și derulare- operatii reciproce care folosesc o ierarhie de dimensiuni si parametri pentru agregare. Generalizarea la valori mai mari corespunde cu eliminarea dimensiunilor. De exemplu, convoluția de la nivelul orașului la nivelul țării din Fig. 2 reunește valorile pentru Aalborg și Copenhaga într-o singură valoare, Danemarca.
  • Interogări detaliate combinați cuburi care au una sau mai multe dimensiuni în comun. Din punctul de vedere al algebrei relaționale, o astfel de operație realizează o îmbinare.
  • Interogări de clasare returnează numai acele celule care apar în partea de sus sau de jos a unei liste sortate, cum ar fi primele 10 cele mai bine vândute produse din Copenhaga în 2000.
  • Rotire (rotire) un cub oferă utilizatorilor posibilitatea de a vedea datele grupate după alte dimensiuni.

Implementarea

Bazele de date multidimensionale vin în două forme principale.

  • Sistemele de procesare analitică on-line multidimensională (MOLAP) stochează date în structuri multidimensionale specializate. Sistemele MOLAP includ în mod obișnuit procesarea matricelor rare și utilizează indexarea și hashingul avansat pentru a găsi date atunci când interogând.
  • Sistemele OLAP relațional (ROLAP) folosesc baze de date relaționale pentru a stoca date și, de asemenea, folosesc structuri de index specializate, cum ar fi hărți de biți, pentru a obține performanțe ridicate de interogare.

Sistemele MOLAP permit, în general, o utilizare mai eficientă a spațiului pe disc, precum și timpi de răspuns mai rapid la procesarea cererilor.

Timp de răspuns redus la procesarea cererilor

Cele mai importante tehnici de îmbunătățire a performanței în bazele de date multidimensionale sunt precalcularea. Omologul lor specializat este preagregarea, care vă permite să reduceți timpul de răspuns la interogările care acoperă cantități potențial uriașe de date, în măsura suficientă pentru analiza interactivă a datelor.

Calcularea și stocarea sau „materializarea” vânzărilor agregate pe țară și lună este un exemplu de pre-agregare. Această abordare vă permite să primiți rapid răspunsuri la întrebări legate de vânzările totale, de exemplu, într-o lună, într-o țară sau pe trimestru și țară în același timp. Aceste răspunsuri pot fi obținute din date precalculate și nu este nevoie să faceți referire la informațiile găzduite în depozitul de date.

Bazele de date relaționale comerciale moderne, precum și sistemele multidimensionale specializate, conțin instrumente de optimizare a interogărilor bazate pe agregate precalculate (agregate) și recalcularea automată a agregatelor stocate atunci când datele de bază sunt actualizate.

Preagregarea completă - materializarea tuturor combinațiilor de agregate - este imposibilă, deoarece necesită prea mult spațiu pe disc și timp pentru calculele preliminare. În schimb, sistemele OLAP moderne urmează o abordare mai practică a pre-agregării, concretizând doar combinații selectate de agregate și apoi utilizându-le pentru a calcula alte agregate mai eficient. Reutilizarea agregatelor necesită menținerea unei structuri de date multidimensionale corecte.

Literatură
  1. R. Winter, „Baze de date: Înapoi în jocul OLAP”, Intelligent Enterprise Magazine, vol. 1, nr. 4, 1998
  2. E. Thomsen, G. Spofford, D. Chase, Microsoft OLAP Solutions, John Wiley & Sons, New York, 1999

Torben Bach Pedersen, Christian S. Jensen, Tehnologia bazelor de date multidimensionale. IEEE Computer, decembrie 2001. Copyright IEEE Computer Society, 2001. Toate drepturile rezervate. Retipărit cu permisiunea.

Teoria variabilelor aleatoare studiază fenomenele probabilistice „în statică”, considerându-le ca niște rezultate fixe ale experimentelor. Metodele teoriei probabilităților clasice sunt insuficiente pentru descrierea semnalelor care reflectă fenomene aleatorii care evoluează în timp. Astfel de probleme sunt studiate de o ramură specială a matematicii numită teoria proceselor aleatorii.

Prin definiție, un proces aleatoriu este un tip special de funcție, caracterizat prin faptul că, în orice moment, valorile pe care le ia sunt variabile aleatoare.

Ansambluri de implementări.

Când avem de-a face cu semnale deterministe, le afișăm cu dependențe funcționale sau oscilograme. Dacă vorbim de procese aleatorii, atunci situația este mai complicată. Fixând valorile instantanee ale unui semnal aleator la un anumit interval de timp, obținem doar o singură realizare a unui proces aleatoriu. Un proces aleatoriu este o colecție infinită de astfel de realizări care formează un ansamblu statistic. De exemplu, un ansamblu este un set de semnale care pot fi observate simultan la ieșirile exact ale acelorași generatoare de tensiune de zgomot.

Nu este deloc necesar ca implementările unui proces aleatoriu să fie reprezentate de funcții cu comportament complex, neregulat în timp. De multe ori este necesar să se ia în considerare procese aleatorii formate, de exemplu, din tot felul de semnale armonice, în care unul dintre cei trei parametri este o variabilă aleatoare care ia o anumită valoare în fiecare implementare. Natura aleatorie a unui astfel de semnal constă în imposibilitatea determinării prealabile a valorii acestui parametru, anterior experimentului.

Procesele aleatoare formate din realizări care depind de un număr finit de parametri sunt de obicei numite procese aleatoare cvasi-deterministe.

Densitățile de probabilitate ale proceselor aleatorii.

Fie un proces aleatoriu, dat de un ansamblu de realizări, să fie un moment arbitrar în timp. Fixând valorile obținute în implementările individuale, efectuăm o secțiune transversală unidimensională a unui proces aleator dat și observăm o variabilă aleatorie. Densitatea sa de probabilitate se numește densitatea de probabilitate unidimensională a procesului în momentul de timp.

Conform definiției, cantitatea este probabilitatea ca realizările procesului aleator în momentul de timp să ia valori aflate în interval

Informațiile care pot fi extrase din densitatea unidimensională sunt insuficiente pentru a judeca natura dezvoltării realizărilor unui proces aleatoriu în timp. Mult mai multe informații pot fi obținute dacă aveți două secțiuni ale unui proces aleatoriu în momente de timp nepotrivite. O variabilă aleatoare bidimensională apărută într-un astfel de experiment de gândire este descrisă printr-o densitate de probabilitate bidimensională. Această caracteristică a unui proces aleatoriu face posibilă calculați probabilitatea unui eveniment la care implementarea unui proces aleator la are loc într-o mică vecinătate a unui punct și pentru - într-o mică vecinătate a punctului

O generalizare naturală este secțiunea -dimensională a unui proces aleatoriu care duce la densitatea probabilității -dimensionale

Densitatea de probabilitate multidimensională a unui proces aleator trebuie să satisfacă condițiile uzuale impuse densității de probabilitate a unei colecții de variabile aleatoare (vezi § 6.2). În plus, valoarea nu ar trebui să depindă de ordinea în care sunt situate argumentele sale (condiția de simetrie).

Uneori, în loc de densitatea de probabilitate -dimensională, este convenabil să se utilizeze funcția caracteristică -dimensională, care este legată de densitatea corespunzătoare prin transformarea Fourier:

Descrierea proprietăților proceselor aleatorii folosind densități de probabilitate multidimensionale de înaltă dimensiune poate fi foarte detaliată. Cu toate acestea, dificultăți matematice serioase sunt adesea întâlnite pe această cale.

Funcția de moment a proceselor aleatorii.

Mai puțin detaliate, dar, de regulă, destul de satisfăcătoare din punct de vedere practic, caracteristicile proceselor aleatorii pot fi obținute prin calcularea momentelor acelor variabile aleatorii care se observă în secțiunile transversale ale acestor procese. Deoarece, în cazul general, aceste momente depind de argumente de timp, ele se numesc funcții moment.

Pentru ingineria radio statistică, trei funcții de moment de ordin inferior sunt de cea mai mare importanță, numite așteptare matematică, varianță și funcție de corelație.

Valorea estimata

este valoarea medie a procesului X (t) la momentul curent; medierea se realizează pe întregul ansamblu de realizări ale procesului.

Dispersia

face posibilă aprecierea gradului de împrăștiere a valorilor instantanee luate de realizările individuale într-o secțiune fixă ​​t, raportat la valoarea medie.

Moment central 2D

se numește funcția de corelare a unui proces aleatoriu Această funcție moment caracterizează gradul de conexiune statistică a acelor variabile aleatoare care se observă atunci când Comparând formulele (6.37), (6.38), observăm că atunci când se combină secțiunile transversale, funcția de corelare este egal numeric cu varianța:

Procese stocastice staționare.

Deci, se obișnuiește să se numească procese aleatorii, ale căror caracteristici statistice sunt aceleași în toate secțiunile.

Ei spun că un proces aleatoriu este staționar în sens restrâns; dacă oricare dintre densitatea sa de probabilitate -dimensională este invariantă în raport cu deplasarea în timp

Dacă restricționăm cerințele astfel încât așteptarea matematică și varianța procesului să nu depind de timp, iar funcția de corelare depinde doar de diferență -, atunci un astfel de proces aleatoriu va fi staționar în sens larg. Este clar că staționaritatea în sens restrâns implică staționaritate în sens larg, dar nu și invers.

După cum reiese din definiție, funcția de corelare a unui proces aleator staționar este pară:

În plus, valorile absolute ale acestei funcții pentru oricare nu depășesc valoarea acesteia pentru:

Metoda demonstrării este următoarea: din inegalitatea evidentă

urmează că

de unde urmează direct inegalitatea (6.41).

Este adesea convenabil să utilizați funcția de corelare normalizată

pentru care .

Pentru a ilustra conceptul de proces stocastic staționar, luați în considerare două exemple.

Exemplul 6.5. Un proces aleatoriu este format din realizările formei în care sunt cunoscute dinainte, în timp ce unghiul de fază este o variabilă aleatoare distribuită uniform pe intervalul -

Deoarece densitatea de probabilitate a unghiului de fază, așteptarea matematică a procesului

În mod similar, puteți găsi variația:

În sfârșit, funcția de corelare

Deci, acest proces aleatoriu satisface toate condițiile care sunt necesare pentru a asigura staționaritatea în sens larg.

Exemplul 6.6. Un proces aleatoriu are realizări ale formei și, în plus, numere date. - o variabilă aleatoare cu o lege de distribuție arbitrară. Valorea estimata

va fi independent de timp numai pentru.De aceea, în cazul general, procesul aleator considerat va fi nestaționar.

Proprietate ergonomică.

Un proces aleator staționar se numește ergodic dacă, la găsirea funcțiilor sale de moment, media asupra unui ansamblu statistic poate fi înlocuită cu media în timp. Operația de mediere este efectuată pe o singură implementare a cărei durată T poate fi teoretic arbitrar lungă,

Indicând media în timp prin paranteze unghiulare, scriem așteptările matematice ale unui proces aleator ergodic:

care este egal cu componenta constantă a implementării alese.

Dispersia unui proces similar

Deoarece cantitatea este puterea medie a realizării, iar cantitatea este puterea componentei constante, varianța are o semnificație vizuală a puterii componentei de fluctuație a procesului ergodic.

Funcția de corelare se găsește într-un mod similar:

O condiție suficientă pentru ergodicitatea unui proces aleator staționar în sens larg este tendința la zero a funcției de corelare cu o creștere nelimitată a deplasării în timp:

S-a demonstrat în matematică că această cerință poate fi oarecum relaxată. Se dovedește că un proces aleatoriu este ergodic dacă condiția Slutsky este îndeplinită:

Astfel, egalitatea (6.47) este valabilă pentru un proces armonic cu o fază inițială aleatorie (vezi Exemplul 6.5).

Măsurarea caracteristicilor proceselor aleatorii.

Dacă un proces aleatoriu este ergodic, atunci realizarea lui de lungime suficientă este un reprezentant „tipic” al unui ansamblu statistic. Studiind această implementare experimental, puteți obține o mulțime de informații care caracterizează acest proces aleatoriu.

Dispozitivul pentru măsurarea densității de probabilitate unidimensională a unui proces aleatoriu poate fi realizat după cum urmează. Densitatea de probabilitate unidimensională a unui proces aleator ergodic este o mărime proporțională cu timpul de rezidență relativ al realizării acestuia la nivelul dintre Să presupunem că există un dispozitiv cu două intrări, dintre care una este alimentată cu realizarea studiată x (t) , iar celălalt este o tensiune constantă de referință, al cărei nivel poate fi reglat. La ieșirea dispozitivului apar impulsuri video dreptunghiulare de amplitudine constantă, al căror început și sfârșit sunt determinate de momentele în timp în care valorile curente ale semnalului aleatoriu coincid fie cu nivelul, fie cu nivelul acestui dispozitiv. va fi proporțională cu densitatea de probabilitate

Orice dispozitiv indicator suficient de inerțial poate fi folosit pentru a măsura așteptările matematice ale unui proces aleatoriu [vezi. formula (6.43)].

Un dispozitiv care măsoară varianța unui proces aleatoriu, după cum urmează din (6.44), trebuie să aibă la intrare un condensator care separă componenta DC. Alți pași în procesul de măsurare - pătrarea și media în timp - sunt efectuate cu un voltmetru pătratic inerțial.

Principiul de funcționare al contorului funcției de corelare (corelometru) rezultă din formula (6.45). Aici, valorile instantanee ale semnalului aleatoriu după filtrarea componentei constante, împărțirea în canale, sunt transmise multiplicatorului, iar într-unul dintre canale semnalul este întârziat pentru un timp. Pentru a obține valoarea funcției de corelare, semnalul de la ieșirea multiplicatorului este procesat de o unitate inerțială, care efectuează o medie.

Indiferent de dimensiune

Aici se adoptă aceleași denumiri ca și în formula (6.26). Elementele matricei de corelație a acestui proces aleatoriu sunt determinate de funcția de corelație normalizată:

În cele ce urmează, vom folosi adesea densitatea gaussiană bidimensională

Un proces gaussian staționar ocupă un loc exclusiv printre alte procese aleatoare - oricare dintre densitatea sa de probabilitate multidimensională este determinată de două caracteristici: așteptarea matematică și funcția de corelare.

Top articole similare