Kako podesiti pametne telefone i računare. Informativni portal

Višedimenzionalni sistemi sa gubicima. STATISTICA Multivarijantne istraživačke tehnike

Stranice 513-523

Višedimenzionalni procesi

Do sada smo razmatrali modele koji se sastoje od samo jedne relacije koja povezuje vremenske serije. U ovom slučaju, jednu od varijabli odabrali smo kao endogenu, a ostale varijable su bile egzogene. Takva podjela nije uvijek prirodna, često je potrebno uzeti u obzir nekoliko omjera istovremeno, u kojima su iste varijable i endogene i egzogene. Kao što možete vidjeti iz posljednjeg predavanja, varijabla se ne može uvijek smatrati egzogenom, i zapravo moramo razmotriti DGP model koji se sastoji od nekoliko jednačina. To znači modeliranje nekoliko vremenskih serija u isto vrijeme, drugim riječima, modeliranje višedimenzionalnog slučajnog procesa.

Počnimo s definicijom. Razmotrite vektor =(xt 1 ,xt 2 ,...,htk)T, čija je svaka komponenta vremenska serija. gornji indeks će označavati broj komponente, a donji, kao i ranije, tačku u vremenu. distribuciju komponenti karakteriše porodica gustine zglobova distribucije oblika: f n ( Xt1i1 ,xt2i2 ,..., xtnin)‚ n=1‚2,.... Uslov stacionarnosti u užem smislu je i dalje nezavisnost od vremenskog pomaka čitave porodice zajedničkih gustina raspodele. Tek sada, pored svih mogućih kombinacija nasumičnih vrijednosti procesa u različito vrijeme, argumenti gustoće vjerojatnosti su i sve moguće kombinacije različitih komponenti u različito vrijeme. Na primjer, za dvodimenzionalnu gustinu dobijamo iz uslova stacionarnosti: f 2 (Xt 1 ,Xt 2 ) = f 2 (x 1t + r, x 2t + r) za bilo koje τ. Zajednička distribucija komponenti za isti trenutak vremena ne zavisi od vremena. Razmotrimo drugu funkciju distribucije, na primjer, trodimenzionalnu, koja uključuje vrijednosti prve komponente u dvije različite vremenske točke i druge komponente u nekom trećem trenutku. Stacionarnost to znači f 3 (Xt 1 ,Xt + h 1 ,Xt + s 2 ) = f 3 (x 1t + τ , x 2t + s + τ ) . Možemo reći da je ovo svojstvo invarijantnosti na pomak u vremenu. To jest, ako dodamo vrijednost τ svakom trenutku vremena, funkcija gustoće se neće promijeniti. Jasno je da stacionarnost multidimenzionalnog procesa povlači stacionarnost svake njegove komponente.

Kao iu jednodimenzionalnom slučaju, stacionarnost u užem smislu podrazumeva niz svojstava karakteristika slučajnih procesa. Prije svega, počnimo s matematičkim očekivanjima. Matematičko očekivanje za svaku komponentu je nezavisno od ostalih komponenti. Stoga, ako je multidimenzionalni proces stacionaran, matematičko očekivanje svake komponente ne zavisi od vremena. Vektor očekivanja E( ne zavisi od vremena.

Sada razmotrite momente drugog reda. Svaku komponentu karakterizira disperzija i autokorelacione funkcije. Ako je jednodimenzionalni niz stacionaran, njegove autokorelacijske i autokovarijancijske funkcije zavise samo od pomaka τ: Corr(τ) = Corr( Xti,Xjt + r) = r i (τ), ali sada možemo razmotriti drugi mješoviti moment za različite komponente, kao i Corr( Xti,Xjt + r). Prirodno je takvu vrijednost nazvati unakrsnom korelacijskom funkcijom. Ako komponente formiraju višedimenzionalni stacionarni proces, tada će unakrsna korelacija biti funkcija vremenskog pomaka τ. Označavamo ovu funkciju R ij (τ) . To je prilično očigledno R ij (τ) = R ji (-τ) . Za fiksnu vrijednost τ, elementi R ij (τ) formiraju matricu R u zavisnosti od τ. Vrijednost τ jednaka nuli odgovara korelacijskoj matrici vektora

U prethodnom dijelu pogledali smo 2D dijagram prijelaza stanja. Za sve veći broj tokova opterećenja, broj stanja (a samim tim i jednačina) raste vrlo brzo. Međutim, moguće je pojednostaviti problem korištenjem strukture dijagrama prijelaza stanja. Razmotrite dvodimenzionalni dijagram prijelaza stanja prikazan na Sl. 10.2. Za četiri susjedna stanja, protok u smjeru kazaljke na satu mora biti jednak protoku u suprotan smjer(Kingman, 1969), (Sutton, 1980). Pogledajmo sl. 10.2.


Rice. 10.2.

U smjeru kazaljke na satu:


U smjeru suprotnom od kazaljke na satu:


Oba izraza možemo svesti na vjerovatnoće stanja i onda dobiti uslov (10.12). Neophodan i dovoljan uslov za reverzibilnost je da su sledeća dva izraza jednaka.

U smjeru kazaljke na satu:

(10.12)

U smjeru suprotnom od kazaljke na satu:

Ako su ova dva izraza jednaka, onda postoji lokalna ili parcijalna ravnoteža. Na ovaj način, neophodno stanje jer reverzibilnost je da ako postoji tok (strelica) iz stanja i u stanje j, onda mora postojati i tok (strelica) iz stanja j u stanje i. Možemo primijeniti jednadžbe presjeka između bilo koja dva povezana stanja. Dakle, sa slike 10.2 dobijamo:

(10.13)

Možemo izraziti bilo koju vjerovatnoću stanja u smislu vjerovatnoće stanja odabirom bilo kojeg puta između ova dva stanja ( Kolmogorovljevi kriterijumi). Možemo, na primjer, izabrati putanju:

Tada dobijamo sljedeću jednačinu ravnoteže:

(10.17)

Ako uzmemo u obzir višedimenzionalni sistem sa gubicima sa N tokova opterećenja, onda svaki tok opterećenja može biti Poissonov proces ovisan o stanju. U određenoj niti može postojati opterećenja poput BPP(Bernoulli, Poisson, Pascal). za N- dimenzionalni sistema, uslovi reverzibilnosti su slični (10.12). Kolmogorov kriterijum mora biti zadovoljen za sve moguće puteve. U praksi nema nikakvih problema, jer će rješenje dobiveno pod pretpostavkom reverzibilnosti biti ispravno rješenje ako i samo ako su zadovoljene jednadžbe ravnoteže čvora. U sljedećem odjeljku koristimo ovo kao osnovu za uvođenje općeg višedimenzionalnog modela opterećenja.

Multidimenzionalni sistemi sa gubitkom

U ovom dijelu razmatramo generalizacije klasične teorije telesaobraćaja za sisteme koji se sastoje od nekoliko tipova saobraćajnih tokova koji dolaze na jedan kanal ili grupu kanala ili snopove kanala. Svaki tok opterećenja može imati zasebne parametre i može biti ograničen na klasu, Poissonovi tokovi poziva ovisni o stanju i promet sa više priključnica. Ova opšta klasa modela je neosetljiva na distribuciju vremena u sistemu, što može biti klasa. Uvodimo generalizacije jednu po jednu i predstavljamo malu studiju slučaja kako bismo ilustrirali glavne ideje.

klasno ograničenje

U poređenju sa slučajem razmatranim u odjeljku 10.1, sada ćemo ograničiti broj istovremenih zahtjeva za svaki tok učitavanja (klasu). Dakle, neće biti pune dostupnosti, ali za razliku od sistema zagušenja, gdje postoji fizički pristup samo određenim kanalima, sada je moguće koristiti sve kanale, ali u svakom trenutku možemo zauzeti samo ograničen broj njih. Ovo osigurava zaštitu usluge (zaštita virtualnog kola = klasa ograničenja usluge = strategija praga prioriteta). Stoga, namećemo ograničenja na broj istovremenih poziva u klasi j na sljedeći način:

(10.18)

Ako zadnje ograničenje nije zadovoljeno, dobijamo pojedinačne grupe odgovara N uobičajenom nezavisnom jednodimenzionalnom sistemi sa gubicima. Zbog ograničenja, dijagram prijelaza stanja je skraćen. Za dva toka opterećenja prikazano je na slici 10.3.


Rice. 10.3.

Imajte na umu da je dijagram tranzicije skraćenog stanja još uvijek reverzibilan i da se vrijednost u odnosu na skraćenu vrijednost ne mijenja. Mijenja se samo konstanta normalizacije. U stvari, zbog svojstva lokalne ravnoteže, možemo ukloniti bilo koje stanje bez promjene gornjih svojstava. Možete uzeti u obzir opštija ograničenja klase na skupove tokova opterećenja tako da svaki tok opterećenja ima minimalni (zagarantovani) broj distribuiranih kanala.

Generički servisni procesi opterećenja

Možemo razmotriti PCT-I opterećenje samo kao u odjeljku 10.1. Svaki tok opterećenja može biti ovisan o stanju, npr. Poissonov tok poziva s linearnom ovisnošću o stanju i vlastitom izlaznom (smrtnom) stopom, vidi (10.16) i (10.17)

Sistem zadovoljava uslove reverzibilnosti, vidi (10.12). Dakle, forma rada postoji i za BPP-tokovi opterećenja i opštiji Poissonovi procesi zavisni od stanja. Ako su svi tokovi opterećenja Engset (binomski) procesi, onda dobijamo multivarijantnu Engset formulu (Jensen, 1948). Kao što je gore spomenuto, sistem je neosjetljiv na distribuciju vremena boravka u sistemu. Svaki tok opterećenja može imati svoju posebnu distribuciju vremena provedenog u sistemu.

Opterećenje sa više utora

U sistemima sa integrisanim uslugama potrebno propusnost može zavisiti od vrste usluge. Na primjer, samo glasovna telefonska veza zahtijeva jedan kanal (slot), dok, na primjer, video prijenos može zahtijevati kanale istovremeno. Dobijamo dodatna ograničenja:

(10.19)
(10.20)

gdje je stvarni broj poziva tipa. Rezultirajući dijagram prijelaza stanja bit će reverzibilan i bit će u obliku proizvoda.


A.L. Pomerantsev, O.E. Rodionova


U domaćoj naučnoj i tehničkoj literaturi sve je češći izraz „multivarijantna statistička kontrola procesa“ – MSPC. (Multivarijantna statistička kontrola procesa).
MSPC je moderan pristup modeliranju multidimenzionalnih (multifaktorskih) procesa zasnovan na upotrebi projekcije matematičke metode, što vam omogućava da istaknete skrivene podatke u velikim nizovima podataka (latentno) varijabli i analiziraju odnose koji postoje u sistemu koji se proučava. MSPC je prirodna evolucija pristupa poznatog kao SPC (Statistička kontrola procesa)- statistička kontrola procesa, sa prelaskom na viši nivo obrade akumuliranih podataka.
Koje procese analizira MSPC? Prije svega, naravno, proizvodnja. Međutim, može biti korisno i za trgovinska preduzeća, sektor bankarstva i osiguranja itd., odnosno gdje je potrebno redovno donositi odluke koje utiču na efikasnost preduzeća. MSPC se shvata kao višestruka aktivnost koja se odnosi na multifaktorsko praćenje, modeliranje i kontrolu procesa, koja ima za cilj stabilizaciju rada preduzeća, povećanje njegove efikasnosti i, u krajnjoj liniji, proizvodnju kvalitetnih proizvoda ili pružanje kvalitetne usluge.
Kontrola kvaliteta- ovo je sada moderna tema, iako je kvalitetan rad sam po sebi uvijek bio relevantan za svako poduzeće. Riječ "kvalitet" ima mnogo značenja i široko se koristi kako u svakodnevnom životu, tako iu stručnoj literaturi. Na primjer, "kvalitet" je jedan od sinonima za riječ "svojstvo" - odnosno integralna karakteristika nečega. Često koncept "kvaliteta" odražava subjektivnu procjenu proizvoda ili usluge.
Razmotrite stajalište proizvođača za koje kvaliteta- ovo je usklađenost sa određenim standardom uz minimalnu cijenu.
Postizanju takvog kvaliteta služi višedimenzionalna statistička kontrola procesa.
Postoje četiri glavna nivoa kontrole kvaliteta u preduzeću.
Intuitivna stručna kontrola . Postoji u svakom preduzeću, kada stručnjak tehnolog, u čijoj ulozi može da nastupa svako odgovorno lice, lično odlučuje da li je proizvod kvalitetan ili ne. Shodno tome, on odlučuje kakav uticaj treba izvršiti na proces da bi se dobili visokokvalitetni proizvodi. Ovakav pristup se, na primjer, koristi u dobrom restoranu, gdje kuhar sam ocjenjuje kvalitetu jela i prilagođava recepte za njihovu pripremu. Ovakav nivo kontrole opravdava se u malim preduzećima, i to samo sa kvalifikovanim stručnjakom. Zamjena ili samo bolest stručnjaka može dovesti do katastrofalnog pada kvalitete proizvoda. Čim preduzeće raste i jedan stručnjak (ili grupa stručnjaka) više nije u mogućnosti da lično kontroliše ceo tehnološki proces, preduzeće treba da pređe na drugi nivo kontrole kvaliteta.
Deskriptivna kontrola . Uz takvu organizaciju rada, za svako radno mjesto postoji uputstvo koje opisuje šta, kako, kojim alatima je potrebno raditi i reguliše tačnost izvođenja određenih radnji. Ovaj pristup postoji, na primjer, u preduzećima brza hrana (brza hrana), zbog čega proizvode proizvode sličnog kvaliteta širom svijeta. Trenutno se ovaj pristup široko koristi, posebno kroz sertifikaciju preduzeća za usklađenost sa zahtjevima standarda ISO 9001.
Statističko praćenje . SPC metode je predložio Shewhart početkom 1930-ih, ali su počele da se široko uvode u poduzeća tek od sredine 1950-ih. AT uopšteno govoreći ideja iza ovog pristupa je sljedeća. Postrojenje redovno mjeri određene unaprijed određene pokazatelje tehnološkog procesa. Ako ovi pokazatelji fluktuiraju unutar utvrđenih granica (kritičnih nivoa), onda se smatra da se proces može kontrolisati, ako ne, kontrola je prekinuta i dogodio se događaj koji zahtijeva intervenciju za vraćanje normalnog funkcionisanja. Za takvo praćenje, shewhart kontrolne karte, kartice akumuliranih iznosa itd. Kartice se popunjavaju odmah u fabrici, tako da zaključci napravljeni uz njihovu pomoć omogućavaju da se, ako je potrebno, odmah poduzmu mjere.
Postoji nekoliko razloga zašto su gore opisane metode kontrole neophodne, ali ne i dovoljne mjere za dobivanje konačnog proizvoda. dobra kvaliteta. Prvo, potrebno je kontrolirati ne samo kvalitetu finalnog proizvoda, već i sam proizvodni proces. Drugo, kontrola pojedinačnih indikatora, bez njihovog međusobnog odnosa, ili ne obezbjeđuje odgovarajući kvalitet izlaznog proizvoda, ili pretjerano precjenjuje proizvodne pokazatelje, što dovodi do brojnih lažnih alarma.
Multivarijantna statistička kontrola (MSPC) . Proizvodni proces je složen, višedimenzionalan sistem koji karakterišu, po pravilu, desetine, stotine, pa čak i hiljade indikatora, a jedna osoba ne može istovremeno da prati promene u svakom indikatoru. Postoje dva moguća rješenja za ovaj problem. Prvo, kompjuter može informisati operatera samo o onim pokazateljima koji "idu" iznad kritične vrijednosti. Drugo, multivarijantne metode se mogu koristiti za generiranje generaliziranih kontrolnih karata za metoda glavne komponente.
Multivarijantne metode kontrole daju manje lažnih alarma i također su moćan alat analizirati moguće vanredne situacije. Da bismo razumeli suštinu MSPC-a i, s obzirom na to da osoba igra važnu ulogu u ovom pristupu, njeno iskustvo, razmatramo primjer simulacije djelovanja kapetana broda koji donosi sve odluke na brodu i čije se upute izvršavaju implicitno.
Efikasnost brodarske kompanije koja se bavi redovnim redovnim prevozom putnika i tereta određena je, prvo, preciznošću rada, odnosno strogošću rasporeda, i, drugo, ekonomičnom potrošnjom goriva, koja direktno zavisi od kapetanove kvalifikovane radnje.
Na jednoj od ovih ruta to je dovoljno dugo vrijeme Prikupljeni su i snimljeni različiti parametri koji karakterišu proces navigacije (tabela). Ukupno je bilo 20 takvih indikatora (samo nekoliko je prikazano u tabeli), među njima neupravljano i upravljano varijable kao i varijable - odgovore karakteriše efikasnost (kvalitet) rada.
Port Neupravljane varijable Kontrolirane varijable Odgovori
Vrijeme Načini vožnje Rezultat
Vjetar Vol-
nas
protok-
nie
Broj
proći-
debeo
Težina tereta Brzina motora Gaz broda diffe-
najam
Potrošnja
Gorim
šta
Opoz-
Danska
Bergen 10 5 30 123 452 5000 25 10 120 0
Larvik 12 4 35 85 523 4500 40 5 150 0
Maloy 8 5 25 142 384 5000 50 0 180 -2
Volda 2 2 10 102 412 4500 20 5 190 0
Alesund 5 3 14 56 235 4000 -50 5 120 3
Molde 2 1 2 86 341 4000 -30 3 50 0
Christiansund 1 5 3 140 120 4000 -35 5 85 -5
Trondheim 5 5 15 112 462 5000 20 8 320 0
Malm 6 6 3 50 385 4500 -25 10 105 1
Narvik 7 6 6 75 225 4500 -50 5 85 5
Namsos 8 7 5 94 302 3500 -60 3 95 -4

Matematička analiza dobijenih podataka pokazala je da ovaj sistem nema 20 stepeni slobode, kako bi se moglo očekivati, već samo 5. Drugim rečima, broj nezavisnih veličina (ne specifičnih fizičkih, već skrivenih, „latentnih“, svojstvenih samo u ovom sistemu) manji je od broja izmjerenih karakteristika. To je zbog činjenice da sistem ima interne veze (korelacije) između indikatora. Priroda ovih veza je dvostruka. S jedne strane, oni su generirani objektivni razlozi- na primjer, jačina vjetra i visina vala su očigledno povezani. S druge strane, korelacije nastaju i iz subjektivnih razloga - uostalom, kapetan nije nasumično mijenjao vrijednosti kontroliranih varijabli, već se rukovodio određene ciljeve, što je dovelo do pojave dodatnih prilično krutih veza. Kao rezultat toga, bilo je moguće izgraditi matematički model koji ovisi o pet latentnih varijabli, koji opisuje ponašanje kapetana broda u širokom rasponu vanjskih uvjeta. Ako se u ovaj model uvedu određene vrijednosti neupravljanih varijabli, moguće je izračunati vrijednosti kontroliranih varijabli, odnosno predložiti kapetanu koje modove da odabere kako bi stigao na sljedeću destinaciju na vrijeme sa minimalnim potrošnja goriva. S druge strane, sam kapetan može unijeti vrijednosti kontroliranih parametara u sistem kako bi dobio procjenu svojih namjeravanih radnji, na primjer, da bi saznao koliko će goriva potrošiti.
Zašto je bilo moguće napraviti ovaj model? Model ponašanja ovo kapetan, menadžer ovo brod u ovim uslovima uspeo da se izgradi samo zato što je proučavana svrsishodna aktivnost iskusan kapetane. Zato je sistem koji je proučavan završio sa ne tako mnogo unutrašnjih stepena slobode. Kada bismo umjesto iskusnog kapetana stavili, na primjer, dijete koje bi nasumično vuklo ručke i mijenjalo kontrolirane parametre, ne bi bilo moguće napraviti nikakav model, jer sistem ne bi sadržavao unutrašnju logiku i broj stepeni slobode bi bio ogroman. Istovremeno, bilo je potrebno uvjeriti kapetana da poduzme ponekad nerazumne, s njegove tačke gledišta, radnje, na primjer, ode dalje nego inače u otvoreno more, odabere pogrešan trim broda, itd. Takvi podaci su neophodan da bi se maksimalno proučilo ponašanje sistema u širokom spektru uslova - tek tada će konstruisani model adekvatno opisati sistem koji se proučava.
Praktična primjena ovog sistema dala je opipljive rezultate - uprkos dosta skepticizma, brodarska kompanija je na kraju imala koristi od njegove upotrebe. Pri tome, treba obratiti pažnju na sljedeće osnovne tačke: prvo, niko nije namjeravao ukloniti kapetana s broda – zadatak je bio stvoriti sistem koji bi davao samo preporuke; drugo, za rješenje su korišteni samo jednostavni, "formalni" modeli koji povezuju ulazne i izlazne varijable, a nisu korištene složene fizičke zavisnosti koje opisuju djelovanje različitih sila na brod, putanju broda itd. Treće, praktična primjena ovog sistema je dao opipljive rezultate - suprotno priličnom skepticizmu, brodarska kompanija je na kraju imala koristi od njegove upotrebe. Pri tome, treba obratiti pažnju na sljedeće osnovne tačke: prvo, niko nije namjeravao ukloniti kapetana s broda – zadatak je bio stvoriti sistem koji bi davao samo preporuke; drugo, za rješenje su korišteni samo jednostavni, "formalni" modeli koji povezuju ulazne i izlazne varijable, a nisu korištene složene fizičke zavisnosti koje opisuju djelovanje različitih sila na brod, putanju broda itd. Treće, izgradnja zadatka univerzalni model opisujući postupke bilo kojeg kapetana na bilo kojem brodu - radilo se samo o vrlo specifičnoj klasi brodova koji su krstarili određenom rutom.
Čini nam se da analizirani primjer, uz svu svoju egzotičnost, uspješno ilustruje glavnu ideju MSPC. Zaista, cilj kapetana je postići standard, odnosno stići u svaku luku na vrijeme uz minimalne troškove, odnosno potrošnju goriva. Radnje kapetana, zapravo, ne razlikuju se mnogo od akcija tehnologa: postoje neupravljani, upravljani i izlazni indikatori koji karakteriziraju režime rada sistema.
Zašto je potreban MSPC? to prava alternativa skupe metode poboljšanja kvaliteta u uslovima kada preduzeće ne može da kupi novu opremu, nema ulazne sirovine sa stabilnim svojstvima i ne može da instalira skupe kontrolne uređaje. Šta nudi MSPC? Proučite, generalizirajte i koristite vlastito iskustvo u normalnim uvjetima, na postojećoj opremi i dostupnim sirovinama. Ovaj pristup se može formulisati vrlo kratko, koristeći sada popularan stil slogana.
Target. Naučite od sebe da donosite ispravne odluke u raznim situacijama.
Sredstva. Redovno prikupljanje realnih pokazatelja i njihovih matematička analiza.
Rezultat. Kvalitet uz smanjenje troškova u stabilnoj proizvodnji.
Treba napomenuti da MSPC nije specifičan kompjuterski program, koju samo trebate kupiti i instalirati u preduzeću. Ovo je određeni pristup, čak bi se moglo reći, filozofija koja zahtijeva zajedničke napore s jedne strane - specijaliste koji rade u određenom preduzeću i dobro poznaju tehnološki proces i njegovu uska mjesta, a s druge strane, matematičari koji posjeduju metode koje omogućavaju rješavanje takvih problema. Istovremeno, delokrug zajedničkih aktivnosti obuhvata: postavljanje zadatka, definisanje i prikupljanje indikatora, testiranje izgrađenih modela u proizvodnji.
Da bi se razumjela suština nekog sistema ili procesa, potrebno je mjeriti i prikupljati podaci. S obzirom da se multivarijantna analiza podataka uopšte i MSPC posebno ne zasnivaju na funkcionalnim (smislenim) modelima, već na formalnom modelovanju podataka, pitanje koje podatke prikupiti zahteva posebno razmatranje. Zaustavimo se samo na nekim fundamentalnim tačkama.
Sve počinje velikim brojem mjerenja, odnosno prikupljanjem podataka (vidi tabelu). U tabeli, svaka kolona sadrži sve vrijednosti jedne varijable, a svaki red (zv uzorno) - vrijednosti svih varijabli za jedan uzorak. Uzorak se može smatrati kao tačka u vremenu, i broj serije, i ime klijenta, odnosno svaki događaj koji je karakterističan za sistem koji se proučava. Dakle, u razmatranom primjeru uzorak je faza između dvije luke kursa broda.
varijabla može biti bilo koja vrijednost koja karakterizira funkcioniranje sistema. Na primjer, kiselost proizvedenog pića može se kvantitativno mjeriti ( pH), ali se može odrediti kvalitativno ("slatko", "poluslatko" itd.).
Neophodni podaci prikupljeni u tabeli još ne znače da smo proučavali fenomen, jer se ova tabela mora analizirati odgovarajućim metodama kako bi se izvukle sistematske informacije. Ako postoji nekoliko varijabli, na primjer, dvije ili tri, onda se analiza može provesti korištenjem tradicionalnih metoda, gradeći grafove za dvo- i trodimenzionalne podatke (sl. 1, 2). Čim takvih indikatora bude mnogo, potrebno je primijeniti multivarijantnu analizu podataka koja je u osnovi MSPC.

Važno je shvatiti da izvorni podaci uvijek sadrže obje bitne informacije, koje se tzv signal, i nasumično, što se zove buka. Pod bukom, prije svega, podrazumijevaju greške mjerenja, pojedinačne karakteristike mjerenih uzoraka, greške modeliranja itd. U razmatranom pristupu, sistematske informacije koje nisu vezane za proces koji se proučavaju nazivaju se i šumom. Razdvajanje podataka na signal i šum je centralni problem modeliranja, čije je rješenje njihovo pravilno balansiranje. S jedne strane, nemoguće je potcijeniti nivo buke, odnosno preterano detaljizirati model, jer će u tom slučaju model postati nestabilan. S druge strane, precjenjivanjem buke gubimo smisleni dio podataka, a model gubi svoju prediktivnu moć. Metode višedimenzionalne analize podataka, prvo, olakšavaju upravljanje velikim nizovima, a drugo, razdvajanje signala i šuma.
Da bi se izgradio model koji ne samo da adekvatno funkcioniše u uskom rasponu uslova, već je u stanju da simulira različite procese, na primer, kada se koriste sirovine različitih kvaliteta, potrebno je najšire moguće iskustvo. Loše iskustvo, izdavanje braka se ne može odbaciti iz podataka, jer su i ove informacije neophodne za izgradnju modela. Nema potrebe za prethodnim odabirom uzoraka ili varijabli, odabirom najznačajnijih od njih – o tome se odlučuje u procesu analize sistema. Varijable su često međusobno povezane, a glavna informacija - signal - sadržana je upravo u ovom sistemu veza. Ako se dio podataka iz bilo kojeg razloga odbaci, rizikujemo da izgubimo važne informacije.
Naravno, model (ma koliko složen bio) nikada neće biti apsolutno tačan. Ali dobar model je efikasan alat za razumijevanje, a samim tim i za upravljanje procesom. Za izgradnju takvog modela potrebni su informativni i benigni podaci.
Vratimo se šemi koja karakteriše četiri nivoa kontrole kvaliteta. Na primjeru kapetana broda vidjeli smo da je prisustvo prvog, intuitivno-stručnog nivoa, neophodan uslov za izgradnju MSPC modela. Drugi, deskriptivni nivo je takođe neophodan, iako, možda, ne na nivou preduzeća, već samo da bi se regulisao postupak prikupljanja podataka, opis treba u potpunosti da odgovori na sledeća pitanja: šta i kada meriti; ko vrši merenja; kako se pohranjuju rezultati. Treći nivo kontrole – statističko praćenje – daje odgovore na sva ova pitanja i priprema prelazak na MSPC, za koji je potrebno nešto više – primjena multivarijantne matematičke analize na raspoložive podatke, koja se zasniva na projekcijskom pristupu.
MSPC ćemo opisati sa stanovišta proizvodnog radnika i nećemo biti ometani nebitnim matematičkim detaljima koji se mogu naći, na primjer, u , ali ćemo pokušati prenijeti suštinu pristupa projekciji koristeći geometrijsku interpretaciju.
Počnimo s najjednostavnijim primjerom: kada u sistemu postoje samo dvije mjerljive varijable, tada se prikupljeni podaci mogu prikazati na ravni (vidi sliku 1). Svaki red originalne tabele (tj. uzorka) odgovara tački na ravni varijabli sa odgovarajućim koordinatama. Hajde da uvedemo novu osu (prva glavna komponenta - PC1) tako da se duž nje desi maksimalna promena podataka i projektujemo sve tačke na ovu novu osu. Ako pretpostavimo idealnu situaciju u kojoj se vrijednosti signala nalaze duž ove prave linije, a širenje je uzrokovano šumom, tada projektiranjem početnih podataka na os GK1 odabiremo smislenu strukturu podataka i opišemo je samo jedna nova varijabla. A ostali podaci koji nisu objašnjeni ovim opisom - udaljenost od tačke do nove ose - mogu se smatrati bukom. Taj šum se može dalje analizirati, tražeći u njemu smisleni dio - drugu glavnu komponentu, itd., sve dok buka više ne postane prava buka, tj. nasumični haotičan skup veličina.
AT opšti slučaj Proces projekcije prolazi kroz sljedeće faze (vidi sliku 2):
1) centar oblaka podataka je lociran i tamo se prenosi novo poreklo - ovo je nulta glavna komponenta (PC0);
2) bira se pravac maksimalne promene podataka - ovo je prva glavna komponenta (PC1);
3) ako podaci nisu u potpunosti opisani (šum je visok), bira se još jedan pravac (GK2) - okomit na prvi, kako bi se opisala preostala promjena u podacima itd.
Kao rezultat toga, metoda glavne komponente predstavlja uzorke u novom prostoru niže dimenzije. U ovom slučaju, ne samo da se jedan koordinatni sistem zamjenjuje drugim, već se smanjuje i razina buke (tj. utjecaj raznih stranih faktora) na sistem. Na sl. Na slici 2 prikazano je smanjenje dimenzije sistema sa tri na dvije, što nije značajno smanjenje dimenzije. Često dolazi do smanjenja po redovima veličine, na primjer, sa 300 početnih varijabli na 3-5 glavnih komponenti.
Primjer kontrole procesa, izgrađen na osnovu podataka dobijenih iz pravog hemijskog postrojenja, ali donekle pojednostavljen u ilustrativne svrhe. Neko vrijeme proučavan je tehnološki proces (53 stanja sistema – uzorak), koji je praćen sa 17 senzora (varijabli). Za svaki indikator postavljene su gornje i donje granice. dozvoljene vrijednosti. Prema SPC pristupu, svaka varijabla ima svoj kontrolni grafikon (slika 3). Kada indikator prijeđe kritični nivo, operater prima signal upozorenja.

Kada bi bilo malo varijabli, onda ovaj pristup ne bi stvarao probleme. Međutim, da bi se istovremeno kontrolirala dinamika promjena u svim (u ovaj slučaj 17) varijabli operatoru teško (slika 4).

Najjednostavnija analiza vam omogućava da napravite očigledne transformacije izvornih podataka:
1) pomeriti svaku promenljivu tako da srednja vrednost bude nula;
2) normalizirati svaku varijablu tako da je dovedemo na zajednički kritični nivo, na primjer + 1.
Slične jednostavne transformacije, koje se nazivaju u MSPC metodi priprema podataka, omogućavaju vam da značajno pojednostavite vizualnu percepciju informacija o procesu.
Kao rezultat toga, operater će na ekranu videti sliku koja odražava stanje sistema u određenom trenutku (normalizovana očitavanja senzora), što je već lako kontrolisati (slika 5). Na njemu je vrijednost svake normalizirane varijable predstavljena trakastim grafikonom čija se visina mijenja tokom procesa. Ovdje je već jasno vidljivo koliko je svaki indikator udaljen od kritičnih nivoa.

Međutim, ova transformacija ne rješava još jedan važan problem koji se javlja pri praćenju velikog broja indikatora – kako odgovoriti na signale upozorenja. Među 17 izmjerenih varijabli postoji nekoliko kontroliranih varijabli. Ako se jedan od njih približi gornjoj kritičnoj razini, onda je prirodno smanjiti ga, ako se približi donjem, onda ga povećati. Ali šta je sa neupravljanim varijablama čije se vrijednosti ne mogu direktno mijenjati? Pomaže da su svi indikatori u sistemu međusobno povezani. Na primjer, što je temperatura viša, to je veći pritisak itd. Stoga operater može indirektno mijenjati nekontrolirane varijable kroz regulaciju kontroliranih. Uopšteno govoreći, u ovako složenim sistemima, prožetim unutrašnjim vezama, svaka radnja operatera izaziva istovremenu promenu svih indikatora, a nije uvek poželjna. U idealnom slučaju, da bi se postigao željeni rezultat, potrebno je istovremeno mijenjati vrijednosti svih kontroliranih varijabli na strogo dozirani način, što je praktički nemoguće. Otuda postoje greške koje dovode do braka.
Prisustvo internih veza u uobičajenom pristupu problemu upravljanja izaziva probleme, ali za MSPC to je, naprotiv, blagodat. Kada se primenjuje, projekcijske metode se koriste za identifikaciju generalizovanih latentnih varijabli u sistemu. Dakle, u primjeru koji se razmatra pokazalo se da se može opisati sa samo dvije glavne komponente. Na sl. Slika 6 prikazuje projekcije svih 53 izmjerena stanja sistema (uzoraka) na ravan dvije glavne komponente.

Istovremeno, nivo buke, odnosno udio neobjašnjivih podataka je samo 4%. To znači da se svako zapažanje – niz od 17 brojeva – može rekonstruisati iz dvije projekcije na osu glavne komponente sa relativnom tačnošću ne lošijom od 0,04. Osim toga, bilo je moguće uspostaviti nedvosmislen odnos između izlazne vrijednosti bilo kojeg senzora izvan kontrolnog nivoa i izlaza tačke na GK ravni izvan granica kritične elipse (vidi sliku 6). Sada operater može pratiti promjenu položaja tačke koja karakteriše stanje sistema na ravni, što je, naravno, mnogo lakše.
Problem kontrole je takođe znatno pojednostavljen. Operater već može kontrolirati samo dvije "latentne" varijable, prilagođavajući ih ako je potrebno. U ovom slučaju dolazi do simultane sinhrone promjene svih početnih, "fizičkih" varijabli. Inače, ova tehnika se implicitno koristi u mnogim kompleksima kućanskih aparata, na primjer, kod televizijskih prijemnika, gdje korisnik ima na raspolaganju ograničen broj kontrolnih tipki kojima se upravlja veliki broj fizičke varijable skrivene od njega. Da bi takav sistem upravljanja bio zgodan i efikasan, prvo se mora konfigurisati. Ovaj proces se zove kalibracija(ili diplomiranja) - po analogiji sa procedurom podešavanja merni instrumenti- stoga se multivarijantna analiza podataka naziva i multivarijantna kalibracija.
Prije praktičnog korištenja matematičkog modela izgrađenog tokom kalibracije, on se podvrgava proceduri provjere, tj. potrebno je osigurati da je u stanju ispravno predvidjeti stanja sistema. Da biste to učinili, izmjerite i sakupite nove (potvrda) podatke o procesu koji se proučava i koristiti konstruisani model za predviđanje ovih vrednosti. Ako se predviđene vrijednosti neznatno razlikuju od izmjerenih, tada se smatra da je model prošao test i da se može koristiti u praksi. Ako ne, onda morate izvršiti novu, rafinirajuću kalibraciju. Često se svojstva sistema koji se modelira mogu promijeniti naglo (prelazak na nove sirovine) ili postepeno (habanje opreme). U tom slučaju, prethodno izrađeni model postaje neupotrebljiv i mora se doraditi. Ovom formulacijom, zadatak MSPC nije jednokratna akcija, već ciljani program za analizu i unapređenje kvaliteta preduzeća.
U posljednjoj deceniji, MSPC se široko koristio širom svijeta u raznim industrijama za kontinuirane procese kao što su:
praćenje i predviđanje kvaliteta novinskog papira u zavisnosti od sastava sirovine;
kontrola kvaliteta proizvodnje bakra i analiza sastava nečistoća;
kontrola kvaliteta benzina.
Osim toga, MSPC se koristi i u slučajevima kada se proces sastoji od zasebnih faza, a da bi se dobili visokokvalitetni proizvodi potrebno je kontrolirati kinetiku procesa unutar jedne ili više faza, na primjer:
kontrola proizvodnje pekarskog kvasca;
kontrola procesa polimerizacije u proizvodnji polietilena niske gustine.
Zaključci. MSPC je najsavremeniji pristup koji se koristi širom sveta za praćenje proizvodnih procesa, poboljšanje njihovih performansi, poboljšanje kvaliteta proizvoda i razvoj novih tehnologija i proizvoda. Matematičko modeliranje, koji se koristi u MSPC, ne zasniva se na konstrukciji složenih fizičkih (hemijskih, itd.) modela, već na jednostavna analiza ulazne i izlazne podatke. Procedura za apliciranje MSPC prolazi kroz sljedeće glavne faze:
1) postavljanje problema, izrada plana posmatranja;
2) praćenje procesa, prikupljanje podataka;
3) analiza podataka, uspostavljanje skrivene veze između indikatora;
3) izgradnju i testiranje modela;
4) praktična primena modela za rešavanje aktuelnih problema;
5) analiza prakse primene i korekcije modela.
Posljednje dvije faze nisu jednokratne, već se moraju primjenjivati ​​kontinuirano kako bi se postigli optimalni proizvodni rezultati.
MSPC na jednostavan i vizuelan način prikazuje stanje proizvodnog procesa i predstavlja logičan nastavak i razvoj standardne metode statistička kontrola procesa. Ovaj pristup vam omogućava postizanje konzistentnih rezultata čak i sa zastarjelom opremom i nestabilnom kvalitetom sirovina. Vraćajući se na klasifikaciju nivoa kontrole kvaliteta datu na početku članka, vidi se da MSPC u izvesnom smislu „zatvara krug“, vraćajući proizvodnju na prvobitnu „patrijarhalnu“ kontrolu, ali po kvalitativno i kvantitativno drugačijem sistemu. nivo. Nije tajna da intuitivna i stručna kontrola proizvodnje (baka u svojoj kuhinji) može pružiti najviši kvalitet, neuporediv sa masovnom proizvodnjom. Koristeći MSPC, moguće je generalizirati i matematički formalizirati individualno, neprocjenjivo iskustvo svakog specijaliste i na taj način ga proširiti na procese masovne proizvodnje. Čini nam se da je Rusija, sa svojim brojnim iskusnim stručnjacima sposobnim da osiguraju stabilnu proizvodnju u nestabilnim uslovima, jedinstveni objekat primijeniti ovaj pristup. Tu bi trebalo da donese najupečatljivije rezultate, pogotovo što su troškovi u vezi sa implementacijom MSPC znatno niži od, recimo, nabavke nove opreme.

SPISAK KORIŠĆENE LITERATURE
1. Shewhart W.A. Ekonomska kontrola kvaliteta proizvedenog proizvoda. - Van Nostrand, Njujork, 1931.
2. MacGregor J., Kourti Th. Upravljanje statističkim procesima multivarijantnih procesa // Kontrolna inženjerska praksa, 1995 (3), str. 403-413.
3. Kourti Th., MacGregor J. Nedavni razvoj multivarijatnih SPC metoda za praćenje i dijagnosticiranje procesa i performansi proizvoda // J. of Quality Technology. 1996 28(4), str. 309-323.
4. Höskuldsson A. Metode predviđanja u nauci i tehnologiji. Thor izdavačka kuća, Danska 1996.
5. Eriksson L., Johansson E., Kettaneh-Wold N., Wold S. Multi- i megavarijatna analiza podataka, Umetrics AB, Umea, 2001.
6. Esbensen K.H. Multivarijantna analiza podataka - u praksi 4. izdanje, CAMO, 2000.
7. Martens H. i Nzhs T. Multivarijantna kalibracija, John Wiley & Sons, Chichester, 1989.
8. INFOMetrix bilten 11-4/91. Ocjena oktanskog broja benzina bliskom infracrvenom spektroskopijom. Infometix Inc. Seattle, Washington, SAD.
9. Kourti Th., MacGregor J. Procesna analiza, praćenje i dijagnostika, korištenjem metoda multivarijantne projekcije. Chemom. Intel. Lab. sistemima. 1995 (28), R. 3-21.

Pripremljeno na osnovu materijala RIA "Standardi i kvaliteta"

Relacioni model podataka, koji je predložio E.F. Codd 1970. godine, a za koju je deset godina kasnije dobio Turingovu nagradu, temelj je današnje industrije baza podataka vrijedne više milijardi dolara. U proteklih deset godina razvio se višedimenzionalni model podataka koji se koristi kada je cilj upravo analiza podataka, a ne izvršenje transakcije. Tehnologija višedimenzionalne baze podataka - ključni faktor interaktivna analiza velikih nizova podataka za podršku donošenju odluka. Takve baze podataka tretiraju podatke kao višedimenzionalne kocke, što je vrlo zgodno za njihovu analizu.

Višedimenzionalni modeli razmatraju podatke ili kao činjenice sa odgovarajućim numeričkim parametrima, ili kao tekstualne dimenzije koje karakterišu ove činjenice. U maloprodaji, na primjer, kupovina je činjenica, obim kupovine i trošak su parametri, a vrsta kupljenog proizvoda, vrijeme i mjesto kupovine su mjere. Upiti agregiraju vrijednosti parametara u cijelom rasponu mjerenja, što rezultira vrijednostima kao što je ukupna mjesečna prodaja određenog proizvoda. Multidimenzionalni modeli podataka imaju tri važna područja primjene vezane za probleme analize podataka.

  • Skladišta podataka su integrisana za analizu informacija iz više izvora u preduzeću.
  • Sistemi za analitičku obradu na mreži (OLAP) pružaju brze odgovore na upite koji pokrivaju velike količine podataka u potrazi za uobičajenim trendovima.
  • Aplikacije za rudarenje podataka služe za otkrivanje znanja poluautomatskim traženjem prethodno nepoznatih obrazaca i odnosa u bazama podataka.

Istraživači su predložili formalne matematički modeli multidimenzionalne baze podataka, a zatim su ovi prijedlozi dorađeni u specifičnu softverski alati koji implementira ove modele. Bočna traka opisuje evoluciju višedimenzionalnog modela podataka.

Tabele i odnosi

Tabele poput one prikazane u Tabeli 1 su zgodan alat za analizu podataka o prodaji: koji se proizvodi prodaju, koliko poslova se sklapa i gdje. Zaokretna tabela je dvodimenzionalna tabela sa povezanim srednjim i konačnim rezultatima koja se koristi za prikaz složenijih podataka ugnježđivanjem višestrukih x i y dimenzija i prikazivanjem podataka na više stranica. Glavne tabele općenito podržavaju iterativni odabir podskupova podataka i promjenu prikazanog nivoa detalja.

Proračunske tablice nisu prikladne za upravljanje i pohranjivanje višedimenzionalnih podataka jer suviše čvrsto vezuju podatke za njihov izgled bez razdvajanja strukturne informacije od željenog prikaza informacija. Na primjer, dodavanje treće dimenzije, kao što je vrijeme, ili grupiranje podataka u generičke tipove proizvoda zahtijeva mnogo složeniju postavku. Očigledno rješenje je korištenje posebne tabele za svaku dimenziju. Ali takvo rješenje je opravdano samo u ograničenoj mjeri, budući da analiza takvih skupova tabela brzo postaje preglomazna.

Upotreba baza podataka koje podržavaju SQL uvelike povećava fleksibilnost obrade strukturiranih podataka. Međutim, formulisanje mnogih kalkulacija, kao što su agregati (obim prodaje za godinu do danas), kombinacija ukupnih i međurezultata, rangiranja, na primjer, određivanje deset najprodavanijih proizvoda, korištenjem standardnog SQL-a je vrlo teško, ako ne i nemoguće. Kada preuređujete redove i stupce, morate ručno specificirati i kombinirati različite reprezentacije. SQL ekstenzije, kao što su operator kocke podataka i prozori upita, djelimično rješavaju ove probleme, općenito, čisti relacijski model ne dozvoljava rad sa hijerarhijskim dimenzijama na prihvatljivom nivou.

Tabele i relacione osnove skupovi podataka adekvatno obrađuju skupove podataka koji imaju mali broj dimenzija, ali ne zadovoljavaju u potpunosti zahtjeve dubinske analize podataka. Rješenje je korištenje tehnologije koja podržava cijeli niz višedimenzionalnih alata za modeliranje podataka.

Kuba

Višedimenzionalne baze podataka tretiraju podatke kao kocke koje su generalizacija tabele za bilo koji broj dimenzija. Osim toga, kocke podržavaju hijerarhiju dimenzija i formula bez dupliciranja njihovih definicija. Skup odgovarajućih kocki čini višedimenzionalnu bazu podataka (ili skladište podataka).

Kockama je lako upravljati dodavanjem novih vrijednosti dimenzija. U uobičajenoj upotrebi, ovaj izraz se odnosi na figuru sa tri dimenzije, ali teoretski kocka može imati bilo koji broj dimenzija. U praksi, najčešće kocke podataka imaju od 4 do 12 dimenzija. Savremeni alat često nailazi na probleme u performansama kada takozvana hiperkocka ima više od 10-15 dimenzija.

Kombinacije vrijednosti dimenzije definiraju ćelije kocke. U zavisnosti od specifičnu primjenuĆelije u kocki mogu biti ili raštrkane ili guste. Kocke imaju tendenciju da se razdvoje kako se broj dimenzija i granularnost vrijednosti dimenzija povećavaju.

Na sl. Slika 1 prikazuje kocku koja sadrži podatke o prodaji za dva danska grada navedena u Tabeli 1 s dodatnom dimenzijom, Vrijeme. Odgovarajuće ćelije pohranjuju podatke o prodaji. U primjeru možete pronaći "činjenicu" - nepraznu ćeliju koja sadrži odgovarajuće numeričke parametre - za svaku kombinaciju vremena, proizvoda i grada u kojem je obavljena barem jedna prodaja. Ćelija sadrži numeričke vrijednosti povezan sa činjenicom - u ovom slučaju to je obim prodaje - jedini parametar.

Općenito, kocka može istovremeno prikazati samo dvije ili tri dimenzije, ali više se može prikazati ugniježđenjem jedne dimenzije u drugu. Dakle, projektovanjem kocke na dvo- ili trodimenzionalni prostor, može se smanjiti dimenzija kocke agregiranjem nekih dimenzija, što dovodi do složenijih vrednosti parametara. Na primjer, uzimajući u obzir prodaju po gradu i vremenu, prikupljamo informacije za svaku kombinaciju grada i vremena. Dakle, na sl. 1, dodajući polja 127 i 211, dobijamo ukupnu prodaju za Kopenhagen 2001. godine.

mjerenja

Dimenzije su ključni koncept u višedimenzionalnim bazama podataka. Multidimenzionalno modeliranje uključuje korištenje dimenzija kako bi se činjenicama pružilo što je moguće više konteksta. Za razliku od relacijskih baza podataka, kontrolirana redundantnost u višedimenzionalnim bazama podataka općenito je opravdana ako se povećava informativnu vrijednost. Budući da se podaci u višedimenzionalnoj kocki često prikupljaju iz drugih izvora, kao što je transakcioni sistem, problemi redundantnosti povezani sa ažuriranjima mogu se rešiti mnogo lakše. U pravilu nema suvišnosti u činjenicama, već samo u mjerenjima.

Dimenzije se koriste za odabir i agregiranje podataka na potrebnom nivou detalja. Dimenzije su organizovane u hijerarhiju koja se sastoji od nekoliko nivoa, od kojih svaki predstavlja nivo detalja potreban za odgovarajuću analizu.

Ponekad je korisno definirati više hijerarhija za dimenziju. Na primjer, model može definirati vrijeme i u fiskalnim i u kalendarskim godinama. Nekoliko hijerarhija dijeli jedan ili više zajedničkih, najnižih nivoa, kao što su dan i mjesec, a model ih grupiše u nekoliko viših nivoa, fiskalni kvartal i kalendarski kvartal. Kako bi se izbjeglo dupliciranje definicija, metapodaci višedimenzionalne baze podataka definiraju hijerarhiju dimenzija.

Na sl. Slika 2 prikazuje shemu "Lokacija" za podatke o prodaji iz Tabele 1. Od tri nivoa dimenzije lokacije, najniži je "Grad". Vrijednosti na nivou grada su grupisane u vrijednosti na nivou države, na primjer Aalborg i Kopenhagen su u Danskoj. Nivo T predstavlja sve dimenzije.

U nekim višedimenzionalnim modelima, nivo ima nekoliko povezanih svojstava koja sadrže jednostavne, nehijerarhijske informacije. Na primjer, veličina serije može biti svojstvo razine u dimenziji proizvoda. Dimenzija Veličina paketa također može primiti ove informacije. Korištenje mehanizma svojstava ne povećava broj dimenzija u kocki.

Za razliku od linearnih prostora kojima se bavi matrična algebra, višedimenzionalni modeli obično ne pružaju funkcije reda ili udaljenosti za vrijednosti dimenzija. Jedina "naredba" je da vrijednosti višeg nivoa sadrže vrijednosti nižeg nivoa. Međutim, za neke dimenzije, kao što je vrijeme, poredak vrijednosti dimenzija može se koristiti za izračunavanje kumulativnih informacija, kao što je ukupna prodaja za dati period. Većina modela zahtijeva definiciju hijerarhije dimenzija kako bi se formirala uravnotežena stabla - hijerarhije moraju imati iste visine na svim granama, i svaka vrijednost ne-korijenskog nivoa - samo jedan roditelj.

Podaci

Činjenice predstavljaju predmet – određeni obrazac ili događaj koji treba analizirati. U većini multidimenzionalnih modela podataka, činjenice su jedinstveno određene kombinacijom vrijednosti dimenzija; činjenica postoji samo kada ćelija za određenu kombinaciju vrijednosti nije prazna. Međutim, neki modeli tretiraju činjenice kao "prvoklasne objekte" sa posebnim svojstvima. Većina multidimenzionalnih modela takođe zahteva da svaka činjenica ima jednu vrednost na nižem nivou svake dimenzije, ali to nije uslov u nekim modelima.

Svaka činjenica ima određenu granularnost definiranu razinama iz kojih se kreira njihova kombinacija vrijednosti dimenzija. Na primjer, činjenica granularnosti u kocki prikazanoj na Sl. 1 je (godina x proizvod x grad). (Godina x Vrsta x Grad) i (Dan x Proizvod x Grad) su grublje i finije granularnosti.

Skladišta podataka obično sadrže sljedeće tri vrste činjenica.

  • Događaji (događaj), barem na nivou najveće granularnosti, po pravilu se modeliraju događaji iz stvarnog svijeta, pri čemu svaka činjenica predstavlja određeni primjer fenomena koji se proučava. Primjeri su prodaja, klikovi na web stranicu ili kretanje robe u skladištu.
  • Snimci modelirati stanje objekta u datom trenutku, kao što su nivoi zaliha u prodavnici ili skladištu i broj korisnika web stranice. Isti primjer fenomena iz stvarnog svijeta, kao što je određena konzerva pasulja, može se pojaviti u više činjenica.
  • Kumulativni snimci sadrže informacije o aktivnostima organizacije za određeni vremenski period. Na primjer, kumulativni obim prodaje za prethodni period, uključujući i tekući mjesec, može se lako uporediti sa ciframa za odgovarajuće mjesece prethodne godine.

Skladište podataka često sadrži sve tri vrste činjenica. Isti izvorni podaci, kao što je kretanje robe u skladištu, mogu biti sadržani u tri različite vrste kocki: protok robe u skladištu, lista robe i tok za godinu do tekućeg datuma.

Opcije

Parametri imaju dvije komponente:

  • numerička karakteristika činjenice, kao što je cijena ili prihod od prodaje;
  • formula, obično jednostavna funkcija agregiranja, recimo zbroj, koja može kombinirati više vrijednosti parametara u jednu.

U višedimenzionalnoj bazi podataka, parametri obično predstavljaju svojstva činjenice koje korisnik želi da ispita. Parametri prihvataju razna značenja za različite kombinacije mjerenja. Svojstvo i formula su odabrani da predstavljaju značajnu vrijednost za sve kombinacije nivoa agregacije. Budući da metapodaci definiraju formulu, podaci se, za razliku od proračunskih tablica, ne repliciraju.

Tri različite klase parametara se prilično različito ponašaju u proračunima.

  • Dodatni parametri mogu se smisleno kombinirati u bilo kojoj dimenziji. Na primjer, ima smisla zbrojiti ukupnu prodaju za proizvod, lokaciju i vrijeme, jer to ne uzrokuje preklapanje među pojavama u stvarnom svijetu koje svaka od ovih vrijednosti generiše.
  • poluaditivni parametri, koji se ne mogu kombinovati u jednoj ili više dimenzija. Na primjer, zbrajanje zaliha po različitim robama i skladištima ima smisla, ali zbrajanje zaliha robe u različito vrijeme je besmisleno, jer se isti fizički fenomen može prebrojati nekoliko puta.
  • Neaditivni parametri se ne kombinuju ni u jednoj dimenziji, obično zato što izabrana formula ne dozvoljava da se proseci niskog nivoa kombinuju u prosek višeg nivoa.

Aditivni i neaditivni parametri mogu opisati činjenice bilo koje vrste, dok se poluaditivni parametri obično koriste sa snimcima ili kumulativnim snimcima.

Zahtjevi

Višedimenzionalna baza podataka je prirodno dizajnirana da određene vrste zahtjevi.

  • zahtjevi za komadiće napraviti izbor koji smanjuje kocku. Na primjer, razmotrite presjek kocke na sl. 1, uzimajući u obzir samo one ćelije koje se tiču ​​kruha, a zatim ga dalje smanjivati, ostavljajući ćelije vezane samo za 2000. godinu. Fiksiranje vrijednosti dimenzije smanjuje dimenziju kocke, ali su moguće i općenitije operacije odabira.
  • Zahtjevi kao što su drill-down i roll-up- recipročne operacije koje koriste hijerarhiju dimenzija i parametara za agregaciju. Generalizacija na veće vrijednosti odgovara isključenju dimenzija. Na primjer, konvolucija od nivoa "Grad" do nivoa "Država" na Sl. 2 agregira vrijednosti za Alborg i Kopenhagen u jednu vrijednost, Danska.
  • drill-across upite kombinirati kocke koje imaju jednu ili više zajedničkih dimenzija. Sa stanovišta relacione algebre, takva operacija vrši spajanje (spajanje).
  • rangiranje upita vraća samo one ćelije koje se pojavljuju na vrhu ili dnu sortirane liste, kao što je 10 najprodavanijih proizvoda u Kopenhagenu 2000. godine.
  • Rotirajuće Kocka daje korisnicima mogućnost da vide podatke grupisane po drugim dimenzijama.

Implementacija

Multidimenzionalne baze podataka se implementiraju u dva glavna oblika.

  • Multidimenzionalni sistemi za analitičku obradu na mreži (MOLAP) pohranjuju podatke u specijalizovane višedimenzionalne strukture. MOLAP sistemi obično uključuju rukovanje rijetkim nizovima i koriste napredno indeksiranje i heširanje za traženje podataka prilikom pokretanja upita.
  • relacijski OLAP sistemi(ROLAP) koriste relacijske baze podataka za pohranjivanje podataka i također koriste specijalizirane indeksne strukture kao što su bitmape za postizanje velika brzina izvršenje zahtjeva.

MOLAP sistemi obično postižu više efektivna upotreba prostor na disku, kao i brže vrijeme odgovora prilikom obrade zahtjeva.

Smanjenje vremena odgovora prilikom obrade zahtjeva

Većina važne metode povećanje performansi u multidimenzionalnim bazama podataka je prethodno izračunavanje. Njihov specijalizovani pandan je preagregacija, koja smanjuje vreme odgovora za upite koji uključuju potencijalno ogromne količine podataka do stepena dovoljnog za interaktivnu analizu podataka.

Izračunavanje i pohranjivanje, ili "materijalizacija", konsolidovanog obima prodaje po zemlji i mjesecu je primjer prethodnog agregiranja. Ovakav pristup vam omogućava da brzo dobijete odgovore na upite u vezi sa ukupnom prodajom, na primjer, u jednom mjesecu, u jednoj zemlji ili istovremeno po kvartalu i zemlji. Ovi odgovori se mogu dobiti iz prethodno izračunatih podataka i nema potrebe da se pozivate na informacije pohranjene u skladištu podataka.

Savremene komercijalne relacione baze podataka, kao i specijalizovani višedimenzionalni sistemi, sadrže alate za optimizaciju upita zasnovane na unapred izračunatim agregatima (agregatima) i automatskom ponovnom izračunavanju uskladištenih agregata prilikom ažuriranja osnovnih podataka.

Potpuna predagregacija - materijalizacija svih kombinacija agregata - je nemoguća, jer zahtijeva previše prostora na disku i vremena za preliminarne proračune. Umjesto ovoga savremeni sistemi OLAP-ovi koriste praktičniji pristup prethodnom združivanju materijalizujući samo odabrane kombinacije agregiranja i zatim ih koriste za efikasnije izračunavanje drugih agregacija. Ponovno korištenje agregata zahtijeva održavanje ispravne višedimenzionalne strukture podataka.

Književnost
  1. R. Winter, "Baze podataka: Povratak u OLAP igru", Intelligent Enterprise Magazine, vol. 1, br. 4, 1998
  2. E. Thomsen, G. Spofford, D. Chase, Microsoft OLAP Solutions, John Wiley & Sons, New York, 1999

Torben Bach Pedersen, Christian S. Jensen, Multidimensional Database Technology. IEEE Computer, decembar 2001. Autorsko pravo IEEE Computer Society, 2001. Sva prava zadržana. Preštampano uz dozvolu.

Teorija slučajnih varijabli proučava probabilističke pojave "u statici", smatrajući ih nekim fiksnim rezultatima eksperimenata. Za opisivanje signala koji odražavaju slučajne pojave koje se razvijaju u vremenu, metode klasične teorije vjerovatnoće su nedovoljne. Takve probleme proučava posebna grana matematike koja se zove teorija slučajnih procesa.

Po definiciji, slučajni proces je posebna vrsta funkcije, koju karakterizira činjenica da su u svakom trenutku vrijednosti koje uzima slučajne varijable.

implementacioni ansambli.

Kada se bavimo determinističkim signalima, mi ih mapiramo funkcionalne zavisnosti ili oscilograma. Ako mi pričamošto se tiče slučajnih procesa, situacija je komplikovanija. Fiksiranje na određeni vremenski period trenutne vrednosti slučajnog signala, dobijamo samo jednu implementaciju slučajnog procesa. Slučajni proces je beskonačan skup takvih realizacija koje čine statistički ansambl. Na primjer, ansambl je skup signala koji se može istovremeno posmatrati na izlazima potpuno istih generatora napona buke.

Uopšte nije neophodno da implementacije slučajnog procesa budu predstavljene funkcijama sa složenim, vremenski nepravilnim ponašanjem. Često je potrebno uzeti u obzir slučajne procese formirane, na primjer, od svih mogućih harmonijski signali, koji imaju jedan od tri parametra - slučajna vrijednost, koji u svakoj implementaciji poprima određenu vrijednost. Slučajna priroda takvog signala leži u nemogućnosti da se unaprijed zna vrijednost ovog parametra prije eksperimenta.

Slučajni procesi formirani realizacijama koje zavise od konačnog broja parametara obično se nazivaju kvazideterministički slučajni procesi.

Gustoće vjerovatnoće slučajnih procesa.

Neka je slučajni proces definisan ansamblom realizacija, neka je proizvoljan trenutak u vremenu. Fiksirajući vrijednosti dobijene u pojedinačnim implementacijama, izvodimo jednodimenzionalni dio ovog slučajnog procesa i promatramo slučajnu varijablu čija se gustina vjerovatnoće naziva jednodimenzionalna gustina vjerovatnoće procesa u trenutku vremena

Prema definiciji, vrijednost je vjerovatnoća da će implementacija slučajnog procesa u isto vrijeme poprimiti vrijednosti koje leže u intervalu

Informacije koje se mogu izvući iz jednodimenzionalnog denziteta nisu dovoljne da se sudi o prirodi razvoja realizacije slučajnog procesa u vremenu. Mnogo više informacija može se dobiti ako imate dva dijela slučajnog procesa u nepodudarnim vremenima. Dvodimenzionalna slučajna varijabla koja proizlazi iz takvog misaonog eksperimenta opisuje se dvodimenzionalnom gustinom vjerovatnoće. Ova karakteristika slučajnog procesa vam omogućava izračunati vjerovatnoću događaja da se implementacija slučajnog procesa u odvija u maloj okolini tačke i na - u malom okruženju tačke

Prirodna generalizacija je -dimenzionalni dio slučajnog procesa koji vodi do -dimenzionalne gustine vjerovatnoće

Multivarijantna gustina verovatnoće slučajnog procesa mora da zadovolji uobičajene uslove nametnute gustini verovatnoće skupa slučajnih varijabli (videti § 6.2). Osim toga, vrijednost ne bi trebala ovisiti o redoslijedu u kojem se nalaze njeni argumenti (uslov simetrije).

Ponekad, umjesto -dimenzionalne gustine vjerovatnoće, zgodno je koristiti -dimenzionalnu karakterističnu funkciju, koja je povezana s odgovarajućom gustinom pomoću Fourierove transformacije:

Opis svojstava slučajnih procesa koji koriste visokodimenzionalne višedimenzionalne gustine vjerovatnoće može biti prilično detaljan. Međutim, na tom putu često postoje ozbiljne matematičke poteškoće.

Momentne funkcije slučajnih procesa.

Manje detaljne, ali po pravilu sasvim zadovoljavajuće u praktičnom smislu, karakteristike slučajnih procesa mogu se dobiti izračunavanjem momenata onih slučajnih varijabli koje se uočavaju u poprečnim presjecima ovih procesa. Pošto u opštem slučaju ovi momenti zavise od vremenskih argumenata, nazivaju se momentnim funkcijama.

Za statističku radiotehniku najveća vrijednost imaju tri momentne funkcije nižeg reda koje se nazivaju srednja vrijednost, varijansa i korelacija.

Očekivana vrijednost

je prosječna vrijednost procesa X(t) u trenutnom vremenu; usrednjavanje se vrši po čitavom ansamblu procesnih realizacija.

Disperzija

omogućava procjenu stepena raspršenosti trenutnih vrijednosti koje uzimaju pojedinačne implementacije u fiksnom dijelu t, u odnosu na prosječnu vrijednost.

2D centralni moment

Ova funkcija momenta karakteriše stepen statističke povezanosti onih slučajnih varijabli koje se zapažaju kada se upoređuju formule (6.37), (6.38), primećujemo da kada se sekcije kombinuju, korelacija funkcija je numerički jednak varijansi:

Stacionarni slučajni procesi.

Stoga je uobičajeno nazivati ​​nasumične procese čije su statističke karakteristike iste u svim dijelovima.

Za slučajni proces se kaže da je stacionaran u užem smislu; ako je bilo koja od njegove -dimenzionalne gustine vjerovatnoće invarijantna pod vremenskim pomakom

Ako ograničimo zahtjeve tako da matematičko očekivanje i varijansa procesa ne zavise od vremena, a korelacijske funkcije ovisi samo o razlici - , tada će takav slučajni proces biti stacionaran u širem smislu. Jasno je da stacionarnost u užem smislu podrazumijeva stacionarnost u širem smislu, ali ne i obrnuto.

Kao što slijedi iz definicije, korelacijska funkcija stacionarnog slučajnog procesa je parna:

Osim toga, apsolutne vrijednosti ove funkcije za bilo koju ne prelaze njene vrijednosti za:

Metoda dokaza je sljedeća: iz očigledne nejednakosti

sledi to

odakle direktno slijedi nejednakost (6.41).

Često je zgodno koristiti normaliziranu funkciju korelacije

za koji .

Da biste ilustrirali koncept stacionarnog slučajnog procesa, razmotrite dva primjera.

Primjer 6.5. Slučajni proces se formira realizacijama oblika gde su unapred poznati, dok je fazni ugao slučajna varijabla ravnomerno raspoređena na segmentu -

Budući da je gustina vjerovatnoće faznog ugla matematičko očekivanje procesa

Slično, možete pronaći varijansu:

Konačno, funkcija korelacije

Dakle, ovaj slučajni proces zadovoljava sve uslove koji su neophodni da bi se osigurala stacionarnost u širem smislu.

Primjer 6.6. Slučajni proces ima realizacije oblika i, štaviše, datih brojeva. - slučajna varijabla sa proizvoljnim zakonom raspodjele. Očekivana vrijednost

će biti nezavisan od vremena samo za Stoga, u opštem slučaju, slučajni proces koji se razmatra će biti nestacionaran.

Ergodic property.

Stacionarni slučajni proces naziva se ergodičan ako se, u pronalaženju njegovih trenutnih funkcija, usrednjavanje po statističkom ansamblu može zamijeniti usrednjavanjem tokom vremena. Operacija usrednjavanja se izvodi na jednoj implementaciji čije trajanje T teoretski može biti proizvoljno veliko,

Označavajući prosječenje vremena uglastim zagradama, pišemo matematičko očekivanje ergodičkog slučajnog procesa:

što je jednako konstantnoj komponenti odabrane implementacije.

Disperzija takvog procesa

Budući da je vrijednost prosječna implementaciona snaga, a vrijednost snaga konstantne komponente, disperzija ima jasno značenje snage fluktuacijske komponente ergodičkog procesa.

Korelaciona funkcija se nalazi na isti način:

Dovoljan uslov za ergodičnost slučajnog procesa, koji je stacionaran u širem smislu, je težnja korelacione funkcije ka nuli sa neograničenim povećanjem vremenskog pomaka:

Matematika pokazuje da se ovaj zahtjev može donekle ublažiti. Ispada da je slučajni proces ergodičan ako je zadovoljen uslov Slutskog:

Dakle, jednakost (6.47) vrijedi za harmonijski proces sa slučajnom početnom fazom (vidi primjer 6.5).

Mjerenje karakteristika slučajnih procesa.

Ako je slučajni proces ergodičan, onda je njegova realizacija dovoljne dužine "tipični" predstavnik statističkog ansambla. Eksperimentalno proučavajući ovu implementaciju, može se dobiti mnogo informacija koje karakterišu ovaj slučajni proces.

Uređaj za mjerenje jednodimenzionalne gustine vjerovatnoće slučajnog procesa može se izraditi na sljedeći način. Jednodimenzionalna gustina vjerovatnoće ergodičkog slučajnog procesa je veličina proporcionalna relativnom vremenu provedenom na njegovu implementaciju na nivou između. Pretpostavimo da postoji uređaj sa dva ulaza, od kojih je jedan snabdjeven implementacijom x(t) koji se proučava, a drugi je referentni jednosmerni napon čiji se nivo može regulisati. Na izlazu uređaja se pojavljuju pravougaoni video impulsi konstantne amplitude čiji su početak i kraj određeni trenucima u vremenu kada se trenutne vrijednosti slučajnog signala poklapaju ili sa nivoom ili sa nivoom. Ovaj uređaj će biti proporcionalan gustini vjerovatnoće

Bilo koji dovoljno inercijski pokazivački uređaj može se koristiti za mjerenje matematičkog očekivanja slučajnog procesa [vidi. formula (6.43)].

Uređaj koji mjeri disperziju slučajnog procesa, kao što slijedi iz (6.44), mora imati kondenzator na ulazu koji odvaja konstantnu komponentu. Dalje korake u procesu mjerenja - kvadriranje i usrednjavanje tokom vremena - izvodi inercijski kvadratni voltmetar.

Princip rada merača korelacione funkcije (korelometra) sledi iz formule (6.45). Ovdje se trenutne vrijednosti slučajnog signala, nakon filtriranja konstantne komponente, dijele na kanale i upućuju u množitelj, a u jednom od kanala signal kasni s vremenom. Da bi se dobila vrijednost korelacijske funkcije, signal sa izlaza množitelja se obrađuje inercijskom vezom, koja vrši usrednjavanje.

Bez obzira na veličinu

Ovdje se koristi ista notacija kao u formuli (6.26). Elementi korelacione matrice ovog slučajnog procesa određeni su normalizovanom korelacionom funkcijom:

U nastavku ćemo često koristiti dvodimenzionalnu Gausovu gustinu

Stacionarni Gausov proces zauzima izuzetno mesto među ostalim slučajnim procesima - bilo koja njegova višedimenzionalna gustina verovatnoće je određena dvema karakteristikama: matematičkim očekivanjem i korelacionom funkcijom.

Top Related Articles