Kako postaviti pametne telefone i računala. Informativni portal
  • Dom
  • Televizori (Smart TV)
  • Višedimenzionalni sustavi s gubicima. STATISTICA Multivarijantne istraživačke tehnike Tehnologije multivarijantne analize podataka

Višedimenzionalni sustavi s gubicima. STATISTICA Multivarijantne istraživačke tehnike Tehnologije multivarijantne analize podataka

Stranice 513-523

Višedimenzionalni procesi

Do sada smo razmatrali modele koji se sastoje od samo jednog odnosa koji povezuje vremenske serije. U ovom slučaju jednu od varijabli odabrali smo kao endogenu, a ostale varijable bile su egzogene. Takva podjela nije uvijek prirodna, često je potrebno istovremeno razmotriti nekoliko relacija, u koje su iste varijable uključene i kao endogene i kao egzogene. Kao što možete vidjeti iz prošlog predavanja, varijabla se ne može uvijek smatrati egzogenom, a zapravo moramo razmotriti DGP model koji se sastoji od nekoliko jednadžbi. To znači modeliranje nekoliko vremenskih serija u isto vrijeme, drugim riječima - modeliranje višedimenzionalnog slučajnog procesa.

Počnimo s definicijom. Razmotrimo vektor = (xt 1, xt 2, ..., xtk)T, čija je svaka komponenta vremenski niz. gornji će označavati broj komponente, a donji, kao i prije, trenutak u vremenu. distribuciju komponenti karakterizira obitelj zajedničkih gustoća raspodjele oblika: f n ( xt1i1, xt2i2, ..., xtnu) ‚N = 1, 2, .... Uvjet stacionarnosti u užem smislu je još uvijek neovisnost vremenskog pomaka cijele obitelji gustoća zajedničke raspodjele. Tek sada, uz sve moguće kombinacije vrijednosti slučajnog procesa u različito vrijeme, argumenti gustoće vjerojatnosti su i sve vrste kombinacija različitih komponenti u različito vrijeme. Na primjer, za dvodimenzionalnu gustoću iz uvjeta stacionarnosti dobivamo: f 2 (Xt 1 ,Xt 2 ) = f 2 (x 1t + r, x 2t + r) za bilo koje τ. Zajednička raspodjela komponenti za isti trenutak vremena ne ovisi o vremenu. Razmotrimo drugu funkciju distribucije, na primjer, trodimenzionalnu, koja uključuje vrijednosti prve komponente u dvije različite vremenske točke i druge komponente u nekom trećem trenutku vremena. Stacionarnost znači da f 3 (Xt 1 ,Xt + h 1 ,Xt + s 2 ) = f 3 (x 1t + τ , x 2t + s + τ ) ... Možemo reći da je to svojstvo invarijantnosti na pomak u vremenu. To jest, ako se vrijednost τ doda svakom trenutku vremena, funkcija gustoće se neće promijeniti. Jasno je da stacionarnost višedimenzionalnog procesa podrazumijeva stacionarnost svake njegove komponente.

Kao iu jednodimenzionalnom slučaju, stacionarnost u užem smislu podrazumijeva niz svojstava karakteristika slučajnih procesa. Prije svega, krenimo od očekivane vrijednosti. Matematičko očekivanje za svaku komponentu neovisno je o ostalim komponentama. Stoga, ako je višedimenzionalni proces stacionaran, matematičko očekivanje svake komponente ne ovisi o vremenu. Vektor matematičkih očekivanja E ( ne ovisi o vremenu.

Sada razmotrimo trenutke drugog reda. Svaka komponenta karakterizirana je varijansom i autokorelacijskom funkcijom. Ako je jednodimenzionalni niz stacionaran, njegove autokorelacijske i autokovarijancijske funkcije ovise samo o pomaku τ: Corr (τ) = Corr ( xti,Xjt + r) = r i (τ), ali sada možemo razmotriti drugi mješoviti moment za različite komponente, kao i Corr ( xti,Xjt + r). Prirodno je takvu vrijednost nazvati međukorelacijskom funkcijom. Ako komponente tvore višedimenzionalni stacionarni proces, tada će unakrsna korelacija biti funkcija pomaka u vremenu τ. Označavamo ovu funkciju R ij (τ) ... Prilično je očito da R ij (τ) = R ji (-τ) ... Za fiksnu vrijednost τ, elementi R ij (τ) tvore matricu R ovisno o τ. Vrijednost τ jednaka nuli odgovara korelacijskoj matrici vektora

U prethodnom odjeljku pogledali smo 2D dijagram prijelaza stanja. Za sve veći broj tokova opterećenja, broj stanja (a time i jednadžbi) raste vrlo brzo. Međutim, možete pojednostaviti problem korištenjem strukture dijagrama prijelaza stanja. Razmotrite dvodimenzionalni dijagram prijelaza stanja prikazan na Sl. 10.2. Za četiri susjedna stanja, tok u smjeru kazaljke na satu mora biti jednak suprotnom toku (Kingman, 1969.), (Sutton, 1980.). Pogledajte sl. 10.2.


Riža. 10.2.

U smjeru kazaljke na satu:


U smjeru suprotnom od kazaljke na satu:


Možemo poništiti oba izraza za vjerojatnosti stanja i zatim dobiti uvjet (10.12). Neophodan i dovoljan uvjet za reverzibilnost je da su sljedeća dva izraza jednaka.

U smjeru kazaljke na satu:

(10.12)

U smjeru suprotnom od kazaljke na satu:

Ako su ova dva izraza jednaka, onda postoji lokalna ili djelomična ravnoteža... Dakle, nužan uvjet za reverzibilnost je da ako postoji tok (strelica) iz stanja i u stanje j, onda mora postojati i tok (strelica) iz stanja j u stanje i. Možemo primijeniti jednadžbe presjeka između bilo koja dva povezana stanja. Dakle, sa slike 10.2 dobivamo:

(10.13)

Možemo izraziti bilo koju vjerojatnost stanja u smislu vjerojatnosti stanja, birajući bilo koji put između ova dva stanja ( Kolmogorovljevi kriteriji). Možemo, na primjer, odabrati put:

Tada dobivamo sljedeću jednadžbu ravnoteže:

(10.17)

Ako uzmemo u obzir višedimenzionalni sustav s gubicima s N tokova opterećenja, tada svaki tok opterećenja može biti Poissonov proces ovisan o stanju. U određenoj niti može postojati opterećenja tog tipa BPP(Bernoulli, Poisson, Pascal). za N - dimenzionalni sustava, uvjeti reverzibilnosti su slični (10.12). Kolmogorovljev kriterij mora biti zadovoljen za sve moguće putove. U praksi nemamo nikakvih problema, jer će rješenje dobiveno prema pretpostavci reverzibilnosti biti ispravno rješenje ako i samo ako su zadovoljene jednadžbe ravnoteže čvora. U sljedećem odjeljku koristit ćemo to kao osnovu za uvođenje generičkog višedimenzionalnog modela opterećenja.

Višedimenzionalni sustavi s gubitkom

U ovom odjeljku razmatramo generalizacije klasične teorije teleprometa za sustave koji se sastoje od nekoliko tipova tokova opterećenja koji pristižu na jedan kanal ili grupu kanala ili pakete kanala. Svaki tok opterećenja može imati zasebne parametre i može biti tokovi Poissonovih poziva ovisni o stanju s ograničenim klasama i prometom s više mjesta. Ova opća klasa modela je neosjetljiva na distribuciju vremena boravka koja može biti klasa. Uvodimo generalizacije jednu po jednu i predstavljamo malu studiju slučaja kako bismo ilustrirali glavne ideje.

Ograničenje klase

U usporedbi sa slučajem o kojem se raspravlja u odjeljku 10.1, sada ćemo ograničiti broj istodobnih zahtjeva za svaku nit učitavanja (klase). Dakle, neće biti pune dostupnosti, ali za razliku od sustava zagušenja, gdje fizički postoji pristup samo određenim kanalima, sada je moguće koristiti sve kanale, ali u svakom trenutku možemo zauzeti samo ograničeni broj njih. To osigurava zaštitu usluge (zaštita broja VC-ova = ograničenje po klasi usluge = strategija praga prioriteta). Stoga uvodimo ograničenja na broj istodobnih poziva u klasi j kako slijedi:

(10.18)

Ako posljednje ograničenje nije zadovoljeno, tada dobivamo zasebne grupe koje odgovaraju N običnih neovisnih jednodimenzionalnih sustavi s gubicima... Zbog ograničenja, dijagram prijelaza stanja je skraćen. Za dva toka opterećenja prikazan je na slici 10.3.


Riža. 10.3.

Imajte na umu da je dijagram prijelaza skraćenog stanja još uvijek reverzibilan i da se vrijednost u odnosu na vrijednost ne mijenja kada je skraćena. Mijenja se samo konstanta normalizacije. Zapravo, zbog svojstva lokalne ravnoteže, možemo ukloniti bilo koje stanje bez promjene prethodno navedenih svojstava. Možete razmotriti općenitija ograničenja klase na skupove tokova opterećenja tako da svaki tok opterećenja ima minimalni (zajamčeni) broj dodijeljenih kanala.

Generalizirani procesi servisiranja opterećenja

Možemo razmotriti PCT -I opterećenje samo kao u odjeljku 10.1. Svaki tok opterećenja može ovisiti o stanju, na primjer, Poissonov pozivni tok s linearnom ovisnošću o stanju i vlastitom izlaznom stopom (smrti), vidi (10.16) i (10.17)

Sustav zadovoljava uvjete reverzibilnosti, vidi (10.12). Dakle, forma djela postoji i za BPP-tokovi opterećenja i općenitiji Poissonovi procesi ovisni o stanju. Ako su svi tokovi opterećenja Engsetovi (binomni) procesi, tada dobivamo multidimenzionalnu Engset formulu (Jensen, 1948). Kao što je gore spomenuto, sustav je neosjetljiv na distribucije vremena boravka u sustavu. Svaki tok opterećenja može imati svoju zasebnu distribuciju vremena zadržavanja.

Opterećenje s više utora

U sustavima integriranih usluga, potrebna propusnost može ovisiti o vrsti usluge. Na primjer, jedan kanal (utor) potreban je za opsluživanje samo govorne telefonske veze, dok, na primjer, video prijenos može zahtijevati kanale u isto vrijeme. Dobivamo dodatna ograničenja:

(10.19)
(10.20)

gdje je stvarni broj poziva tipa. Rezultirajući dijagram prijelaza stanja bit će reverzibilan i bit će u obliku proizvoda.


A.L. Pomerantsev, O.E. Rodionova


U domaćoj znanstvenoj i tehničkoj literaturi izraz "višedimenzionalna statistička kontrola procesa" - MSPC (Viševarijantna statistička kontrola procesa).
MSPC je suvremeni pristup modeliranju višedimenzionalnih (multifaktorskih) procesa, koji se temelji na korištenju projekcijskih matematičkih metoda koje omogućuju isticanje skrivenih u velikim skupovima podataka. (latentan) varijable i analiziraju veze koje postoje u sustavu koji se proučava. MSPC je prirodna evolucija pristupa poznatog kao SPC (Statistička kontrola procesa)- statistička kontrola procesa, s prijelazom na višu razinu obrade akumuliranih podataka.
Koje procese analizira MSPC? Prije svega, naravno, proizvodnja. Međutim, može biti korisno i za trgovačka poduzeća, sfere bankarstva i osiguranja itd., odnosno gdje je potrebno redovito donositi odluke koje utječu na učinkovitost poduzeća. MSPC se shvaća kao višestruka aktivnost povezana s višefaktornim praćenjem, modeliranjem i upravljanjem procesima, koja je usmjerena na stabilizaciju funkcioniranja poduzeća, povećanje njegove učinkovitosti i u konačnici proizvodnju kvalitetnih proizvoda ili pružanje kvalitetnih usluga.
Kontrola kvalitete- ovo je sada moderna tema, iako je sam kvalitetan rad oduvijek bio relevantan za svako poduzeće. Riječ "kvaliteta" ima mnogo značenja i široko se koristi kako u svakodnevnom životu, tako iu posebnoj literaturi. Na primjer, "kvaliteta" je jedan od sinonima za riječ "vlasništvo" - to jest, inherentna karakteristika nečega. Često izraz "kvaliteta" odražava subjektivnu ocjenu proizvoda ili usluge.
Razmotrite stajalište proizvođača, za koje kvaliteta- ovo je usklađenost s određenim standardom uz minimalne troškove.
Upravo za postizanje te kvalitete služi višedimenzionalna statistička kontrola procesa.
Poduzeće se može podijeliti u četiri glavne razine kontrole kvalitete.
Intuitivna stručna kontrola ... U svakom poduzeću postoji kada stručnjak-tehnolog, u čijoj ulozi može djelovati svaka odgovorna osoba, osobno odlučuje je li proizveden proizvod kvalitetan ili ne. Sukladno tome, on također odlučuje kakav utjecaj treba izvršiti na proces kako bi se dobili kvalitetni proizvodi. Takav se pristup, primjerice, koristi u dobrom restoranu, gdje kuhar sam ocjenjuje kvalitetu jela i prilagođava recepte za njihovu pripremu. Ova razina kontrole isplati se u malim poduzećima i samo uz kvalificiranog stručnjaka. Zamjena ili samo bolest stručnjaka može dovesti do katastrofalnog pada kvalitete proizvoda. Čim poduzeće raste i jedan stručnjak (ili grupa stručnjaka) više nije u mogućnosti osobno kontrolirati cijeli tehnološki proces, poduzeće treba prijeći na drugu razinu kontrole kvalitete.
Deskriptivna kontrola ... Uz takvu organizaciju rada, za svako radno mjesto postoji uputa koja opisuje što, kako, kojim alatima je potrebno to učiniti, te regulira točnost izvođenja pojedinih operacija. To je pristup koji postoji, na primjer, u trgovinama brze hrane. (brza hrana), zbog čega proizvode proizvode slične kvalitete diljem svijeta. Trenutno je ovaj pristup široko rasprostranjen, posebno kroz certificiranje poduzeća za usklađenost sa zahtjevima ISO 9001.
Statističko praćenje ... SPC metode je predložio Schuhart početkom 30-ih, ali su se počele široko primjenjivati ​​u poduzećima tek od sredine 50-ih. Općenito, ideja iza ovog pristupa je sljedeća. U tvornici se redovito mjere određeni unaprijed definirani pokazatelji procesa. Ako ti pokazatelji fluktuiraju unutar utvrđenih granica (kritične razine), onda se smatra da se proces može kontrolirati, ako ne, kontrola je narušena i dogodio se događaj koji zahtijeva intervenciju za vraćanje normalnog funkcioniranja. Za takvo praćenje se koriste Shewhart kontrolne karte, kartice akumuliranih iznosa itd. Kartice se popunjavaju izravno na proizvodnom mjestu, stoga zaključci doneseni uz njihovu pomoć omogućuju, ako je potrebno, poduzimanje trenutnih radnji.
Nekoliko je razloga zašto su navedene metode kontrole potrebne, ali ne i dovoljne mjere za dobivanje krajnjeg proizvoda odgovarajuće kvalitete. Prije svega, potrebno je kontrolirati ne samo kvalitetu finalnog proizvoda, već i sam proizvodni proces. Drugo, kontrola pojedinih pokazatelja, bez njihovog međusobnog povezivanja, ili ne osigurava odgovarajuću kvalitetu izlaznog proizvoda, ili pretjerano precjenjuje proizvodne pokazatelje, što dovodi do brojnih lažnih alarma.
Multivarijatna statistička kontrola (MSPC) ... Proizvodni proces je složen, višedimenzionalni sustav, koji se u pravilu odlikuje desecima, stotinama, pa čak i tisućama pokazatelja, a jedna osoba ne može istovremeno pratiti promjene u svakom pokazatelju. Postoje dva moguća rješenja za ovaj problem. Prvo, računalo može obavijestiti operatera samo o onim pokazateljima koji "idu" izvan kritične vrijednosti. Drugo, multivarijantne metode mogu se koristiti za generiranje generaliziranih kontrolnih karata za analiza glavnih komponenti.
Multivarijantne metode upravljanja proizvode manje lažnih alarma, a također su moćan alat za analizu potencijalnih hitnih situacija. Kako bi se razumjela suština MSPC-a i, s obzirom na to da osoba igra važnu ulogu u ovom pristupu, njeno iskustvo, razmotrite primjer modeliranja djelovanja brodskog kapetana, koji donosi sve odluke na brodu i čije se upute izvršavaju bez pitanja.
Učinkovitost brodarske tvrtke koja se bavi redovitim redovnim prijevozom putnika i tereta određena je, prvo, preciznošću rada, odnosno strogošću rasporeda, i drugo, ekonomičnom potrošnjom goriva, koja izravno ovisi na kvalificirane radnje kapetana.
Na jednoj od ovih ruta, prilično dugo su se prikupljali i bilježili različiti parametri koji karakteriziraju proces plovidbe (tablica). Takvih je pokazatelja bilo ukupno 20 (samo nekoliko je prikazano u tablici), među njima neupravljani i upravljani varijable kao i varijable - odgovore karakterizira učinkovitost (kvalitetu) rada.
Luka Neupravljane varijable Kontrolirane varijable Povratne informacije
Vrijeme Načini kretanja Proizlaziti
Vjetar Vol-
nas
Curenje-
nije
Broj
proći-
mast
Težina tereta Brzina motora Gaz plovila razlika-
najam
Potrošnja
tuga-
što
Kasno
Danska
Bergen 10 5 30 123 452 5000 25 10 120 0
Larvik 12 4 35 85 523 4500 40 5 150 0
Maloy 8 5 25 142 384 5000 50 0 180 -2
Volda 2 2 10 102 412 4500 20 5 190 0
Alesund 5 3 14 56 235 4000 -50 5 120 3
Molde 2 1 2 86 341 4000 -30 3 50 0
Kristiansund 1 5 3 140 120 4000 -35 5 85 -5
Trondheim 5 5 15 112 462 5000 20 8 320 0
Meka vapnenačka ilovača 6 6 3 50 385 4500 -25 10 105 1
Narvik 7 6 6 75 225 4500 -50 5 85 5
Namsos 8 7 5 94 302 3500 -60 3 95 -4

Matematička analiza dobivenih podataka pokazala je da ovaj sustav nema 20 stupnjeva slobode, kao što bi se moglo očekivati, već samo 5. Drugim riječima, broj neovisnih veličina (ne specifičnih fizičkih, već skrivenih, „latentnih“) svojstvenih samo ovom sustavu) manji je od broja izmjerenih karakteristika. To je zbog činjenice da sustav ima interne veze (korelacije) između indikatora. Priroda ovih veza je dvojaka. S jedne strane, generiraju ih objektivni razlozi - na primjer, jačina vjetra i visina vala očito su povezani. S druge strane, korelacije nastaju i iz subjektivnih razloga - uostalom, kapetan nije nasumično mijenjao vrijednosti kontroliranih varijabli, već se vodio određenim ciljevima, što je dovelo do pojave dodatnih prilično krutih veza. Kao rezultat toga, bilo je moguće konstruirati matematički model ovisno o pet latentnih varijabli, koji opisuje ponašanje kapetana broda u širokom rasponu vanjskih uvjeta. Ako u ovaj model unesete određene vrijednosti nekontroliranih varijabli, možete izračunati vrijednosti kontroliranih varijabli, odnosno predložiti kapetanu koje načine trebate odabrati kako biste na vrijeme stigli na sljedeću destinaciju uz minimalnu potrošnju goriva. S druge strane, sam kapetan može unijeti vrijednosti kontroliranih parametara u sustav kako bi dobio procjenu svojih namjeravanih radnji, na primjer, kako bi saznao koliko će goriva potrošiti.
Zašto ste uspjeli napraviti ovaj model? Model ponašanja od ovog kapetan, upravitelj ovim brod u tim uvjetima, bilo je moguće graditi samo zato što se proučavala svrhoviti aktivnost iskusan kapetan. Zato se pokazalo da sustav koji se proučava, kao rezultat toga, nema toliko unutarnjih stupnjeva slobode. Kada bi se umjesto iskusnog kapetana smjestilo npr. dijete koje bi nasumce povlačilo ručke i mijenjalo kontrolirane parametre, ne bi se mogao kreirati model, jer sustav ne bi sadržavao unutarnju logiku i broj stupnjeva sloboda koju bi imala bila bi ogromna. Istodobno je bilo potrebno nagovoriti kapetana da izvede ponekad nerazumne, s njegove točke gledišta, radnje, na primjer, ide dalje nego inače u otvoreno more, odabere pogrešan trim broda itd. Takvi podaci su neophodan kako bi se maksimalno proučilo ponašanje sustava u širokom rasponu uvjeta - tek tada će izgrađeni model adekvatno opisati sustav koji se proučava.
Praktična primjena ovog sustava donijela je opipljive rezultate - unatoč znatnoj skepticizmu, brodar je u konačnici imao koristi od njegove uporabe. Pritom treba obratiti pozornost na sljedeće temeljne točke: prvo, nitko nije namjeravao ukloniti kapetana s broda - zadatak je bio stvoriti sustav koji bi davao samo preporuke; drugo, za rješenje su korišteni samo jednostavni, "formalni" modeli koji povezuju ulazne i izlazne varijable, a nisu korištene složene fizičke ovisnosti koje opisuju djelovanje različitih sila na brod, putanju broda itd. Treće, Praktična primjena ovog sustava dala je opipljive rezultate - unatoč priličnoj dozi skepticizma, brodar je u konačnici imao koristi od njegove uporabe. Pritom treba obratiti pozornost na sljedeće temeljne točke: prvo, nitko nije namjeravao ukloniti kapetana s broda - zadatak je bio stvoriti sustav koji bi davao samo preporuke; drugo, za rješenje su korišteni samo jednostavni, "formalni" modeli koji povezuju ulazne i izlazne varijable, a nisu korištene složene fizičke ovisnosti koje opisuju djelovanje različitih sila na brod, putanju broda itd. Treće, problem nije bio izgradnja univerzalnog modela koji opisuje postupke bilo kojeg kapetana na bilo kojem brodu - radilo se samo o vrlo specifičnoj klasi brodova koji plove određenom rutom.
Čini nam se da analizirani primjer, uz svu svoju egzotičnost, uspješno ilustrira glavnu ideju MSPC-a. Dapače, kapetanov cilj je postići standard, odnosno stići u svaku luku na vrijeme uz minimalnu cijenu, odnosno potrošnju goriva. Radnje kapetana, zapravo, ne razlikuju se puno od postupaka tehnologa: postoje nekontrolirani, kontrolirani i izlazni pokazatelji koji karakteriziraju načine rada sustava.
Zašto je potreban MSPC? Ovo je prava alternativa skupim metodama poboljšanja kvalitete u uvjetima kada tvrtka ne može kupiti novu opremu, nema ulazne sirovine stabilnih svojstava i ne može instalirati skupe upravljačke uređaje. Što nudi MSPC? Proučite, sažmite i koristite vlastito iskustvo u normalnim uvjetima, na postojećoj opremi i dostupnim sirovinama. Ovaj pristup se može sažeti vrlo jezgrovito korištenjem sada popularnog slogana.
Cilj. Učiti od sebe kako donositi ispravne odluke u raznim situacijama.
Sadržaji. Redovito prikupljanje realnih pokazatelja i njihova matematička analiza.
Proizlaziti. Kvaliteta uz smanjenje troškova za stabilnu proizvodnju.
Treba napomenuti da MSPC nije poseban računalni program koji samo trebate kupiti i instalirati u poduzeću. To je određeni pristup, moglo bi se čak reći, filozofija koja zahtijeva zajedničke napore s jedne strane - stručnjaka koji rade u konkretnom poduzeću i dobro poznaju tehnološki proces i njegova uska grla, as druge - matematičara koji poznaju metode koje omogućiti rješavanje takvih problema. Istovremeno, područje zajedničkih aktivnosti uključuje: postavljanje problema, utvrđivanje i prikupljanje pokazatelja, testiranje izgrađenih modela u proizvodnji.
Da bi se razumjela bit određenog sustava ili procesa, potrebno je mjeriti i prikupljati podaci... S obzirom da se multivarijantna analiza podataka općenito i MSPC posebno ne temelje na funkcionalnim (smislenim) modelima, već na formalnom modeliranju podataka, pitanje koje podatke prikupiti zahtijeva zasebno razmatranje. Zadržimo se samo na određenim temeljnim točkama.
Sve počinje velikim brojem mjerenja, tj. prikupljanjem podataka (vidi tablicu). U tablici svaki stupac sadrži sve vrijednosti jedne varijable, a svaki redak (zv primjerak) - vrijednosti svih varijabli za jedan uzorak. Uzorkom se može smatrati i trenutak u vremenu, i broj serije, i ime klijenta, odnosno bilo koji događaj karakterističan za sustav koji se proučava. Dakle, u razmatranom primjeru uzorak je trajekt između dvije luke brodskog kursa.
Varijabilna može biti bilo koja vrijednost koja karakterizira funkcioniranje sustava. Na primjer, kiselost proizvedenog pića može se kvantificirati ( pH), ali se može odrediti kvalitativno ("slatko", "poluslatko" itd.).
Potrebni podaci prikupljeni u tablici ne znače da smo proučavali fenomen, jer se ova tablica mora analizirati odgovarajućim metodama kako bi se izvukle sustavne informacije. Ako postoji nekoliko varijabli, na primjer, dvije ili tri, tada se analiza može provesti tradicionalnim metodama, gradeći grafove za dvo- i trodimenzionalne podatke (sl. 1, 2). Čim takvih pokazatelja ima mnogo, onda je potrebno primijeniti multivarijantnu analizu podataka, koja leži u srcu MSPC-a.

Važno je razumjeti da početni podaci uvijek sadrže obje bitne informacije, koje se tzv signal, i nasumično, što se zove buka... Pod bukom se, prije svega, podrazumijevaju mjerne pogreške, pojedinačne karakteristike mjerenih uzoraka, pogreške modeliranja itd. U razmatranom pristupu buka uključuje i sustavne informacije koje nemaju veze s procesom koji se proučava. Razdvajanje podataka na signal i šum središnji je problem modeliranja, čije je rješenje ispravno izbalansirati. S jedne strane, razina buke se ne može podcijeniti, odnosno model mora biti previše detaljan, jer će u tom slučaju model postati nestabilan. S druge strane, precjenjivanjem buke gubimo smisleni dio podataka, a model gubi prediktivnu moć. Metode multivarijatne analize podataka, prvo, olakšavaju rukovanje velikim nizovima, a drugo, razdvajanje signala i šuma.
Da bi se izgradio model koji ne samo da adekvatno funkcionira u uskom rasponu uvjeta, već je u stanju simulirati različite procese, na primjer, pri korištenju sirovina različitih kvaliteta, potrebno je najšire moguće iskustvo. Loše iskustvo, oslobađanje odbijenih podataka ne može se izbaciti iz podataka, jer su ti podaci također potrebni za izgradnju modela. Nije potrebno provoditi preliminarnu selekciju uzoraka ili varijabli, birajući one najznačajnije - o tome se odlučuje u procesu analize sustava. Varijable su često međusobno povezane, a osnovna informacija - signal - sadržana je upravo u tom sustavu poveznica. Ako se dio podataka iz bilo kojeg razloga odbaci, tada riskiramo gubitak važnih informacija.
Naravno, model (koliko god složen bio) nikada neće biti potpuno točan. Ali dobar model je učinkovit alat za razumijevanje, a time i za upravljanje procesom. Za izgradnju takvog modela potrebni su informativni i benigni podaci.
Vratimo se na dijagram koji opisuje četiri razine kontrole kvalitete. Na primjeru kapetana broda vidjeli smo da je prisutnost prve, intuitivno-stručne razine, preduvjet za izgradnju MSPC modela. Druga, deskriptivna razina također je neophodna, iako možda ne na razini cijelog poduzeća, već samo da bi se regulirao postupak prikupljanja podataka, opis bi trebao sveobuhvatno odgovoriti na sljedeća pitanja: što i kada mjeriti; tko uzima mjere; kako se pohranjuju rezultati. Treća razina kontrole - statističko praćenje - daje odgovore na sva ova pitanja i priprema prijelaz na MSPC, za koji je potrebno vrlo malo - primijeniti multivarijantnu matematičku analizu na postojeće podatke, koja se temelji na projekcijskom pristupu.
Opisat ćemo MSPC sa stajališta proizvodnog radnika i nećemo biti ometani beznačajnim matematičkim detaljima koji se mogu pronaći, na primjer, u, već ćemo pokušati prenijeti bit projekcijskog pristupa koristeći geometrijsku interpretaciju.
Počnimo s najjednostavnijim primjerom: kada u sustavu postoje samo dvije mjerljive varijable, tada se prikupljeni podaci mogu iscrtati na ravnini (vidi sliku 1). Svaki red izvorne tablice (tj. uzorak) odgovara točki na ravnini varijabli s odgovarajućim koordinatama. Uvedimo novu os (prva glavna komponenta - PC1) tako da se duž nje dogodi maksimalna promjena podataka i projiciramo sve točke na tu novu os. Ako pretpostavimo idealnu situaciju u kojoj se vrijednosti signala nalaze duž ove ravne crte, a raspršivanje je uzrokovano šumom, tada, projicirajući početne podatke na os GK1, odabiremo smislenu strukturu podataka i opisujemo je samo jedna nova varijabla. A ostatak podataka, koji nije objašnjen ovim opisom - udaljenost od točke do nove osi - može se smatrati bukom. Taj se šum može dalje analizirati, tražeći u njemu smisleni dio – drugu glavnu komponentu itd. sve dok buka ne postane stvarno buka, odnosno nasumični kaotični skup veličina.
Općenito, proces projekcije prolazi kroz sljedeće faze (vidi sliku 2):
1) nalazi se središte oblaka podataka i tamo se prenosi novo ishodište koordinata - to je nulta glavna komponenta (PC0);
2) odabire se smjer maksimalne promjene podataka - ovo je prva glavna komponenta (PC1);
3) ako podaci nisu u potpunosti opisani (šum je velik), tada se bira drugi smjer (GK2) - okomit na prvi, kako bi se opisala preostala promjena u podacima itd.
Kao rezultat, analiza glavnih komponenti predstavlja uzorke u novom prostoru nižih dimenzija. To ne samo da zamjenjuje jedan koordinatni sustav drugim, već i smanjuje razinu buke (tj. utjecaj različitih vanjskih čimbenika) na sustav. Na sl. Na slici 2 prikazano je smanjenje dimenzije sustava s tri na dva, što nije značajno smanjenje dimenzije. Često dolazi do smanjenja za redove veličine, na primjer, sa 300 početnih varijabli na 3-5 glavnih komponenti.
Primjer kontrole proizvodnog procesa izgrađena na temelju podataka dobivenih u pravoj kemijskoj tvornici, ali donekle pojednostavljena u ilustrativne svrhe. Neko vrijeme istražen je tehnološki proces (53 stanja sustava - uzorak) koji je praćen sa 17 senzora (varijabli). Za svaki pokazatelj postavljene su gornje i donje granice prihvatljivih vrijednosti. Prema SPC pristupu, svaka varijabla ima svoj kontrolni grafikon (slika 3.). Kada indikator prijeđe kritičnu razinu, operater prima signal upozorenja.

Kada bi bilo malo varijabli, onda ovaj pristup ne bi stvarao probleme. Međutim, operatoru je teško istovremeno kontrolirati dinamiku promjena svih (u ovom slučaju 17) varijabli (slika 4.).

Najjednostavnija analiza omogućuje vam očite transformacije početnih podataka:
1) pomaknuti svaku varijablu tako da je srednja vrijednost nula;
2) normalizirati svaku varijablu tako da je dovede na opću kritičnu razinu, na primjer + 1.
Slične jednostavne transformacije, nazvane u MSPC metodi priprema podataka, omogućuju značajno pojednostavljenje vizualne percepcije informacija o procesu.
Kao rezultat toga, operater će na ekranu vidjeti sliku koja odražava stanje sustava u određenom trenutku (normalizirana očitanja senzora), što je već lako kontrolirati (slika 5). Na njemu je vrijednost svake normalizirane varijable prikazana trakastim grafikonom čija se visina mijenja tijekom procesa. Ovdje je već jasno vidljivo koliko je svaki pokazatelj udaljen od kritičnih razina.

Međutim, ovakva transformacija ne rješava još jedan važan problem koji se javlja pri praćenju velikog broja pokazatelja – kako reagirati na signale upozorenja. Među 17 mjerenih varijabli nalazi se nekoliko kontroliranih varijabli. Ako se jedan od njih približi gornjoj kritičnoj razini, onda je prirodno smanjiti ga, ako na donju, onda ga povećati. Ali što je s neupravljanim varijablama čije se vrijednosti ne mogu izravno mijenjati? Ovdje pomaže da su svi indikatori u sustavu međusobno povezani. Na primjer, što je temperatura viša, to je veći tlak itd. Stoga operater može neizravno mijenjati nekontrolirane varijable kroz regulaciju kontroliranih. Općenito govoreći, u tako složenim sustavima, prožetim unutarnjim vezama, radnja svakog operatera uzrokuje istovremenu promjenu svih pokazatelja, a nije uvijek poželjna. U idealnom slučaju, da bi se postigao traženi rezultat, potrebno je strogo dozirano mijenjati vrijednosti svih kontroliranih varijabli u isto vrijeme, što je praktički nemoguće. Stoga nastaju greške koje vode do braka.
Prisutnost unutarnjih veza u uobičajenom pristupu zadatku upravljanja uzrokuje probleme, ali za MSPC, naprotiv, to je blagoslov. Prilikom njegove primjene koriste se projekcijske metode za razlikovanje generaliziranih latentnih varijabli u sustavu. Dakle, u razmatranom primjeru pokazalo se da se može opisati sa samo dvije glavne komponente. Na sl. Slika 6 prikazuje projekcije svih 53 izmjerena stanja sustava (uzoraka) na ravninu dviju glavnih komponenti.

Istovremeno, razina buke, odnosno udio neobjašnjivih podataka, iznosi samo 4%. To znači da se svako promatranje - niz od 17 brojeva - može rekonstruirati iz dvije vrijednosti projekcija na osi glavnih komponenti s relativnom točnošću ne lošijom od 0,04. Osim toga, bilo je moguće uspostaviti nedvosmislen odnos između izlaza vrijednosti bilo kojeg senzora izvan referentne razine i izlaska točke na PC ravnini izvan granica kritične elipse (vidi sliku 6). Sada operater može pratiti promjenu položaja točke koja karakterizira stanje sustava na ravnini, što je, naravno, puno lakše.
Problem upravljanja također je uvelike pojednostavljen. Operater može kontrolirati već samo dvije "latentne" varijable, prilagođavajući ih ako je potrebno. U ovom slučaju dolazi do simultane sinkrone promjene svih izvornih, "fizičkih" varijabli. Inače, ova tehnika se implicitno koristi u mnogim složenim kućanskim aparatima, na primjer, u televizijskim prijamnicima, gdje korisnik ima na raspolaganju ograničen broj kontrolnih tipki koje upravljaju velikim brojem fizičkih varijabli skrivenih od njega. Da bi takav sustav upravljanja bio prikladan i učinkovit, najprije se mora konfigurirati. Ovaj proces se zove kalibriranje(ili mature) - po analogiji s postupkom postavljanja mjernih instrumenata - stoga se multivarijantna analiza podataka naziva i multivarijantna kalibracija.
Prije praktičnog korištenja matematičkog modela izgrađenog tijekom kalibracije, on se podvrgava proceduri provjere, odnosno morate biti sigurni da je u stanju ispravno predvidjeti stanje sustava. Da biste to učinili, izmjerite i prikupite nove (verifikacija) podatke o proučavanom procesu i pomoću konstruiranog modela predvidjeti te vrijednosti. Ako se predviđene vrijednosti neznatno razlikuju od izmjerenih, tada se smatra da je model prošao test i da se može koristiti u praksi. Ako ne, onda morate provesti novu, precizniju kalibraciju. Često se svojstva simuliranog sustava mogu dramatično promijeniti (prijelaz na nove sirovine) ili postupno (istrošenost opreme). U tom slučaju, prethodno izrađeni model postaje neupotrebljiv i mora se doraditi. Ovom formulacijom MSPC zadatak nije jednokratna akcija, već ciljni program za analizu i poboljšanje kvalitete rada poduzeća.
U posljednjem desetljeću, MSPC se široko koristio diljem svijeta u raznim industrijskim područjima za kontinuirane procese kao što su:
kontrola i predviđanje kvalitete novinskog papira ovisno o sastavu sirovine;
kontrola kvalitete proizvodnje bakra i analiza sastava nečistoća;
kontrola kvalitete benzina.
Osim toga, MSPC se koristi i u slučajevima kada se proces sastoji od zasebnih faza, a za dobivanje visokokvalitetnih proizvoda potrebno je kontrolirati kinetiku procesa unutar jedne ili više faza, na primjer:
kontrola proizvodnje pekarskog kvasca;
kontrola procesa polimerizacije u proizvodnji polietilena niske gustoće.
Zaključci. MSPC je moderan pristup koji se koristi diljem svijeta za praćenje proizvodnih procesa, poboljšanje njihovog funkcioniranja, poboljšanje kvalitete proizvoda i razvoj novih tehnologija i proizvoda. Matematičko modeliranje korišteno u MSPC-u ne temelji se na konstrukciji složenih fizikalnih (kemijskih, itd.) modela, već na jednostavnoj analizi ulaznih i izlaznih podataka. Postupak prijave za MSPC prolazi kroz sljedeće glavne faze:
1) prikaz problema, izrada plana promatranja;
2) praćenje procesa, prikupljanje podataka;
3) analiza podataka, uspostavljanje skrivenih veza između indikatora;
3) izrada i provjera modela;
4) praktična primjena modela za rješavanje aktualnih problema;
5) analiza prakse primjene i korekcije modela.
Posljednje dvije faze nisu jednokratne, već se moraju primjenjivati ​​kontinuirano kako bi se postigli optimalni proizvodni rezultati.
MSPC u jednostavnom i vizualnom obliku prikazuje stanje proizvodnog procesa te je logičan nastavak i razvoj standardnih metoda statističke kontrole procesa. Ovaj pristup omogućuje postizanje održivih rezultata čak i uz zastarjelu opremu i nestabilnu kvalitetu sirovina. Vraćajući se na klasifikaciju razina kontrole kvalitete, danu na početku članka, možete vidjeti da MSPC u određenom smislu "zatvara krug", vraćajući proizvodnju na izvornu "patrijarhalnu" kontrolu, ali na kvalitativno i kvantitativno drugačiju kontrolu. razini sustava. Nije tajna da intuitivna i stručna kontrola proizvodnje (baka u kuhinji) može pružiti najvišu kvalitetu koja se ne može usporediti s linijskom proizvodnjom. Koristeći MSPC, moguće je generalizirati i matematički formalizirati individualno, neprocjenjivo iskustvo svakog stručnjaka i na taj način ga proširiti na procese masovne proizvodnje. Čini nam se da je Rusija, sa svojim brojnim iskusnim stručnjacima sposobnim osigurati stabilnu proizvodnju u nestabilnim uvjetima, jedinstvena tema za ovaj pristup. Tu bi trebao donijeti najimpresivnije rezultate, pogotovo jer su troškovi vezani uz implementaciju MSPC-a znatno niži od, recimo, kupnje nove opreme.

POPIS KORIŠTENE LITERATURE
1. Shewhart W.A. Ekonomska kontrola kvalitete proizvedenog proizvoda. - Van Nostrand, New York, 1931.
2. MacGregor J., Kourti Th. Statistički proces upravljanja multivarijantnim procesima // Control Engineering Practice, 1995 (3), P. 403-413.
3. Kourti Th., MacGregor J. Nedavni razvoji u multivarijantnim SPC metodama za praćenje i dijagnosticiranje procesa i performansi proizvoda // J. of Quality Technology. 1996. 28 (4), str. 309-323.
4. Hcskuldsson A. Metode predviđanja u znanosti i tehnologiji. Thor naklada, Danska 1996.
5. Eriksson L., Johansson E., Kettaneh-Wold N., Wold S. Multi- i megavarijatna analiza podataka, Umetrics AB, Umea, 2001.
6. Esbensen K.H. Multivarijatna analiza podataka - u praksi 4. izdanje, CAMO, 2000.
7. Martens H. i Nzhs T. Multivarijantna kalibracija, John Wiley & Sons, Chichester, 1989.
8. INFOMetrix bilten 11-4 / 91. Ocjena oktanskog broja benzina bliskom infracrvenom spektroskopijom. Infometix, Inc. Seattle, Washington, SAD.
9. Kourti Th., MacGregor J. Procesna analiza, praćenje i dijagnostika, korištenjem metoda multivarijatne projekcije. Chemom. Intell. Laboratorija. Sustavi. 1995. (28), str. 3-21.

Pripremljeno na temelju materijala RIA "Standardi i kvaliteta"

Relacijski model podataka, koji je predložio E.F. Codd 1970., a za koju je desetljeće kasnije dobio Turingovu nagradu, služi kao temelj današnje industrije baza podataka vrijednu više milijardi dolara. U proteklih deset godina razvio se višedimenzionalni model podataka koji se koristi kada je cilj analizirati podatke, a ne izvršiti transakcije. Tehnologija višedimenzionalne baze podataka ključna je za interaktivnu analizu velikih skupova podataka za podršku donošenju odluka. Takve baze podataka tretiraju podatke kao višedimenzionalne kocke, što je vrlo zgodno za njihovu analizu.

Multivarijantni modeli tretiraju podatke ili kao činjenice s odgovarajućim numeričkim parametrima ili kao tekstualne dimenzije koje karakteriziraju te činjenice. U maloprodaji, na primjer, kupnja je činjenica, obujam kupovine i trošak su parametri, a vrsta kupljenog proizvoda, vrijeme i mjesto kupnje su mjere. Upiti prikupljaju vrijednosti parametara u rasponu mjerenja, što rezultira vrijednostima kao što je ukupna mjesečna prodaja određenog proizvoda. Višedimenzionalni modeli podataka imaju tri važne primjene vezane za probleme analize podataka.

  • Skladišta podataka integrirana su za analizu informacija iz više izvora u poduzeću.
  • Sustavi za online analitičku obradu (OLAP) pružaju brze odgovore na upite koji obuhvaćaju velike količine podataka u potrazi za općim trendovima.
  • Aplikacije za rudarenje podataka služe za otkrivanje znanja poluautomatskim traženjem prethodno nepoznatih obrazaca i odnosa u bazama podataka.

Istraživači su predložili formalne matematičke modele za višedimenzionalne baze podataka, a zatim su ti prijedlozi dorađeni u specifičnim softverskim alatima koji implementiraju te modele. Bočna traka opisuje evoluciju višedimenzionalnog modela podataka.

Proračunske tablice i odnosi

Proračunske tablice, poput one prikazane u tablici 1, zgodan su alat za analizu podataka o prodaji: koji se proizvodi prodaju, koliko je poslova sklopljeno i gdje. Zaokretna tablica je dvodimenzionalna proračunska tablica s pridruženim međuzbrojima i ukupnim zbrojevima koja se koristi za prikaz složenijih podataka ugniježđenjem više x i y dimenzija i prikazivanjem podataka na više stranica. Glavne tablice obično podržavaju iterativni odabir podskupova podataka i promjenu na prikazanu razinu detalja.

Proračunske tablice nisu prikladne za upravljanje i pohranu višedimenzionalnih podataka jer suviše čvrsto vezuju podatke za njihov izgled, bez odvajanja strukturnih informacija od željenog prikaza informacija. Na primjer, dodavanje treće dimenzije kao što je vrijeme ili grupiranje podataka prema generičkim vrstama proizvoda zahtijeva mnogo složeniju prilagodbu. Očito rješenje je korištenje zasebne proračunske tablice za svaku dimenziju. Ali takva je odluka samo u ograničenoj mjeri opravdana, budući da analiza takvih skupova tablica brzo postaje glomazna.

Korištenje baza podataka koje podržavaju SQL uvelike povećava fleksibilnost rukovanja strukturiranim podacima. Međutim, teško je, ako ne i nemoguće, formulirati mnoge izračune, kao što su agregati (dosadašnja godišnja prodaja), kombinacija ukupnih i međurezultata te rangiranje, kao što je određivanje prvih deset najprodavanijih proizvoda, koristeći standardni SQL . Prilikom preuređivanja redaka i stupaca, morate ručno odrediti i kombinirati različite poglede. SQL proširenja kao što su operator kocke podataka i prozori upita djelomično rješavaju ove probleme; općenito, čisti relacijski model ne dopušta rad s hijerarhijskim dimenzijama na prihvatljivoj razini.

Proračunske tablice i relacijske baze podataka adekvatno obrađuju skupove podataka koji imaju malo dimenzija, ali ne zadovoljavaju u potpunosti zahtjeve rudarenja podataka. Rješenje je korištenje tehnologije koja podržava cijeli niz višedimenzionalnih alata za modeliranje podataka.

Kuba

Višedimenzionalne baze podataka zamišljaju podatke kao kocke, koje su generalizacije proračunskih tablica na bilo koji broj dimenzija. Osim toga, kocke održavaju hijerarhiju dimenzija i formula bez dupliciranja njihovih definicija. Skup odgovarajućih kocki čini višedimenzionalnu bazu podataka (ili pohranu podataka).

Kockama je lako upravljati dodavanjem novih vrijednosti dimenzija. U uobičajenoj upotrebi, ovaj izraz označava lik s tri dimenzije, međutim, u teoriji, kocka može imati bilo koji broj dimenzija. U praksi najčešće podatkovne kocke imaju 4 do 12 dimenzija. Moderna instrumentacija često se suočava s nedostatkom performansi kada takozvana hiperkocka ima više od 10-15 dimenzija.

Kombinacije vrijednosti dimenzija definiraju ćelije u kocki. Ovisno o specifičnoj primjeni, stanice u kocki mogu biti razbacane ili gusto. Kocke imaju tendenciju da se fragmentiraju kako se broj dimenzija i granularnost vrijednosti dimenzija povećava.

Na sl. 1 prikazuje kocku koja sadrži podatke o prodaji za dva danska grada navedena u tablici 1 s dodatnom dimenzijom - "Vrijeme". Podaci o prodaji pohranjuju se u odgovarajuće ćelije. U primjeru možete pronaći "činjenicu" - nepraznu ćeliju koja sadrži odgovarajuće numeričke parametre - za svaku kombinaciju vremena, proizvoda i grada u kojem je obavljena barem jedna prodaja. Ćelija sadrži numeričke vrijednosti povezane s činjenicom - u ovom slučaju to je volumen prodaje - jedini parametar.

Općenito, kocka vam omogućuje predstavljanje samo dvije ili tri dimenzije u isto vrijeme, ali možete prikazati više ako ugniježdite jednu dimenziju u drugu. Dakle, projiciranjem kocke na dvodimenzionalni ili trodimenzionalni prostor, moguće je smanjiti dimenziju kocke agregiranjem nekih dimenzija, što dovodi do rada sa složenijim vrijednostima parametara. Na primjer, gledajući prodaju po gradu i vremenu, prikupljamo informacije za svaku kombinaciju grada i vremena. Dakle, na sl. 1, dodajući polja 127 i 211 daje ukupnu prodaju za Kopenhagen 2001. godine.

Mjerenja

Mjerenja su ključni koncept u višedimenzionalnim bazama podataka. Multivarijantno modeliranje uključuje korištenje dimenzija za pružanje najvećeg mogućeg konteksta za činjenice. Za razliku od relacijskih baza podataka, kontrolirana redundantnost u višedimenzionalnim bazama podataka općenito se smatra opravdanom ako povećava vrijednost informacija. Budući da se podaci u višedimenzionalnoj kocki često prikupljaju iz drugih izvora, kao što je transakcijski sustav, problemi redundancije povezani s ažuriranjima mogu se puno lakše riješiti. U pravilu nema suvišnosti u činjenicama, postoji samo u dimenzijama.

Dimenzije se koriste za odabir i agregiranje podataka na potrebnoj razini pojedinosti. Dimenzije su organizirane u hijerarhiju više razina, od kojih svaka predstavlja razinu detalja potrebnu za pridruženu analizu.

Ponekad je korisno definirati više hijerarhija za dimenziju. Na primjer, model može definirati vrijeme i u fiskalnim i u kalendarskim godinama. Nekoliko hijerarhija dijeli jednu ili više zajedničkih, najnižih razina, kao što su dan i mjesec, a model ih grupira u nekoliko viših razina – fiskalno tromjesečje i kalendarsko tromjesečje. Kako bi se izbjegle duplicirane definicije, metapodaci višedimenzionalne baze podataka definiraju hijerarhiju dimenzija.

Na sl. Slika 2 prikazuje shemu lokacije za podatke o prodaji iz Tablice 1. Od tri razine dimenzija lokacije, najniža je Grad. Vrijednosti na razini grada grupirane su u vrijednosti na razini države, na primjer, Aalborg i Kopenhagen su u Danskoj. Razina T predstavlja sve dimenzije.

U nekim višedimenzionalnim modelima, razina ima nekoliko povezanih svojstava koja sadrže jednostavne, nehijerarhijske informacije. Na primjer, veličina paketa može biti svojstvo razine u dimenziji proizvoda. Dimenzija Veličina paketa također može primiti ove informacije. Korištenje mehanizma svojstava ne povećava broj dimenzija u kocki.

Za razliku od linearnih prostora, kojima se bavi matrična algebra, višedimenzionalni modeli općenito ne pružaju funkcije reda ili udaljenosti za vrijednosti dimenzija. Jedini "redoslijed" je da vrijednosti više razine sadrže vrijednosti niže razine. Međutim, za neke dimenzije, kao što je vrijeme, poredak vrijednosti dimenzija može se koristiti za izračunavanje skupnih informacija kao što je ukupna prodaja u određenom razdoblju. Većina modela zahtijeva definiranje hijerarhije dimenzija kako bi se formirala uravnotežena stabla — hijerarhije moraju imati istu visinu u svim granama, a svaka vrijednost koja nije korijenska mora imati samo jednog roditelja.

Činjenice

Činjenice predstavljaju predmet – obrazac ili događaj koji treba analizirati. U većini multidimenzionalnih modela podataka, činjenice su jedinstveno definirane kombinacijom vrijednosti dimenzija; činjenica postoji samo kada ćelija za određenu kombinaciju vrijednosti nije prazna. Međutim, neki modeli tretiraju činjenice kao "prvoklasne objekte" s posebnim svojstvima. Većina multidimenzionalnih modela također zahtijeva da svaka činjenica ima jednu vrijednost na nižoj razini svake dimenzije, ali u nekim modelima to nije potrebno.

Svaka činjenica ima određenu granularnost, definiranu razinama iz kojih se stvara njihova kombinacija vrijednosti dimenzija. Na primjer, granularnost činjenice u kocki prikazanoj na Sl. 1 je (godina x proizvod x grad). (Godina x Vrsta x Grad) i (Dan x Proizvod x Grad) su grublje, odnosno finije granulacije.

Pohrane podataka obično sadrže sljedeće tri vrste činjenica.

  • Događaji (događaj), barem na razini najveće granularnosti, u pravilu se simuliraju događaji stvarnog svijeta, pri čemu svaka činjenica predstavlja specifičan primjer fenomena koji se proučava. Primjeri uključuju prodaju, klikove na web stranicu ili kretanje artikala u skladištu.
  • Snimke modelirati stanje objekta u određenom trenutku, kao što su razine dostupnosti robe u trgovini ili skladištu i broj korisnika web stranice. Isti primjer fenomena iz stvarnog svijeta, kao što je određena konzerva graha, može se pojaviti u više činjenica.
  • Kumulativni snimak sadrže podatke o aktivnostima organizacije za određeno vremensko razdoblje. Na primjer, kumulativna prodaja za prethodno razdoblje, uključujući tekući mjesec, lako se može usporediti s odgovarajućim mjesecima prethodne godine.

Skladište podataka često sadrži sve tri vrste činjenica. Isti neobrađeni podaci, na primjer, kretanje robe u skladištu, mogu biti sadržani u tri različite vrste kocki: protok robe u skladištu, popis robe i tok za godinu do danas.

Parametri

Parametri se sastoje od dvije komponente:

  • numeričke karakteristike činjenice, na primjer, cijena ili prihod od prodaje;
  • formula, obično jednostavna agregatna funkcija, recimo zbroj, koja može kombinirati više vrijednosti parametara u jednu.

U višedimenzionalnoj bazi podataka, parametri obično predstavljaju svojstva činjenice koje korisnik želi ispitati. Parametri poprimaju različite vrijednosti za različite kombinacije mjerenja. Svojstvo i formula su odabrani da predstavljaju smislenu vrijednost za sve kombinacije razina agregacije. Budući da metapodaci definiraju formulu, podaci se, za razliku od proračunskih tablica, ne repliciraju.

Tri različite klase parametara ponašaju se vrlo različito u izračunima.

  • Dodatni parametri mogu se smisleno kombinirati u bilo kojoj dimenziji. Na primjer, ima smisla zbrojiti ukupnu prodaju za proizvod, lokaciju i vrijeme, jer to ne uzrokuje preklapanje među pojavama u stvarnom svijetu koje generiraju svaku od ovih vrijednosti.
  • Poluaditivni parametri, koji se ne mogu kombinirati u jednoj ili više dimenzija. Na primjer, zbrajanje zaliha za različite robe i skladišta ima smisla, ali zbrajanje zaliha robe u različito vrijeme je besmisleno, budući da se isti fizički fenomen može prebrojati nekoliko puta.
  • Neaditivni parametri nemojte kombinirati ni u jednoj dimenziji, obično zato što odabrana formula ne kombinira srednje vrijednosti niske razine u srednju vrijednost više razine.

Aditivni i neaditivni parametri mogu opisati činjenice bilo koje vrste, dok se poluaditivni parametri obično koriste sa snimkama ili skupnim snimkama.

Upiti

Višedimenzionalna baza podataka prirodno je dizajnirana za određene vrste upita.

  • Upiti na komadiće napraviti izbor koji smanjuje kocku. Na primjer, možete uzeti u obzir poprečni presjek kocke na Sl. 1, uzimajući u obzir samo one ćelije koje dodiruju kruh, a zatim ga još više skraćuju, ostavljajući ćelije samo na 2000. godinu. Zamrzavanje vrijednosti dimenzije smanjuje dimenziju kocke, ali su moguće općenitije operacije odabira.
  • Detaljni i roll-up upiti- recipročne operacije koje koriste hijerarhiju dimenzija i parametara za agregaciju. Generalizacija na više vrijednosti odgovara eliminaciji dimenzije. Na primjer, konvolucija od razine grada do razine države na Sl. 2 agregira vrijednosti za Aalborg i Kopenhagen u jednu vrijednost, Danska.
  • Detaljni upiti kombinirati kocke koje imaju jednu ili više zajedničkih dimenzija. Sa stajališta relacijske algebre, takva operacija izvodi spajanje.
  • Upiti za rangiranje vraća samo one ćelije koje se pojavljuju na vrhu ili dnu sortiranog popisa, kao što je 10 najprodavanijih proizvoda u Kopenhagenu 2000. godine.
  • rotirati (rotirati) kocka daje korisnicima mogućnost da vide podatke grupirane po drugim dimenzijama.

Implementacija

Višedimenzionalne baze podataka dolaze u dva glavna oblika.

  • Sustavi višedimenzionalne on-line analitičke obrade (MOLAP) pohranjuju podatke u specijalizirane višedimenzionalne strukture. MOLAP sustavi obično uključuju obradu rijetkog niza i koriste napredno indeksiranje i raspršivanje za pronalaženje podataka prilikom postavljanja upita.
  • Relacijski OLAP (ROLAP) sustavi koriste relacijske baze podataka za pohranu podataka, a također koriste specijalizirane strukture indeksa kao što su bitmape za postizanje visokih performansi upita.

MOLAP sustavi općenito omogućuju učinkovitije korištenje prostora na disku, kao i brže vrijeme odgovora prilikom obrade zahtjeva.

Smanjeno vrijeme odgovora prilikom obrade zahtjeva

Najvažnije tehnike za poboljšanje performansi u višedimenzionalnim bazama podataka su predračunanje. Njihov specijalizirani pandan je preagregacija, koja vam omogućuje da smanjite vrijeme odgovora na upite koji pokrivaju potencijalno velike količine podataka, u mjeri dovoljnoj za interaktivnu analizu podataka.

Izračunavanje i pohranjivanje ili "materijaliziranje" ukupne prodaje po zemlji i mjesecu primjer je prethodnog združivanja. Ovaj vam pristup omogućuje brzo primanje odgovora na upite koji se odnose na ukupnu prodaju, na primjer, u jednom mjesecu, u jednoj zemlji ili po kvartalu i državi u isto vrijeme. Ti se odgovori mogu dobiti iz unaprijed izračunatih podataka i nema potrebe pozivati ​​se na informacije koje se nalaze u skladištu podataka.

Moderne komercijalne relacijske baze podataka, kao i specijalizirani višedimenzionalni sustavi, sadrže alate za optimizaciju upita temeljene na unaprijed izračunatim agregatima (agregatima) i automatskom ponovnom izračunavanju pohranjenih agregata kada se temeljni podaci ažuriraju.

Potpuna predagregacija - materijalizacija svih kombinacija agregata - je nemoguća, jer zahtijeva previše prostora na disku i vremena za preliminarne izračune. Umjesto toga, moderni OLAP sustavi slijede praktičniji pristup prethodnom združivanju, materijalizirajući samo odabrane kombinacije agregata, a zatim ih koriste za učinkovitije izračunavanje drugih agregata. Ponovno korištenje agregata zahtijeva održavanje ispravne višedimenzionalne strukture podataka.

Književnost
  1. R. Winter, “Baze podataka: Povratak u OLAP igru”, Intelligent Enterprise Magazine, sv. 1, br. 4, 1998
  2. E. Thomsen, G. Spofford, D. Chase, Microsoft OLAP Solutions, John Wiley & Sons, New York, 1999.

Torben Bach Pedersen, Christian S. Jensen, Tehnologija višedimenzionalne baze podataka. IEEE Computer, prosinac 2001. Autorsko pravo IEEE Computer Society, 2001. Sva prava pridržana. Ponovno tiskano uz dopuštenje.

Teorija slučajnih varijabli proučava probabilističke pojave "u statici", smatrajući ih nekim fiksnim rezultatima eksperimenata. Metode klasične teorije vjerojatnosti nedostatne su za opisivanje signala koji odražavaju slučajne pojave koje se razvijaju u vremenu. Takve probleme proučava posebna grana matematike koja se naziva teorija slučajnih procesa.

Po definiciji, slučajni proces je posebna vrsta funkcije, koju karakterizira činjenica da su u svakom trenutku vrijednosti koje uzima slučajne varijable.

Ansambli implementacija.

Kada se radi o determinističkim signalima, prikazujemo ih funkcionalnim ovisnostima ili oscilogramima. Ako govorimo o slučajnim procesima, onda je situacija složenija. Fiksiranjem trenutnih vrijednosti slučajnog signala u određenom vremenskom intervalu, dobivamo samo jednu realizaciju slučajnog procesa. Slučajni proces je beskonačan skup takvih realizacija koje tvore statistički ansambl. Na primjer, ansambl je skup signala koji se može istovremeno promatrati na izlazima potpuno istih generatora napona buke.

Uopće nije nužno da implementacije slučajnog procesa budu predstavljene funkcijama sa složenim, nepravilnim ponašanjem u vremenu. Često je potrebno uzeti u obzir slučajne procese formirane, na primjer, svim vrstama harmonijskih signala, u kojima je jedan od tri parametra slučajna varijabla koja u svakoj implementaciji poprima određenu vrijednost. Slučajna priroda takvog signala leži u nemogućnosti određivanja vrijednosti ovog parametra unaprijed, prije pokusa.

Slučajni procesi formirani realizacijama koje ovise o konačnom broju parametara obično se nazivaju kvazideterminističkim slučajnim procesima.

Gustoće vjerojatnosti slučajnih procesa.

Neka je slučajni proces, zadan skupom realizacija, neki proizvoljan trenutak u vremenu. Fiksirajući vrijednosti dobivene u pojedinačnim implementacijama, provodimo jednodimenzionalni presjek danog slučajnog procesa i promatramo slučajnu varijablu. Njena gustoća vjerojatnosti naziva se jednodimenzionalna gustoća vjerojatnosti procesa u trenutku vremena

Prema definiciji, količina je vjerojatnost da će realizacije slučajnog procesa u trenutku poprimiti vrijednosti koje leže u intervalu

Informacije koje se mogu izvući iz jednodimenzionalne gustoće nedostatne su za prosuđivanje prirode razvoja realizacija slučajnog procesa u vremenu. Mnogo više informacija može se dobiti ako imamo dva dijela slučajnog procesa u neusklađenim trenucima vremena. Dvodimenzionalna slučajna varijabla koja nastaje u takvom misaonom eksperimentu opisuje se dvodimenzionalnom gustoćom vjerojatnosti. Ova karakteristika slučajnog procesa omogućuje izračunati vjerojatnost događaja da se provedba slučajnog procesa u odvija u malom susjedstvu točke i za - u malom susjedstvu točke

Prirodna generalizacija je -dimenzionalni dio slučajnog procesa koji vodi do -dimenzionalne gustoće vjerojatnosti

Višedimenzionalna gustoća vjerojatnosti slučajnog procesa mora zadovoljiti uobičajene uvjete nametnute gustoći vjerojatnosti skupa slučajnih varijabli (vidi § 6.2). Osim toga, vrijednost ne bi trebala ovisiti o redoslijedu u kojem se nalaze njezini argumenti (uvjet simetrije).

Ponekad je, umjesto -dimenzionalne gustoće vjerojatnosti, prikladno koristiti -dimenzionalnu karakterističnu funkciju, koja je povezana s odgovarajućom gustoćom Fourierovom transformacijom:

Opis svojstava slučajnih procesa koji koriste visokodimenzionalne višedimenzionalne gustoće vjerojatnosti može biti vrlo detaljan. Međutim, na tom putu često se susreću ozbiljne matematičke poteškoće.

Momentna funkcija slučajnih procesa.

Manje detaljne, ali u pravilu sasvim zadovoljavajuće u praktičnom smislu, karakteristike slučajnih procesa mogu se dobiti izračunom momenata onih slučajnih varijabli koji se promatraju u presjecima tih procesa. Budući da u općem slučaju ovi momenti ovise o vremenskim argumentima, nazivaju se momentnim funkcijama.

Za statističku radiotehniku ​​od najveće su važnosti tri momentne funkcije nižeg reda, koje se nazivaju matematičko očekivanje, varijanca i korelacijske funkcije.

Očekivana vrijednost

je prosječna vrijednost procesa X (t) u trenutnom vremenu; usrednjavanje se provodi po cijelom ansamblu realizacija procesa.

Disperzija

omogućuje prosuđivanje stupnja raspršenosti trenutnih vrijednosti koje uzimaju pojedinačne realizacije u fiksnom presjeku t, u odnosu na prosječnu vrijednost.

2D središnji moment

naziva se korelacijskom funkcijom slučajnog procesa. Ova trenutna funkcija karakterizira stupanj statističke povezanosti onih slučajnih varijabli koje se uočavaju kada se uspoređuju formule (6.37), (6.38), primjećujemo da kada se poprečni presjeci kombiniraju, korelacija je brojčano jednaka varijanci:

Stacionarni stohastički procesi.

Stoga je uobičajeno zvati slučajne procese čije su statističke karakteristike jednake u svim odjeljcima.

Kažu da je slučajni proces stacionaran u užem smislu; ako je bilo koja od njegove -dimenzionalne gustoće vjerojatnosti invarijantna s obzirom na vremenski pomak

Ako ograničimo zahtjeve tako da matematičko očekivanje i varijanca procesa ne ovise o vremenu, a korelacijske funkcije ovisi samo o razlici -, tada će takav slučajni proces biti stacionaran u širem smislu. Jasno je da stacionarnost u užem smislu podrazumijeva stacionarnost u širem smislu, ali ne i obrnuto.

Kao što slijedi iz definicije, korelacijska funkcija stacionarnog slučajnog procesa je parna:

Osim toga, apsolutne vrijednosti ove funkcije za bilo koju ne prelaze njezinu vrijednost za:

Metoda dokaza je sljedeća: iz očite nejednakosti

slijedi to

odakle izravno slijedi nejednakost (6.41).

Često je prikladno koristiti normaliziranu korelaciju

za koji .

Da bismo ilustrirali koncept stacionarnog stohastičkog procesa, razmotrimo dva primjera.

Primjer 6.5. Slučajni proces nastaje realizacijama oblika gdje su unaprijed poznati, dok je fazni kut slučajna varijabla jednoliko raspoređena po intervalu -

Budući da je gustoća vjerojatnosti faznog kuta, matematičko očekivanje procesa

Slično, možete pronaći varijancu:

Konačno, korelacijske funkcije

Dakle, ovaj slučajni proces zadovoljava sve uvjete koji su potrebni da bi se osigurala stacionarnost u širem smislu.

Primjer 6.6. Slučajni proces ima realizacije oblika i, štoviše, zadanih brojeva. - slučajna varijabla s proizvoljnim zakonom raspodjele. Očekivana vrijednost

bit će neovisan o vremenu samo za. Stoga će u općem slučaju razmatrani slučajni proces biti nestacionaran.

Ergodično svojstvo.

Stacionarni slučajni proces naziva se ergodičan ako se pri pronalaženju njegovih trenutnih funkcija prosječenje po statističkom ansamblu može zamijeniti prosječenjem tijekom vremena. Operacija usrednjavanja izvodi se na jednoj implementaciji čije trajanje T teoretski može biti proizvoljno dugo,

Označavajući prosječenje tijekom vremena kutnim zagradama, zapisujemo matematičko očekivanje ergodičkog slučajnog procesa:

koja je jednaka konstantnoj komponenti odabrane implementacije.

Disperzija sličnog procesa

Budući da je količina prosječna snaga realizacije, a količina snaga konstantne komponente, varijanca ima vizualno značenje snage fluktuacijske komponente ergodičkog procesa.

Korelacijska funkcija nalazi se na sličan način:

Dovoljan uvjet za ergodičnost stacionarnog slučajnog procesa u širem smislu je sklonost nuli korelacijske funkcije s neograničenim povećanjem vremenskog pomaka:

U matematici se pokazalo da se ovaj zahtjev može donekle ublažiti. Ispada da je slučajni proces ergodičan ako je zadovoljen uvjet Slutskog:

Dakle, jednakost (6.47) vrijedi za harmonijski proces sa slučajnom početnom fazom (vidi primjer 6.5).

Mjerenje karakteristika slučajnih procesa.

Ako je slučajni proces ergodičan, onda je njegova realizacija dovoljne duljine “tipični” predstavnik statističkog ansambla. Eksperimentalno proučavajući ovu implementaciju, možete dobiti mnogo informacija koje karakteriziraju ovaj slučajni proces.

Uređaj za mjerenje jednodimenzionalne gustoće vjerojatnosti slučajnog procesa može se izvesti na sljedeći način. Jednodimenzionalna gustoća vjerojatnosti ergodičkog slučajnog procesa je veličina proporcionalna relativnom vremenu zadržavanja njegove realizacije na razini između Pretpostavimo da postoji uređaj s dva ulaza, od kojih je jedan opskrbljen proučavanom realizacijom x (t) , a drugi je referentni konstantni napon čija se razina može regulirati. Na izlazu uređaja pojavljuju se pravokutni video impulsi konstantne amplitude, čiji su početak i kraj određeni trenucima u vremenu kada se trenutne vrijednosti slučajnog signala poklapaju ili s razinom ili s razinom. uređaj će biti proporcionalan gustoći vjerojatnosti

Bilo koji dovoljno inercijski pokazivački uređaj može se koristiti za mjerenje matematičkog očekivanja slučajnog procesa [vidi. formula (6.43)].

Uređaj koji mjeri varijancu slučajnog procesa, kao što slijedi iz (6.44), mora imati kondenzator na ulazu koji odvaja istosmjernu komponentu. Daljnji koraci u procesu mjerenja - kvadriranje i usrednjavanje tijekom vremena - izvode se inercijskim kvadratnim voltmetrom.

Princip rada mjerača korelacijske funkcije (korelometar) proizlazi iz formule (6.45). Ovdje se trenutne vrijednosti slučajnog signala nakon filtriranja konstantne komponente, dijeljenja na kanale, unose u množitelj, a u jednom od kanala signal se odgađa neko vrijeme. Da bi se dobila vrijednost korelacijske funkcije, signal s izlaza množitelja obrađuje inercijalna jedinica, koja vrši usrednjavanje.

Bez obzira na veličinu

Ovdje su usvojene iste oznake kao u formuli (6.26). Elementi korelacijske matrice ovog slučajnog procesa određeni su normaliziranom korelacijskom funkcijom:

U nastavku ćemo često koristiti dvodimenzionalnu Gaussovu gustoću

Stacionarni Gaussov proces zauzima isključivo mjesto među ostalim slučajnim procesima - bilo koja njegova višedimenzionalna gustoća vjerojatnosti određena je dvjema karakteristikama: matematičkim očekivanjem i korelacijskom funkcijom.

Vrhunski povezani članci