Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Windows 8
  • Uvod u osnove OLAP-a. Poređenje karakteristika statičke i dinamičke analize

Uvod u osnove OLAP-a. Poređenje karakteristika statičke i dinamičke analize

Do sada su mnoge organizacije akumulirale značajne količine podataka na osnovu kojih je moguće riješiti niz analitičkih i upravljačkih problema. Problemi skladištenja i obrade analitičkih informacija postaju sve relevantniji i privlače pažnju stručnjaka i firmi koje rade u oblasti informacionih tehnologija, što je dovelo do formiranja punopravnog tržišta tehnologija poslovne analize.

U idealnom slučaju, rad analitičara i menadžera na različitim nivoima treba biti organiziran tako da mogu imati pristup svim informacijama koje ih zanimaju i uživati ​​u zgodnim i jednostavnim sredstvima prezentaciju i rad sa ovim informacijama. Upravo za postizanje ovih ciljeva informacione tehnologije, koji se zajednički nazivaju skladištenje podataka i poslovna analiza.

U skladu sa Gartner definicijom, poslovna analiza (BI, Business Intelligence) je kategorija aplikacija i tehnologija za prikupljanje, skladištenje, analizu i objavljivanje podataka koja omogućava korporativnim korisnicima da prihvate najbolja rješenja... U ruskoj terminologiji slični sistemi takođe se nazivaju sistemi za podršku odlučivanju (DSS).

Prikupljanje i skladištenje informacija, kao i rješavanje problema upita za pronalaženje informacija, efikasno se implementiraju pomoću sistema za upravljanje bazama podataka (DBMS). Implementiraju podsistemi OLTP (Online Transaction Processing). transakcijska obrada podaci. Direktno OLTP sistemi nisu pogodni za potpunu analizu informacija zbog nedosljednosti zahtjeva za OLTP sisteme i DSS.

Da bi se pružile informacije potrebne za donošenje odluka, obično je potrebno prikupiti podatke od nekoliko transakcijske baze podataka drugačija struktura i sadržaj. Glavni problem u ovom slučaju je nedosljednost i nedosljednost ovih izvora baze podataka, nedostatak jedinstvenog logičkog pogleda na korporativne podatke.

Stoga, za kombinovanje u jednom sistemu OLTP i DSS za implementaciju podsistema za skladištenje, koristi se koncept skladišta podataka (DW). Koncept CD-a zasniva se na ideji razdvajanja podataka koji se koriste za operativnu obradu i za rješavanje problema analize, što omogućava optimizaciju struktura skladištenja. HD vam omogućava da integrišete prethodno nepovezane detaljne podatke sadržane u istorijskim arhivama akumuliranim u tradicionalnim OLTP sistemima, koji dolaze iz eksternih izvora, v jednu bazu podatke, provođenje njihovog preliminarnog dogovora i, eventualno, agregiranje.

Podsistem analize može se izgraditi na osnovu:

  1. podsistemi analize pronalaženja informacija zasnovani na relacionim DBMS-ima i statičkim upitima koristeći SQL jezik;
  2. podsisteme operativne analize. Za implementaciju ovakvih podsistema koristi se tehnologija on-line analitičke obrade. OLAP podaci korištenje koncepta višedimenzionalne reprezentacije podataka;
  3. podsistemi intelektualne analize koji implementiraju metode i algoritme Data Mininga.
Koncept skladišta podataka

HD tehnologija je dizajnirana za skladištenje i analizu velikih količina podataka u cilju dalje otkrivanje skrivene šare u njima i, zajedno sa Tehnologija podataka Rudarstvo, uključeno je u koncept "prediktivne analitike". Data Mining, zauzvrat, proučava proces pronalaženja novih, validnih i potencijalno korisnih znanja u bazama podataka.

HD je domenski specifičan, integriran, rijedak istorijski skup podataka organiziran u svrhu podrške odlučivanju. Predmetna orijentacija znači da CD integriše informacije koje odražavaju različite tačke gledišta o predmetnoj oblasti. Integracija pretpostavlja da su podaci pohranjeni na CD-u svedeni na jedan format. Istorijska podrška znači da svi podaci na CD-u odgovaraju sekvencijalnim vremenskim intervalima.

Osim što mogu raditi sa jednim izvorom informacija, menadžeri i analitičari moraju imati pogodna sredstva vizualizacija podataka, agregacija, pretraga trendova, predviđanje. Uprkos raznolikosti analitičke aktivnosti mogu se razlikovati tipične tehnologije analiza podataka, od kojih svaki odgovara određenom skupu alata... Zajedno sa skladištem podataka, ovi alati pružaju kompletno rješenje automatizovati analitičke aktivnosti i kreirati korporativne informaciono-analitički sistem.

Fizičko i virtuelno skladištenje podataka

Prilikom učitavanja podataka iz OLTP-sistema na CD dolazi do dupliciranja podataka. Međutim, ovo preuzimanje filtrira podatke jer nisu svi relevantni za analizu. CD pohranjuje generalizovane informacije koje nedostaju u OLTP sistemu.

Redundantnost informacija može se svesti na nulu korištenjem virtualnog CD-a. U takvom sistemu, podaci iz OLTP sistema se ne kopiraju u jedno spremište. Oni se izdvajaju, transformišu i integrišu direktno prilikom pokretanja analitičkih upita u realnom vremenu. Zapravo, takvi zahtjevi se šalju direktno u OLTP sistem.

Prednosti virtuelnog HD-a:

  • minimiziranje količine pohranjenih podataka;
  • rad sa aktuelnim, ažurnim podacima.

Nedostaci virtuelnog HD-a:

  • veće, u poređenju sa fizičkim skladištenjem podataka, vreme obrade zahteva;
  • potreba za stalnom dostupnošću svih OLTP izvora;
  • smanjenje performansi OLTP sistema;
  • OLTP sistemi nisu fokusirani na pohranjivanje podataka na duži vremenski period, po potrebi podaci se uploaduju u arhivu, tako da ne postoji uvijek fizička mogućnost dobijanja kompletan set podaci u HD.

Koncept skladišta podataka

"Skladište podataka" je domenski specifična, vremenski ograničena i nepromjenjiva kolekcija podataka za podršku procesu donošenja upravljačkih odluka.

Podaci u skladištu dolaze iz operativni sistemi(OLTP sistemi), koji su dizajnirani za automatizaciju poslovnih procesa. Osim toga, skladište se može dopuniti iz vanjskih izvora, na primjer, statističkih izvještaja, raznih referentnih knjiga itd. Pored detaljnih informacija, skladište podataka sadrži agregate, tj. sumiranje informacija kao što su iznosi prodaje, količine, ukupni troškovi, itd.

Skladište poreznih podataka treba posmatrati kao informacijski centar u kojem se automatizira obračun odgođenih poreza, primaju i pohranjuju informacije iz vanjskih izvora, a podaci se pretvaraju u format prilagođen korisniku. Takav repozitorij pruža platformu za pohranjivanje tačnih i pravovremenih poreznih podataka koji se mogu dohvatiti i prenijeti na eksterne aplikacije za potrebe analize, revizije, planiranja i predviđanja.

Skladište podataka je repozitorijum informacionih resursa i obezbeđuje konsolidaciju podataka preduzeća za potrebe izveštavanja i analize. Podaci i informacije, kako operativni tako i neoperativni, unose se u skladište, obično pomoću ETL alata iz izvora, podataka kako postanu dostupni ili redovno. Transformacija podataka vam omogućava da zahtjeve obrađujete i analizirate na vrijeme, što pojednostavljuje i ubrzava proces ispunjavanja zahtjeva za informacijama koje su izvorno primljene iz drugih izvora.
Prednosti skladišta podataka uključuju mogućnost transformacije podataka u kvalitetne informacije za pripremu poreza i poresku usklađenost za sve nivoe korisnika. Bilo koji dionik - kupci, partneri, zaposleni, menadžeri i rukovodioci - mogu primiti interaktivni sadržaj bilo kada i bilo gdje.
Samo postojanje jedinstvenog izvora informacija za pripremu poreskih izvještaja i poštivanje poreskih obaveza veliki je korak naprijed za mnoge porezne organe.

Zašto trebate graditi skladišta podataka - na kraju krajeva, oni sadrže očigledno suvišne informacije, koje se već nalaze u bazama podataka ili datotekama operativnih sistema? Nemoguće je ili veoma teško direktno analizirati podatke operativnih sistema. To je zbog različitih razloga, uključujući fragmentaciju podataka i njihovo skladištenje u formatima različitih DBMS-a. Ali čak i ako su u preduzeću svi podaci pohranjeni na centralnom serveru baze podataka, analitičar gotovo sigurno neće razumjeti njihove složene, ponekad zbunjujuće strukture.

Dakle, zadatak repozitorija je da na jednom mjestu iu jednostavnoj, razumljivoj strukturi obezbijedi "sirovine" za analizu.

Postoji još jedan razlog koji opravdava pojavu posebnog spremišta - složeni analitički upiti za operativne informacije uspori trenutni posao kompanije, trajno blokirajući stolove i oduzimajući serverske resurse.

Skladištenje nije nužno ogromna akumulacija podataka - najvažnije je da je pogodno za analizu.

Koncept skladišta podataka

Autor koncepta skladišta podataka ( Skladište podataka) je B. Inmon, koji je definirao skladišta podataka kao: "specifični za domen, integrirani, nepromjenjivi, historijski skupovi podataka organizirani u svrhu podrške menadžmentu" dizajnirani da djeluju kao "jedan i jedini izvor istine" koji menadžerima i analitičarima pruža pouzdane informacije neophodna za operativnu analizu i donošenje odluka. Šema skladišta podataka može se predstaviti na sljedeći način:

Fizička implementacija ove šeme može biti vrlo raznolika. Razmotrimo prvu opciju - virtuelno skladište podataka, ovo je sistem koji omogućava pristup konvencionalnom sistemu za snimanje koji emulira rad sa skladištem podataka. Virtuelna pohrana mogu se organizovati na dva načina. Možete kreirati niz "pogleda" u bazi podataka ili koristiti specijalnim sredstvima pristup bazi podataka (na primjer, desktop OLAP proizvodi).

Budući da je izgradnja skladišta podataka složen proces koji može potrajati nekoliko godina, neke organizacije umjesto toga grade podatkovne vitrine koje sadrže informacije za određene odjele. Na primjer, baza marketinških podataka može sadržavati samo informacije o kupcima, proizvodu i prodaji, a ne uključivati ​​planove nabavke. Više odeljenskih baza podataka može koegzistirati sa osnovnim skladištem podataka, pružajući delimičan prikaz sadržaja skladišta. Vitrine podataka se grade znatno brže od skladišta, ali kasnije mogu uzrokovati ozbiljne probleme integracije ako početno planiranje nije obavljeno s punim poslovnim modelom na umu. Ovo je drugi način.


Izgradnja potpunog skladišta podataka preduzeća obično se radi u troslojnoj arhitekturi. Na prvom nivou nalaze se različiti izvori podataka - sistemi internog snimanja, sistemi pomoći, eksterni izvori (podaci novinske agencije, makroekonomski pokazatelji). Drugi nivo sadrži centralni repozitorij, gde se prikupljaju informacije iz svih izvora sa prvog nivoa, i, eventualno, operativno skladište podataka koje ne sadrži istorijske podatke i obavlja dve glavne funkcije.

Koncept skladišta podataka zasniva se na dvije osnovne ideje:

1) integraciju prethodno nepovezanih detaljnih podataka u jedinstveno skladište podataka, njihovo usklađivanje i, eventualno, agregaciju:

· Istorijski arhivi;

· Podaci iz tradicionalnih ODS;

· Podaci iz eksternih izvora.

2) razdvajanje skupova podataka koji se koriste za operativnu obradu i skupova podataka koji se koriste za rješavanje problema analize.

Svrha koncepta skladišta podataka je da se saznaju zahtjevi za podacima koji se nalaze u ciljnoj bazi podataka skladišta podataka (tabela 1), da se odredi opšti principi i fazama njegove izgradnje, glavnim izvorima podataka, dati preporuke o načinu rješavanja potencijalnih problema koji nastaju prilikom njihovog istovara, čišćenja, odobravanja, transporta i utovara u ciljnu bazu podataka.

Tabela 1. Osnovni zahtjevi za podatke u skladištu podataka.

Predmetna orijentacija Svi podaci o određenom subjektu (poslovnom objektu) se prikupljaju (obično iz skupa). raznih izvora), očišćeni, usaglašeni, dopunjeni, agregirani i predstavljeni u jednom, prikladnom obliku za njihovu upotrebu u poslovnoj analizi.
Integracija Svi podaci o različitim poslovnim objektima međusobno su konzistentni i pohranjeni u jednom korporativnom skladištu.
Nepromenljivost Originalni (istorijski) podaci, nakon što su usaglašeni, verificirani i uneseni u korporativno skladište, ostaju nepromijenjeni i koriste se isključivo u načinu čitanja.
Podrška za vremensku liniju Podaci su hronološki strukturirani i odražavaju istoriju tokom dovoljnog vremenskog perioda da se dovrše zadaci poslovne analize i predviđanja.

Koncept skladišta podataka su sami podaci. Nakon što se tradicionalni sistem za obradu podataka (DDS) implementira i počne funkcionirati, on postaje potpuno isti nezavisni objekt stvarnog svijeta, kao i svaki proces proizvodnje... A podaci, koji su jedan od finalnih proizvoda takve proizvodnje, imaju potpuno ista svojstva i karakteristike kao i svaki industrijski proizvod: rok trajanja, mjesto skladištenja (skladišta), kompatibilnost sa podacima iz drugih industrija (ODS), tržišnu vrijednost, prenosivost , kompletnost, održivost itd.

Sa ove tačke gledišta se razmatraju podaci u skladištima podataka. Odnosno, cilj ovdje nisu načini opisivanja i prikazivanja objekata. predmetna oblast, već sami podaci, kao samostalni objekt predmetne oblasti, nastali kao rezultat funkcionisanja prethodno kreiranih informacionih sistema.

Za ispravno razumevanje Ovaj koncept zahtijeva razumijevanje sljedećih osnovnih tačaka:

· Koncept skladišta podataka nije koncept analize podataka, već je koncept pripreme podataka za analizu.

· Koncept skladišta podataka ne predodređuje arhitekturu ciljnog analitičkog sistema. Govori o tome koji procesi treba da se obavljaju na sistemu, ali ne i o tome gde tačno i kako se ti procesi trebaju izvoditi.

· Koncept skladišta podataka ne uključuje samo jedan logički pogled na podatke organizacije, već implementaciju jednog integrisanog izvora podataka.

Osim toga objedinjeni priručnik metapodaci, sredstva za istovar, agregaciju i usaglašavanje podataka, koncept skladišta podataka podrazumijeva: integraciju, nepromjenjivost, podršku povijesti i konzistentnost podataka. A ako prva dva svojstva (integracija i nepromjenjivost) utiču na načine analize podataka, onda posljednja dva (podrška povijesti i konzistentnost) značajno sužavaju listu analitičkih zadataka koje treba riješiti.

Bez podrške hronologije (prisustva istorijskih podataka), nemoguće je govoriti o rješavanju problema predviđanja i analize trendova. Ali najkritičnija i najbolnija pitanja su ona koja se odnose na usklađivanje podataka.

Glavni zahtjev analitičara nije toliko efikasnost koliko pouzdanost odgovora. Ali kredibilitet je na kraju određen dosljednošću. Dok se ne radi na međusobnom usaglašavanju vrijednosti podataka iz različitih izvora, teško je govoriti o njihovoj pouzdanosti.

Često se menadžer suočava sa situacijom u kojoj različiti sistemi mogu dati i obično dati različite odgovore na isto pitanje. To može biti zbog asinhrone prirode momenata modifikacije podataka, razlika u interpretaciji istih događaja, pojmova i podataka, promjena u semantici podataka u procesu razvoja predmetne oblasti, elementarnih grešaka prilikom unosa i obrade podataka. , djelomični gubitak pojedinačnih fragmenata arhive i sl. Očigledno nije realno uzeti u obzir i unaprijed odrediti algoritme za rješavanje svih mogućih kolizija. Štaviše, nerealno je to učiniti unutra režim rada, dinamički, direktno u procesu formiranja odgovora na zahtjev.


Slične informacije.


Forrester Research je to najviše primijetio velike kompanije sudara sa sljedeći problem: akumuliraju se velika količina informacije koje se nikada ne koriste. Praktično u svakoj organizaciji, mnogo transakcionih sistema zapravo funkcioniše, fokusiranih na operativnu obradu podataka (svaki za određenu klasu zadataka) i kontinuirano dopunjavanje brojnih baza podataka. Osim toga, preduzeća često posjeduju ogromne količine informacija pohranjenih u tzv. naslijeđenih sistema. Svi ovi podaci se distribuiraju preko mreža personalni računari pohranjeni su na glavnim računarima, radnim stanicama i serverima. Dakle, informacija ima, ali je disperzirana, nedosljedna, nestrukturirana, često suvišna i ne uvijek pouzdana. Stoga se u većini organizacija ovi podaci još uvijek ne mogu koristiti za donošenje kritičnih poslovnih odluka. Koncept skladišta podataka je usmjeren na rješavanje ove kontradikcije.

Autor koncepta Bill Inmon, u svom klasičnom članku Šta su skladišta podataka (D2K Incorporated, 1996.), definiše skladišta podataka kao „specifične za domen, integrisane, nepromenljive, istorijske skupove podataka organizovane da podrže upravljanje“. On posmatra repozitorije kao "jedan i jedini izvor istine", "centar univerzuma" sistema za podršku odlučivanju (DSS). „Iz skladišta podataka“, piše on, „informacije teku u različite odjele, filtrirajući se prema date postavke DSS. Ove odvojene baze podataka za donošenje odluka nazivaju se bazama podataka."

Koncept skladišta podataka zasniva se na ideji kombinovanja korporativnih podataka rasutih po operativnim sistemima za obradu podataka, istorijskim arhivama i drugim eksternim izvorima. Ovi izvori mogu sadržavati podatke koji se ne koriste direktno u ODS-u, ali su od vitalnog značaja za DSS: zakonodavni okvir(uključujući poreske prognoze), planove razvoja industrije, statističke podatke, elektronske priručnike. Kao što praksa pokazuje, odluka donesena samo na osnovu internih podataka često se pokaže netačnom.

Svrha koncepta skladišta podataka je da se razjasne razlike u karakteristikama podataka u operativnim i analitičkim sistemima, da se utvrde zahtevi za podacima smeštenim u skladište, da se utvrde opšti principi i faze njegove izgradnje, glavni izvori podataka. , dati preporuke za rješavanje potencijalnih problema koji nastanu prilikom njihovog istovara, čišćenja, koordinacije, transporta i utovara u ciljnu bazu skladišta.

Poređenje karakteristika podataka u informacionim sistemima fokusiranim na operativnu i analitičku obradu podataka

Karakteristično

Operating

Analitički

Učestalost ažuriranja

Visoka frekvencija, u malim porcijama

Niska frekvencija, velike porcije

Izvori podataka

Uglavnom interni

Uglavnom eksterno

Pohranjene količine podataka

Stotine megabajta, gigabajta

Gigabajti i terabajti

Data age

Aktuelno (za period od nekoliko mjeseci do jedne godine)

Aktuelni i istorijski (u periodu od nekoliko godina, desetina godina)

Imenovanje

Fiksiranje, online pretraga i transformacija podataka

Čuvanje detaljnih i agregiranih istorijskih podataka, analitička obrada, predviđanje i modeliranje

Osnovni zahtjevi za podatke u skladištu podataka

Predmetna orijentacija

Svi podaci o određenom subjektu (poslovnom objektu) se prikupljaju (obično iz više različitih izvora), čiste, usaglašavaju, dopunjuju, agregiraju i predstavljaju u jedinstvenom, prikladnom obliku za korištenje u poslovnoj analizi.

Integracija

Svi podaci o različitim poslovnim objektima međusobno su konzistentni i pohranjeni u jednom korporativnom skladištu

Nepromenljivost

Početni (istorijski) podaci, nakon što su usaglašeni, provjereni i uneseni u generalni korporativno skladište, ostaju nepromijenjeni i koriste se isključivo u načinu čitanja

Podrška za vremensku liniju

Podaci su hronološki strukturirani i odražavaju historiju u dovoljnom vremenskom periodu da se završe zadaci poslovne analize i predviđanja.

Predmet koncepta skladišta podataka nije analiza podataka, već sami podaci, odnosno koncept njihove pripreme za dalju analizu. Istovremeno, koncept skladišta podataka ne definiše samo jedan logički pogled na korporativne podatke, već implementaciju jednog integrisanog izvora podataka.

Modeli analize podataka

Uprkos činjenici da je u konceptu skladišta podataka koji je formulisao B. Inmon, naglasak je na samim podacima i identifikaciji njihovih naj opšta svojstva, karakteristikama i odnosima, jasno je da ove podatke treba koristiti u procesu donošenja poslovnih odluka na svim nivoima, do korporativnog i interkorporativnog. Do danas su se istorijski formirala dva glavna modela analize podataka na kojima se zasnivaju postojeći analitički DSS:

1. Statička analiza (DSS). Sam koncept DSS (Decision Support Systems) zapravo je preveden kao DSS. To je donedavno bio jedini analitički koncept. Rezultat rada ovakvih sistema bili su strogo regulisani višestrani izveštaji, za čije su formiranje vršeni dugoročni upiti, obrađujući kolosalne količine podataka. Takvi zahtjevi mogu potrajati nekoliko sati, ponekad desetine sati ili čak dani.

2. Operativna analiza podataka (OLAP). Autor koncepta OLAP-a (On-Line Analytical Processing) je dr. E. Codd, koji je 1993. godine formulisao 12 osnovnih zahtjeva za alate. OLAP implementacije. Osnovna razlika ovaj model iz tradicionalnog statičkog DSS-a je konceptualni prikaz podataka kao višedimenzionalne kocke. Istovremeno, E. Codd je pokazao potencijalne nedostatke relacionog pristupa u sistemima fokusiranim na analizu podataka. Svrha kreiranja ovog koncepta bila je fundamentalna mogućnost da se krajnjem korisniku obezbede sredstva za formiranje, obradu i izvršavanje ad hoc analitičkih upita sa minimalnim vremenom odziva sistema. Potreba za nastankom ovog novog koncepta bila je predodređena činjenicom da je analitičar često nakon dobijanja standardnog izveštaja putem DSS-a imao novo pitanje ili saznanje da je samo pitanje pogrešno formulisano. Kao rezultat toga, morao je ponovo dugo vremena sačekajte sljedeći rezultat da biste se onda, eventualno, vratili na sljedeću iteraciju ovog procesa.

Poređenje karakteristika statičke i dinamičke analize

Karakteristično

Statička analiza

Dinamička analiza

Vrste pitanja

Koliko? Kako? Kada?

Zašto? Šta ako?..

Vrijeme odziva

Nije regulisano

Tipične operacije

Regulisani izvještaj, dijagram

Niz interaktivnih izvještaja, dijagrama, ekranske forme... Dinamički promijenite nivoe agregacije i isječke podataka.

Nivo analitičkih zahtjeva

Tip ekrana

Uglavnom unaprijed određeno, regulirano

Definisano od strane korisnika

Nivo agregacije podataka

Detaljno i sažeto

Uglavnom kumulativno

Data age

Istorijski i aktuelni

Istorijski, aktuelni i projektovani

Vrste zahtjeva

Uglavnom predvidljivo

Nepredvidivo, povremeno

Imenovanje

Regulisana analitička obrada

Multifunkcionalna analiza, modeliranje i predviđanje

Danas je OLAP pravac, možda, najperspektivniji za rješavanje problema analitičkog upravljanja. Uz pomoć posebno kreiranog OLAP Report servisa, 12 zahtjeva koje je prvobitno formulirao dr. Codd djelimično su revidirani i značajno dopunjeni kako osnovnim tako i posebne prilike, kao što je odabir i obrada podataka koji nedostaju, itd. Ali ipak jezgro OLAP koncepta je višedimenzionalno predstavljanje podataka na konceptualnom nivou.

Data marts

Prema klasičnoj definiciji, Data Mart je podskup skladišta podataka koji odražava specifičnosti odjela (poslovnog objekta) i pruža povećana produktivnost... Dakle, izlog je karika na kojoj se nalazi specifično analitički sistem da riješe svoj niz zadataka. Ipak, moguće je da određeno područje aktivnosti poduzeća praktički ne korelira s drugim, te je moguće samostalno izgraditi odgovarajuću bazu podataka, bez vezivanja za korporativno skladište. Tada će se izlog puniti podacima direktno iz operativnih sistema za obradu transakcija. Takva tržišta podataka nazivaju se nezavisnim, za razliku od klasičnih baza podataka zavisnih od skladišta podataka i nadopunjavanja iz njega.

U nekim slučajevima, čini se preporučljivim da se postavi baza podataka umjesto potpuno formiranog skladišta. Satovi podataka su manje zahtjevni, jeftiniji i lakši za izgradnju, a temelje se na jeftinijim serverima, a ne na višeprocesorskim sistemima. Uz ovaj pristup, nema potrebe da se koristi cjelina informacioni sistem korporacije i podržavaju složene procedure za sinhrono ažuriranje baze podataka prilikom ažuriranja skladišta. U isto vrijeme, potrebno je razumjeti da se ovim pristupom, podatkovne vitrine mogu umnožiti u čitave komplekse nezavisnih informacione baze podataka, i naravno da će se postaviti zadatak upravljanja pojedinačnim strategijama pretraživanja, održavanja i oporavka. S druge strane, izgradnja jedinstvenog korporativnog skladišta zasnovanog na mnogim nezavisnim bazama podataka je mnogo isplativija od oslanjanja na podatke razbacane po sistemima za obradu transakcija.

Dakle, šta je prikladno koristiti: objedinjena pohrana, nezavisna tržišta podataka, pohrana sa zavisnim bazama podataka ili druge opcije? Ne postoji univerzalni odgovor na pitanje o potrebi primjene ove ili one opcije. U svakom slučaju najbolja opcija je određena poslovnim zahtjevima, intenzitetom potražnje, mrežnom arhitekturom, potrebnim odzivom i drugim uslovima.

Tehnologija implementacije skladišta podataka

Prilikom kreiranja skladišta podataka, prirodno je držati se faznog razvoja. Unatoč činjenici da nijedan opis procesa izgradnje skladišta podataka u obliku niza faza ne može pokriti sve aspekte povratne informacije sa svojim potencijalnim korisnicima, menadžerima i analitičarima, međutim, postoje neki osnovni koraci koji se primjenjuju na proces izgradnje poslovne arhitekture:

1. Utvrđivanje potrebe krajnjim korisnicima i izgradnju modela poslovnih pitanja na koja treba odgovoriti.

2. Identifikacija podataka iz korporativnih i eksternih izvora koji će napajati skladište ili baza podataka.

3. Analiza izvora podataka i modeliranje funkcija i procesa koje ti izvori pokrivaju. Učenje pravila po kojima posluje jedno je od njih bitni uslovi izgradnju skladišta podataka ili data marts, jer se na osnovu toga uspostavlja nivo detaljnosti elemenata u skladištu podataka.

4. Utvrđivanje procedura za transformaciju, čišćenje i logičku integraciju izvornih podataka prije njihovog stavljanja u skladište podataka ili baza podataka, kao i regulisanje implementacije ovih procedura kojima se ažurira skladište podataka.

5. Kreiranje metapodataka koji opisuju izvore i metode transformacije podataka i logiku skladišta podataka. Repozitorijum metapodataka treba da sadrži definicije podataka, poslovna pravila i detaljnu logiku za modeliranje razvoja analitičkih sistema.

6. Formiranje fizičkih tabela skladišta podataka i njegovo popunjavanje. Ovaj proces može trajati nekoliko iteracija, uzimajući u obzir mogući redizajn struktura podataka prilikom analize šeme podataka skladišta.

7. Izgradnja repozitorija baza podataka, koji će uključivati ​​podskupove podataka iz skladišta i prethodno agregirane podatke. Neki od metapodataka će opisati kako se primarni podaci skladišta transformiraju, agregiraju i keširaju u prodajnim mjestima.

8. Instaliranje OLAP alata, aplikacijskih sistema, Web servera i svega neophodni alati i serverski programi potrebno za pristup podacima, analizu i izvještavanje.

9. Instaliranje klijentskog softvera (debeli klijent) ili pretraživača koji podržavaju krajnje korisnike na radnim stanicama. standardni formati podaci i Java apleti takođe potrebne ekstenzije plug-in ("tanki" klijent) za korisnički pristup podacima.

Nakon završetka procesa kreiranja skladišta podataka, može se činiti da je sve već urađeno. Naime, formiranje skladišta je proces koji uključuje i neophodne faze stalnog nadzora i održavanja skladišta podataka. Dobar nadzor uključuje ne samo održavanje ispravnosti podataka, već i osiguranje njihove tajnosti, posebno ako se podacima u spremištu pristupa putem weba. „Budući da skladište podataka sadrži jednu od najvećih sredstava u preduzeću“, kaže R. Tenler, predsednik Information Advantage-a, „podaci moraju biti sigurni. Ali da bi shvatila potencijalnu vrijednost skladišta podataka, organizacija će ga morati ponuditi potencijalnim kupcima.”

Održavanje skladišta podataka u dobrom stanju na duži rok je još jedan veliki izazov. Ovaj faktor postaje posebno važan kada broj korisnika koji pristupaju sistemu počne da raste. Štaviše, ako je u procesu dizajniranja skladišta podataka informacione usluge Kako se podaci obično pažljivo usklađuju, vremenom pažnja ljudi opada i skladište podataka može postati deponija. Da se to ne bi dogodilo, potrebno je imenovati osobe odgovorne za održavanje kvaliteta podataka, koje će informacije koje se dobijaju iz sistema za obradu transakcija stalno provjeravati sa podacima u skladištu ili izlogu.

U zaključku, može se napomenuti da je proces dizajna skladišta podataka koji se koristi za pružanje potrebnih informacija u procesu donošenja odluka na korporativnom i međukorporativnom nivou od ključnog značaja za život preduzeća. U fazi njegove implementacije, morate obratiti pažnju ne samo na rješenje tehnička pitanja, ali i o problemima vezanim za ljudski faktor... Također ne smijemo zaboraviti na potrebu stalnog procjenjivanja izvodljivosti napora koji se ulažu. Pored pravilnog lanca upravljanja projektom, potrebno je u svakoj fazi voditi računa kako o potrebama korisnika, tako io prisutnosti političkih aspekata koji mogu usporiti projekat. Uz pravi pristup rješavanju ovog problema, skladište podataka bi uskoro moglo postati dio komercijalni sistem preduzeća dajući dijelu trećih korisnika uz određenu naknadu mogućnost korištenja podataka iz određenog podskupa skladišta. Ovaj pristup ne samo da će omogućiti da se nadoknadi rad na formiranju skladišta podataka, već će i osigurati novi kanal primanja prihoda.

Evolucija skladišta podataka

Od 1970-ih, organizacije su više zainteresirane za ulaganje u novo kompjuterski sistemi nego da automatiziraju poslovne procese koje koriste. To im je omogućilo da povećaju svoju konkurentnost uvođenjem sistema koji bi korisnicima mogli pružiti efikasniji i jeftiniji skup usluga. Od tada, organizacije su prikupile obilje informacija koje su pohranjene u njihovim operativnim bazama podataka. Ali sada, sa proliferacijom sistema za podršku odlučivanju, organizacije se žele fokusirati na to kako mogu da iskoriste svoju akumuliranu inteligenciju kako bi iz toga stekle dodatnu konkurentnost.

Prethodni sistemi Operativna obrada je osmišljena bez ikakve podrške za takve poslovne zahtjeve, pa je transformacija konvencionalni sistemi OLTP za sisteme za podršku odlučivanju se pokazao kao izuzetno izazovan zadatak... Tipična organizacija obično ima mnogo različiti sistemi operativna obrada sa preklapajućim i ponekad suprotstavljenim definicijama, kao npr različite vrste odabrano da predstavlja iste podatke. Osnovni zadatak organizacije je da akumulirane arhive podataka transformiše u izvor novih znanja, i to na način da se korisniku omogući jedinstven integrisani i konsolidovani pogled na podatke organizacije. Koncept skladišta podataka zamišljen je kao tehnologija sposobna da ispuni zahtjeve sistema za podršku odlučivanju na osnovu informacija iz nekoliko različitih operativnih izvora podataka.

Najrasprostranjeniji pristup stvaranju CD-a predložio je Bill Inmon. Definiše HD ovako:

Skladište podataka. Predmetno orijentisan, integrisan, povezan u to vrijeme i nepromjenjivi skup podataka za podršku odlučivanju.

U gornjoj definiciji, navedene karakteristike podataka se smatraju kako slijedi.

Predmetna orijentacija. Skladište podataka je organizovano oko glavnih stavki (ili aktera) organizacije (na primer, kupci, roba i prodaja), a ne oko oblasti primene (fakturisanje kupcu, kontrola zaliha i prodaja robe). Ovo svojstvo odražava potrebu za pohranjivanjem podataka namijenjenih za podršku odlučivanju, umjesto običnih operativnih podataka.

Integracija. Značenje ove karakteristike je da operativno-aplikacioni podaci obično dolaze iz različitih izvora, koji često imaju nekonzistentan prikaz istih podataka, npr. drugačiji format... Da bi se korisniku pružio jedinstveni, generalizirani pogled na podatke, mora se kreirati integrirani izvor kako bi se osigurala konzistentnost pohranjenih informacija.



Vremensko uvezivanje. Podaci u skladištu su tačni i validni samo ako su vezani za određeni trenutak ili vremenski period. Potreba za vezivanjem skladišta podataka za vrijeme proizlazi iz dugog trajanja perioda za koji su informacije koje su u njemu pohranjene akumulirane, iz eksplicitne ili implicitne povezanosti vremenskih oznaka sa svim pohranjenim podacima, kao i iz činjenice da su pohranjene informacije je zapravo skup snimaka stanja podataka...

Nepromenljivost. To znači da se podaci ne ažuriraju on-line, već se samo redovno dopunjuju informacijama iz sistema za on-line obradu. Istovremeno, novi podaci nikada ne zamjenjuju, već samo dopunjuju stare. Tako se baza podataka skladišta stalno dopunjuje novim podacima, dosljedno integriranim sa već akumuliranim informacijama.

Krajnji cilj stvaranja skladišta podataka je integracija korporativnih podataka u jedno spremište gdje korisnici mogu postavljati upite, pripremati izvještaje i analizirati podatke. Ukratko, tehnologija skladišta podataka je tehnologija za upravljanje i analizu podataka.

Top srodni članci