Cum se configurează smartphone-uri și PC-uri. Portal informativ

sisteme OLAP. Reprezentarea datelor multidimensionale

OLAP(din limba engleză OnLine Analytical Processing - prelucrarea operațională a datelor analitice, de asemenea: prelucrarea datelor analitice în timp real, prelucrarea interactivă a datelor analitice) - o abordare a procesării datelor analitice bazată pe reprezentarea lor ierarhică multidimensională, care face parte din domeniul mai larg al informațiilor tehnologie - business -analists ().

Pentru un catalog de soluții și proiecte OLAP, consultați secțiunea OLAP despre TAdviser.

Din punctul de vedere al utilizatorului, OLAP-sistemele oferă instrumente pentru vizualizarea flexibilă a informațiilor din diverse secțiuni, primirea automată a datelor agregate, efectuarea de operațiuni analitice de convoluție, detaliere și comparare în timp. Toate acestea fac din sistemele OLAP o soluție cu avantaje evidente în domeniul pregătirii datelor pentru toate tipurile de raportare de afaceri, implicând prezentarea datelor în diverse secțiuni și diferite niveluri de ierarhie - de exemplu, rapoarte de vânzări, diverse forme de bugete etc. pe. Avantajele unei astfel de reprezentări în alte forme de analiză a datelor, inclusiv prognoza, sunt evidente.

Cerințe pentru sistemele OLAP. FASMI

Cerința cheie pentru sistemele OLAP este viteza, care le permite să fie utilizate în procesul de lucru interactiv al unui analist cu informații. În acest sens, sistemele OLAP sunt puse în contrast, în primul rând, cu RDBMS tradiționale, mostre din care cu interogări tipice pentru analiști care folosesc gruparea și agregarea datelor sunt de obicei costisitoare în ceea ce privește timpul de așteptare și încărcarea RDBMS, astfel încât lucrul interactiv cu acestea pentru orice volumele semnificative de date sunt complexe. În al doilea rând, sistemele OLAP se opun, de asemenea, prezentării obișnuite în fișiere plate a datelor, de exemplu, sub formă de foi de calcul tradiționale utilizate frecvent, prezentarea datelor multidimensionale în care este complexă și nu intuitivă și operațiuni pentru schimbarea slice - puncte. de vedere asupra datelor - necesită, de asemenea, timp și complică munca interactivă cu datele.

În același timp, pe de o parte, cerințele de date specifice sistemelor OLAP implică de obicei stocarea datelor în structuri speciale optimizate pentru sarcini tipice OLAP; pe de altă parte, extragerea directă a datelor din sistemele existente în timpul procesului de analiză ar duce la o scădere semnificativă. în performanța lor.

Prin urmare, o cerință importantă este asigurarea celei mai flexibile legături de import-export între sistemele existente care acționează ca sursă de date și un sistem OLAP, precum și un sistem OLAP și aplicații externe de analiză și raportare a datelor.

Mai mult, o astfel de combinație trebuie să satisfacă cerințele evidente de susținere a import-export din mai multe surse de date, implementarea procedurilor de curățare și transformare a datelor, unificarea clasificatoarelor și cărților de referință utilizate. În plus, aceste cerințe sunt completate de necesitatea de a lua în considerare diferite cicluri de actualizare a datelor în sistemele informaționale existente și de a unifica nivelul necesar de detaliere a datelor. Complexitatea și versatilitatea acestei probleme au condus la apariția conceptului de depozite de date și, în sens restrâns, la identificarea unei clase separate de utilități de conversie și transformare a datelor - ETL (Extract Transform Load).

Modele active de stocare a datelor

Am indicat mai sus că OLAP presupune o reprezentare ierarhică multidimensională a datelor și, într-un sens, se opune sistemelor bazate pe RDBMS.

Acest lucru, totuși, nu înseamnă că toate sistemele OLAP utilizează un model multidimensional pentru a stoca date de sistem active, „funcționale”. Întrucât modelul activ de stocare a datelor influențează toate cerințele dictate de testul FASMI, importanța acestuia este subliniată de faptul că tocmai pe această bază se disting în mod tradițional subtipurile OLAP - multidimensionale (MOLAP), relaționale (ROLAP) și hibride (HOLAP).

Cu toate acestea, unii experți, conduși de cei menționate mai sus Nigel Pends, indică faptul că clasificarea bazată pe un criteriu nu este suficient de completă. Mai mult, marea majoritate a sistemelor OLAP existente vor fi de tip hibrid. Prin urmare, ne vom opri mai detaliat asupra modelelor active de stocare a datelor, menționând care dintre ele corespund cărora dintre subtipurile tradiționale OLAP.

Stocarea datelor active într-o bază de date multidimensională

În acest caz, datele OLAP sunt stocate în SGBD-uri multidimensionale care utilizează modele optimizate pentru acest tip de date. De obicei, SGBD-urile multidimensionale acceptă toate operațiunile OLAP tipice, inclusiv agregarea de-a lungul nivelurilor de ierarhie necesare și așa mai departe.

Acest tip de stocare a datelor, într-un sens, poate fi numit clasic pentru OLAP. Cu toate acestea, toți pașii pentru pregătirea preliminară a datelor sunt pe deplin necesari pentru aceasta. De obicei, datele DBMS multidimensionale sunt stocate pe disc, cu toate acestea, în unele cazuri, pentru a accelera procesarea datelor, astfel de sisteme permit stocarea datelor în RAM. În aceleași scopuri, se folosește uneori stocarea valorilor agregate precalculate și a altor valori calculate în baza de date.

SGBD-urile multidimensionale care acceptă pe deplin accesul multi-utilizator cu tranzacții concurente de citire și scriere sunt destul de rare; modul obișnuit pentru astfel de SGBD-uri este un singur utilizator cu acces de scriere cu acces de citire multi-utilizator sau numai citire multi-utilizator.

Printre deficiențele caracteristice unor implementări de SGBD-uri multidimensionale și sisteme OLAP bazate pe acestea, se remarcă susceptibilitatea acestora la o creștere imprevizibilă a cantității de spațiu ocupat de baza de date din punct de vedere al utilizatorului. Acest efect este cauzat de dorința de a minimiza timpul de reacție al sistemului, care impune stocarea valorilor precalculate ale indicatorilor agregați și a altor cantități în baza de date, ceea ce determină o creștere neliniară a volumului de informații stocate în baza de date cu adăugarea de noi valori sau măsurători de date.

Măsura în care se manifestă această problemă, precum și problemele aferente stocării eficiente a cuburilor de date rare, este determinată de calitatea abordărilor și algoritmilor utilizați pentru implementările specifice ale sistemelor OLAP.

Stocarea datelor active într-o bază de date relațională

Datele OLAP pot fi stocate și într-un RDBMS tradițional. În majoritatea cazurilor, această abordare este utilizată atunci când se încearcă integrarea „nedureroasă” a OLAP cu sistemele de contabilitate existente sau cu depozitele de date bazate pe RDBMS. În același timp, această abordare necesită unele capacități suplimentare din partea RDBMS pentru a asigura îndeplinirea efectivă a cerințelor testului FASMI (în special, asigurarea timpului minim de răspuns al sistemului). De obicei, datele OLAP sunt stocate în formă denormalizată, iar unele dintre agregatele și valorile precalculate sunt stocate în tabele speciale. Când este stocat într-o formă normalizată, eficacitatea RDBMS ca metodă de stocare a datelor active scade.

Problema alegerii unor abordări și algoritmi eficienți pentru stocarea datelor precalculate este relevantă și pentru sistemele OLAP bazate pe RDBMS, astfel încât producătorii de astfel de sisteme se concentrează de obicei pe meritele abordărilor utilizate.

În general, se crede că sistemele OLAP bazate pe RDBMS sunt mai lente decât sistemele bazate pe SGBD-uri multidimensionale, inclusiv datorită structurilor de stocare a datelor care sunt mai puțin eficiente pentru sarcinile OLAP, dar în practică acest lucru depinde de caracteristicile unui anumit sistem.

Printre avantajele stocării datelor într-un RDBMS se numără scalabilitatea mai mare a unor astfel de sisteme.

Stocarea datelor active în fișiere plate

Această abordare implică stocarea unor bucăți de date în fișiere obișnuite. De obicei, este folosit ca o completare la una dintre cele două abordări principale pentru a accelera munca prin memorarea în cache a datelor curente pe disc sau în memoria RAM a computerului client.

Abordare hibridă a stocării datelor

Majoritatea producătorilor de sisteme OLAP care își promovează soluțiile cuprinzătoare, incluzând adesea, pe lângă sistemul OLAP în sine, DBMS, ETL (Extract Transform Load) și instrumente de raportare, utilizează în prezent o abordare hibridă pentru organizarea stocării datelor sistemului activ, distribuirea acestora. într-un fel sau altul între RDBMS și stocarea specializată, precum și între structurile de disc și caching-ul în memorie.

Deoarece eficacitatea unei astfel de soluții depinde de abordările și algoritmii specifici utilizați de producător pentru a determina dacă ce date și unde să stocați, apoi trageți în grabă concluzii despre eficiența inițial mai mare a unor astfel de soluții ca clasă, fără a evalua caracteristicile specifice ale sistemului luat în considerare.

OLAP(ing. procesare analitică on-line) – un set de metode de procesare dinamică a interogărilor multidimensionale în baze de date analitice. Astfel de surse de date sunt de obicei destul de mari ca volum, iar una dintre cele mai importante cerințe în instrumentele utilizate pentru procesarea lor este viteza mare. În bazele de date relaționale, informațiile sunt stocate în tabele separate care sunt bine normalizate. Dar interogările complexe multi-tabele sunt executate destul de lent în ele. Performanța semnificativ mai bună în ceea ce privește viteza de procesare în sistemele OLAP este obținută datorită particularităților structurii de stocare a datelor. Toate informațiile sunt organizate în mod clar și sunt utilizate două tipuri de stocare a datelor: măsurători(conțin directoare împărțite pe categorii, de exemplu, puncte de vânzare, clienți, angajați, servicii etc.) și date(caracterizează interacțiunea elementelor de diferite dimensiuni, de exemplu, la 3 martie 2010, vânzătorul A a furnizat un serviciu clientului B în magazinul C pentru suma de D unități monetare). Măsurile sunt folosite pentru a calcula rezultatele în Cubul de analiză. Măsurile sunt colecții de fapte agregate după dimensiunile selectate corespunzătoare și elementele acestora. Datorită acestor caracteristici, interogările complexe cu date multidimensionale durează mult mai puțin decât cu sursele relaționale.

Unul dintre principalii furnizori de sisteme OLAP este Microsoft Corporation. Să ne uităm la implementarea principiilor OLAP folosind exemple practice de creare a unui cub analitic în aplicațiile Microsoft SQL Server Business Intelligence Development Studio (BIDS) și Microsoft Office PerformancePoint Server Planning Business Modeler (PPS) și să ne familiarizăm cu posibilitățile de reprezentare vizuală multidimensională. date sub formă de grafice, diagrame și tabele.

De exemplu, în BIDS este necesar să se creeze un cub OLAP folosind date despre o companie de asigurări, angajații acesteia, partenerii (clienții) și punctele de vânzare. Să presupunem că compania oferă un singur tip de serviciu, deci nu va fi necesară măsurarea serviciilor.

Mai întâi să definim măsurătorile. Următoarele entități (categorii de date) sunt asociate cu activitățile companiei:

  • Puncte de vânzare
    - Angajati
    - Parteneri
De asemenea, creează dimensiunile Timp și Scenariu, care sunt necesare pentru orice cub.
Apoi, aveți nevoie de un tabel pentru a stoca fapte (tabel de fapte).
Informațiile pot fi introduse manual în tabele, dar cea mai obișnuită modalitate este de a încărca date folosind Expertul de import din diverse surse.
Următoarea figură arată fluxul de creare și completare manuală a tabelelor de dimensiuni și fapte:

Fig.1. Tabele de dimensiuni și fapte în baza de date analitică. Secvența de creație
După crearea unei surse de date multidimensionale în BIDS, puteți vizualiza prezentarea acesteia (Vizualizarea sursei de date). În exemplul nostru, vom obține circuitul prezentat în figura de mai jos.


Fig.2. Vizualizare sursă de date în Business Intelligence Development Studio (BIDS)

După cum puteți vedea, tabelul de fapte este conectat la tabelele de dimensiuni printr-o corespondență unu-la-unu a câmpurilor de identificare (PartnerID, EmployeeID etc.).

Să ne uităm la rezultat. Pe fila Cube explorer, prin tragerea de măsuri și dimensiuni în câmpurile de totaluri, rânduri, coloane și filtre, putem obține o vizualizare a datelor de interes (de exemplu, tranzacții încheiate pe contracte de asigurare încheiate de un anumit angajat în 2005).

În 1993, fondatorul abordării relaționale a construcției bazelor de date, Edgar Codd și partenerii săi (Edgar Codd, matematician și coleg IBM), au publicat un articol inițiat de Arbor Software (azi celebra companie Hyperion Solutions), intitulat „Providing OLAP ( procesare analitică online) pentru utilizatorii analitici”, care a formulat 12 caracteristici ale tehnologiei OLAP, care au fost completate ulterior cu încă șase. Aceste prevederi au devenit conținutul principal al unei tehnologii noi și foarte promițătoare.

Principalele caracteristici ale tehnologiei OLAP (de bază):

  • reprezentarea conceptuală multidimensională a datelor;
  • manipularea intuitivă a datelor;
  • disponibilitatea și detaliile datelor;
  • extragerea datelor pe lot vs. interpretare;
  • Modele de analiză OLAP;
  • arhitectura client-server (OLAP accesibil de pe desktop);
  • transparență (acces transparent la date externe);
  • suport multi-utilizator.

Caracteristici speciale:

  • prelucrarea datelor neformalizate;
  • salvarea rezultatelor OLAP: stocarea lor separat de datele sursă;
  • excluderea valorilor lipsă;
  • Gestionarea valorilor lipsă.

Caracteristici de prezentare a raportului:

  • flexibilitate în raportare;
  • performanța standard de raportare;
  • configurarea automată a stratului fizic de extracție a datelor.

Managementul dimensiunilor:

  • universalitatea măsurătorilor;
  • număr nelimitat de dimensiuni și niveluri de agregare;
  • număr nelimitat de operații între dimensiuni.

Din punct de vedere istoric, astăzi termenul „OLAP” implică nu numai o vizualizare multidimensională a datelor de la utilizatorul final, ci și o vedere multidimensională a datelor din baza de date țintă. Tocmai de aceea, termenii „OLAP relațional” (ROLAP) și „OLAP multidimensional” (MOLAP) au apărut ca termeni independenți.

Serviciul OLAP este un instrument de analiză a unor volume mari de date în timp real. Prin interacțiunea cu sistemul OLAP, utilizatorul va putea vizualiza informațiile în mod flexibil, obține secțiunile de date arbitrare și va efectua operațiuni analitice de detaliere, derulare, distribuție de la capăt la capăt și comparare în timp, folosind mai mulți parametri simultan. Toate lucrările cu sistemul OLAP au loc din punct de vedere al domeniului subiectului și vă permite să construiți modele statistice solide ale situației afacerii.

Software-ul OLAP este un instrument pentru analiza operațională a datelor conținute într-un depozit. Caracteristica principală este că aceste instrumente sunt destinate utilizării nu de către un specialist în domeniul tehnologiei informației, nu de către un expert statistician, ci de către un profesionist în domeniul aplicat al managementului - un manager al unui departament, departament, management și , în sfârșit, un director. Instrumentele sunt concepute pentru a permite analistului să comunice cu problema, nu cu computerul. În fig. Figura 6.14 prezintă un cub OLAP de bază care vă permite să evaluați datele pe trei dimensiuni.


Un cub OLAP multidimensional și un sistem de algoritmi matematici corespunzători pentru procesarea statistică vă permit să analizați date de orice complexitate la orice interval de timp.

Orez. 6.14. Cub OLAP elementar

Având la dispoziție mecanisme flexibile de manipulare a datelor și afișare vizuală (Fig. 6.15, Fig. 6.16), managerul examinează mai întâi din unghiuri diferite datele care pot (sau nu) să aibă legătură cu problema rezolvată.

În continuare, el compară diverși indicatori de afaceri între ei, încercând să identifice relații ascunse; poate analiza datele mai îndeaproape, în detaliu, de exemplu, defalcându-le în componente în funcție de timp, regiune sau client sau, dimpotrivă, generalizează și mai mult prezentarea informațiilor pentru a elimina detaliile care distrag atenția. După aceasta, folosind modulul de evaluare și simulare statistică, se construiesc mai multe opțiuni pentru desfășurarea evenimentelor, iar dintre acestea este selectată cea mai acceptabilă opțiune.

Orez. 6.15.

Un manager de companie, de exemplu, poate avea o ipoteză că răspândirea creșterii activelor în diferite ramuri ale companiei depinde de proporția specialiștilor cu educație tehnică și economică în cadrul acestora. Pentru a testa această ipoteză, managerul poate solicita de la depozit și afișa pe grafic raportul dobânzii pentru acele sucursale a căror creștere a activelor în trimestrul curent a scăzut cu peste 10% față de anul trecut, și pentru cele care au crescut cu mai mult de 25%. Ar trebui să poată utiliza o selecție simplă din meniul oferit. Dacă rezultatele obținute se încadrează în mod semnificativ în două grupuri corespunzătoare, atunci acesta ar trebui să devină un stimulent pentru testarea ulterioară a ipotezei prezentate.

În prezent, o direcție numită modelare dinamică (Dynamic Simulation), care implementează pe deplin principiul FASMI menționat mai sus, a primit o dezvoltare rapidă.

Folosind modelarea dinamică, analistul construiește un model al unei situații de afaceri care se dezvoltă în timp, conform unui anumit scenariu. Mai mult, rezultatul unei astfel de modelări poate fi mai multe situații noi de afaceri, generând un arbore de soluții posibile cu o evaluare a probabilității și perspectivelor fiecăreia.

Orez. 6.16. SI analitic pentru extragerea datelor, prelucrarea si prezentarea informatiilor

Tabelul 6.3 prezintă caracteristicile comparative ale analizei statice și dinamice.

Conceptul de tehnologie OLAP a fost formulat de Edgar Codd în 1993.

Această tehnologie se bazează pe construcția de seturi de date multidimensionale - așa-numitele cuburi OLAP (nu neapărat tridimensionale, după cum s-ar putea concluziona din definiție). Scopul utilizării tehnologiilor OLAP este de a analiza datele și de a prezenta această analiză într-o formă convenabilă pentru ca personalul de management să înțeleagă și să ia decizii pe baza acestora.

Cerințe de bază pentru aplicațiile de analiză multivariată:

  • - furnizarea utilizatorului a rezultatelor analizei într-un timp acceptabil (nu mai mult de 5 s);
  • - acces multi-utilizator la date;
  • - prezentarea datelor multidimensionale;
  • - capacitatea de a accesa orice informație indiferent de locația și volumul de stocare.

Instrumentele sistemului OLAP oferă posibilitatea de a sorta și selecta datele în funcție de condițiile specificate. Pot fi specificate diverse condiții calitative și cantitative.

Principalul model de date utilizat în numeroase instrumente pentru crearea și întreținerea bazelor de date - DBMS - este modelul relațional. Datele din acesta sunt prezentate sub forma unui set de tabele de relații bidimensionale conectate prin câmpuri cheie. Pentru a elimina dublarea, inconsecvența și reducerea costurilor cu forța de muncă pentru întreținerea bazelor de date, este utilizat un aparat formal pentru normalizarea tabelelor de entități. Cu toate acestea, utilizarea sa este asociată cu timpul suplimentar petrecut pentru generarea de răspunsuri la interogările bazei de date, deși resursele de memorie sunt salvate.

Un model de date multidimensional reprezintă obiectul studiat sub forma unui cub multidimensional; un model tridimensional este mai des folosit. Dimensiunile sau detaliile atributelor sunt trasate de-a lungul axelor sau fețelor cubului. Atributele de bază sunt umplerea celulelor cubului. Un cub multidimensional poate fi reprezentat printr-o combinație de cuburi tridimensionale pentru a facilita percepția și prezentarea atunci când se generează documente de raportare și analitice și prezentări multimedia bazate pe materiale de lucru analitice într-un sistem de suport decizional.

În cadrul tehnologiilor OLAP, pe baza faptului că o reprezentare multidimensională a datelor poate fi organizată atât prin intermediul SGBD-urilor relaționale, cât și prin instrumente specializate multidimensionale, se disting trei tipuri de sisteme OLAP multidimensionale:

  • - OLAP-MOLAP multidimensional;
  • - OLAP-ROLAP relaţional;
  • - mixt sau hibrid (Hibrid) OLAP-HOLAP.

În SGBD-urile multidimensionale, datele sunt organizate nu sub formă de tabele relaționale, ci sub formă de tablouri multidimensionale ordonate sub formă de hipercuburi, când toate datele stocate trebuie să aibă aceeași dimensiune, ceea ce înseamnă necesitatea de a forma cea mai completă bază de dimensiuni. Datele pot fi organizate sub formă de policuburi; în această opțiune, valorile fiecărui indicator sunt stocate cu propriul set de dimensiuni, iar prelucrarea datelor este efectuată de instrumentul propriu al sistemului. Structura de depozitare în acest caz este simplificată, deoarece nu este nevoie de o zonă de stocare a datelor într-o formă multidimensională sau orientată pe obiecte. Costurile uriașe ale forței de muncă pentru crearea modelelor și sistemelor de conversie a datelor dintr-un model relațional într-un model obiect sunt reduse.

Avantajele MOLAP sunt:

  • - primirea mai rapidă a răspunsurilor la solicitări decât cu ROLAP - timpul petrecut este cu unul sau două ordine de mărime mai mic;
  • - Limitările SQL fac dificilă implementarea multor funcții încorporate.

Limitările MOLAP includ:

  • - baze de date relativ mici;
  • - datorită denormalizării și agregării preliminare, tablourile multidimensionale folosesc de 2,5-100 de ori mai multă memorie decât datele originale (consumul de memorie crește exponențial pe măsură ce crește numărul de dimensiuni);
  • - nu există standarde pentru interfața și mijloacele de manipulare a datelor;
  • - există restricții la încărcarea datelor.

Costurile forței de muncă pentru crearea de date multidimensionale cresc brusc, deoarece... În această situație, practic nu există mijloace specializate de obiectivare a modelului relațional al datelor conținute în depozitul de informații. Timpii de răspuns la interogări nu pot îndeplini adesea cerințele pentru sistemele OLAP.

Avantajele sistemelor ROLAP sunt:

  • - capacitatea de a analiza rapid datele continute direct in depozit, deoarece majoritatea bazelor de date sursă sunt relaționale;
  • - cu o dimensiune variabilă a problemei, RO-LAP câștigă, pentru că nu este necesară reorganizarea fizică a bazei de date;
  • - Sistemele ROLAP pot folosi stații și servere client mai puțin puternice, iar serverele suportă principala povară a procesării interogărilor SQL complexe;
  • - nivelul de protecție a informațiilor și diferențierea drepturilor de acces în SGBD-urile relaționale este incomparabil mai ridicat decât în ​​cele multidimensionale.

Dezavantajul sistemelor ROLAP este productivitatea mai scăzută, necesitatea dezvoltării cu atenție a schemelor bazei de date, reglarea specială a indicilor, analiza statisticilor interogărilor și luarea în considerare a rezultatelor analizei la modificarea schemelor bazei de date, ceea ce duce la costuri suplimentare semnificative ale forței de muncă.

Îndeplinirea acestor condiții permite, la utilizarea sistemelor ROLAP, realizarea unor indicatori similari sistemelor MOLAP în ceea ce privește timpul de acces, precum și depășirea acestora în economii de memorie.

Sistemele hibride OLAP sunt o combinație de instrumente care implementează un model de date relațional și multidimensional. Acest lucru vă permite să reduceți dramatic costurile cu resursele pentru crearea și menținerea unui astfel de model și timpul de răspuns la solicitări.

Această abordare folosește avantajele primelor două abordări și compensează dezavantajele acestora. Acest principiu este implementat în cele mai dezvoltate produse software în acest scop.

Utilizarea arhitecturii hibride în sistemele OLAP este cea mai potrivită modalitate de rezolvare a problemelor asociate cu utilizarea instrumentelor software în analiza multidimensională.

Modul de detectare a modelului se bazează pe procesarea inteligentă a datelor. Sarcina principală aici este de a identifica modele în procesele studiate, relațiile și influența reciprocă a diferiților factori, căutarea abaterilor „neobișnuite” mari și prezicerea cursului diferitelor procese semnificative. Această zonă se referă la data mining.

4. Clasificarea produselor OLAP.

5. Principiile de funcționare ale clienților OLAP.

7. Domenii de aplicare a tehnologiilor OLAP.

8. Un exemplu de utilizare a tehnologiilor OLAP pentru analiză în vânzări.

1. Locul OLAP în structura informaţională a întreprinderii.

Termenul „OLAP” este indisolubil legat de termenul „depozit de date” (Data Warehouse).

Datele din depozit provin din sisteme operaționale (sisteme OLTP), care sunt concepute pentru a automatiza procesele de afaceri. În plus, depozitul poate fi completat din surse externe, cum ar fi rapoartele statistice.

Scopul depozitului este de a furniza „materia primă” pentru analiză într-un singur loc și într-o structură simplă, ușor de înțeles.

Mai există un motiv care justifică apariția unei stocări separate - interogările analitice complexe pentru informații operaționale încetinesc activitatea curentă a companiei, blocând tabelele pentru o lungă perioadă de timp și confiscând resursele serverului.

Un depozit nu înseamnă neapărat o acumulare gigantică de date - principalul lucru este că este convenabil pentru analiză.

Centralizarea și structurarea convenabilă nu sunt tot ceea ce are nevoie un analist. Mai are nevoie de un instrument pentru vizualizarea și vizualizarea informațiilor. Rapoartelor tradiționale, chiar și cele construite pe un singur depozit, le lipsește un singur lucru - flexibilitatea. Ele nu pot fi „răsucite”, „extinse” sau „restrânse” pentru a obține vizualizarea dorită a datelor. Dacă ar avea un instrument care să-i permită să extindă și să restrângă datele simplu și convenabil! OLAP acționează ca un astfel de instrument.

Deși OLAP nu este un atribut necesar al unui depozit de date, acesta este din ce în ce mai folosit pentru a analiza informațiile acumulate în depozit.

Locul OLAP în structura informațională a unei întreprinderi (Fig. 1).

Poza 1. LocOLAP în structura informaţională a întreprinderii

Datele operaționale sunt colectate din diverse surse, curățate, integrate și stocate într-un magazin relațional. În plus, acestea sunt deja disponibile pentru analiză folosind diverse instrumente de raportare. Apoi datele (în întregime sau parțial) sunt pregătite pentru analiza OLAP. Acestea pot fi încărcate într-o bază de date OLAP specială sau stocate în stocare relațională. Cel mai important element al său sunt metadatele, adică informații despre structura, plasarea și transformarea datelor. Datorită acestora, este asigurată interacțiunea eficientă a diferitelor componente de stocare.

Pentru a rezuma, putem defini OLAP ca un set de instrumente pentru analiza multidimensională a datelor acumulate într-un depozit.

2. Prelucrare operațională a datelor analitice.

Conceptul OLAP se bazează pe principiul reprezentării multidimensionale a datelor. În 1993, E. F. Codd a abordat deficiențele modelului relațional, subliniind în primul rând incapacitatea de a „fuziona, vizualiza și analiza datele în termeni de dimensiuni multiple, adică în cel mai înțeles mod pentru analiștii de întreprindere”, și a definit cerințele generale pentru sistemele OLAP care extind funcționalitatea SGBD relațional și includ analiza multidimensională ca una dintre caracteristicile sale.

Potrivit Codd, o viziune conceptuală multidimensională este o perspectivă multiplă constând din mai multe dimensiuni independente de-a lungul cărora pot fi analizate seturi specifice de date.

Analiza simultană pe mai multe dimensiuni este definită ca analiză multivariată. Fiecare dimensiune include zone de consolidare a datelor, constând dintr-o serie de niveluri succesive de generalizare, unde fiecărui nivel superior îi corespunde un grad mai mare de agregare a datelor pentru dimensiunea corespunzătoare.

Astfel, dimensiunea Performer poate fi determinată de direcția de consolidare, constând din nivelurile de generalizare „întreprindere – divizie – departament – ​​angajat”. Dimensiunea Timp poate include chiar și două direcții de consolidare - „an - trimestru - lună - zi” și „săptămână - zi”, deoarece numărarea timpului pe lună și pe săptămână este incompatibilă. În acest caz, devine posibil să se selecteze în mod arbitrar nivelul dorit de detaliu al informațiilor pentru fiecare dintre dimensiuni.

Operatia de coborare (drill down) corespunde deplasarii de la stadiile superioare de consolidare la cele inferioare; dimpotrivă, operația de ridicare (rularea) înseamnă deplasarea de la nivelurile inferioare la cele superioare (Fig. 2).


Figura 2.Dimensiunile și direcțiile consolidării datelor

3. Cerințe pentru instrumentele de procesare analitică online.

Abordarea multidimensională a apărut aproape simultan și în paralel cu cea relațională. Cu toate acestea, abia începând de la mijlocul anilor nouăzeci, sau mai degrabă de la
1993, interes pentru MDBMS a început să se răspândească. Anul acesta a apărut un nou articol programatic al unuia dintre fondatorii abordării relaționale E. Codda, în care a formulat 12 cerințe de bază pentru mijloacele de implementare OLAP(Tabelul 1).

Tabelul 1.

Reprezentarea datelor multidimensionale

Instrumentele trebuie să susțină o viziune conceptuală multidimensională a datelor.

Transparenţă

Utilizatorul nu trebuie să știe ce instrumente specifice sunt folosite pentru stocarea și procesarea datelor, cum sunt organizate datele și de unde provin.

Disponibilitate

Instrumentele în sine trebuie să selecteze și să contacteze cea mai bună sursă de date pentru a genera un răspuns la o anumită solicitare. Instrumentele trebuie să poată mapa automat propria logică la diverse surse de date eterogene.

Performanță constantă

Performanța ar trebui să fie practic independentă de numărul de dimensiuni din interogare.

Suport arhitectură client-server

Instrumentele trebuie să funcționeze într-o arhitectură client-server.

Egalitatea tuturor dimensiunilor

Niciuna dintre dimensiuni nu trebuie să fie de bază; toate trebuie să fie egale (simetrice).

Prelucrarea dinamică a matricelor rare

Valorile nedefinite trebuie stocate și tratate în cel mai eficient mod posibil.

Suport pentru modul multi-utilizator de lucru cu date

Instrumentele trebuie să ofere posibilitatea de a lucra mai mult de un utilizator.

Sprijină operațiuni bazate pe diferite dimensiuni

Toate operațiunile multidimensionale (cum ar fi agregarea) trebuie aplicate uniform și consecvent oricărui număr de dimensiuni.

Ușurință în manipularea datelor

Instrumentele trebuie să aibă cea mai convenabilă, naturală și confortabilă interfață de utilizator.

Instrumente avansate de prezentare a datelor

Instrumentele trebuie să accepte diverse moduri de vizualizare (prezentare) a datelor.

Număr nelimitat de dimensiuni și niveluri de agregare a datelor

Nu ar trebui să existe nicio limitare a numărului de dimensiuni acceptate.

Reguli pentru evaluarea produselor software din clasa OLAP

Setul acestor cerințe, care a servit drept definiție reală a OLAP, ar trebui să fie considerat ca un ghid, iar produsele specifice ar trebui evaluate în funcție de gradul în care se apropie de îndeplinirea perfectă a tuturor cerințelor.

Definiția lui Codd a fost revizuită ulterior în așa-numitul test FASMI, care necesită ca aplicația OLAP să ofere capacitatea de a analiza rapid informațiile multidimensionale partajate.

Amintirea celor 12 reguli ale lui Codd este prea împovărătoare pentru majoritatea oamenilor. Se pare că putem rezuma definiția OLAP cu doar cinci cuvinte cheie: Analiza rapidă a informațiilor multidimensionale partajate - sau, pe scurt - FASMI (tradus din engleză:F ast A analiza S hared M ultradimensional eu informație).

Această definiție a fost formulată pentru prima dată la începutul anului 1995 și de atunci nu a mai trebuit să fie revizuită.

RAPID ( Rapid ) - înseamnă că sistemul ar trebui să fie capabil să ofere cele mai multe răspunsuri utilizatorilor în aproximativ cinci secunde. În același timp, cele mai simple cereri sunt procesate într-o secundă și foarte puține - mai mult de 20 de secunde. Cercetările au arătat că utilizatorii finali percep un proces ca nereușit dacă rezultatele nu sunt obținute după 30 de secunde.

La prima vedere, poate părea surprinzător că, atunci când primește un raport într-un minut care nu cu mult timp în urmă a durat zile, utilizatorul se plictisește foarte repede în timp ce așteaptă, iar proiectul se dovedește a fi mult mai puțin reușit decât în ​​cazul unei instante. răspuns, chiar și cu prețul unei analize mai puțin detaliate.

ANALIZĂînseamnă că sistemul poate gestiona orice analiză logică și statistică specifică unei aplicații date și asigură că aceasta este stocată într-o formă accesibilă utilizatorului final.

Nu este atât de important dacă analiza este efectuată în instrumentele proprii ale vânzătorului sau într-un produs software extern asociat, cum ar fi o foaie de calcul, doar că toate funcționalitățile de analiză necesare trebuie furnizate într-un mod intuitiv pentru utilizatorii finali. Instrumentele de analiză ar putea include anumite proceduri, cum ar fi analiza seriilor temporale, alocarea costurilor, transferurile valutare, căutările țintelor, modificarea structurilor multidimensionale, modelarea non-procedurală, detectarea excepțiilor, extragerea datelor și alte operațiuni dependente de aplicație. Astfel de capabilități variază foarte mult între produse, în funcție de orientarea țintei.

IMPARTIT înseamnă că sistemul implementează toate cerințele de protecție a confidențialității (eventual până la nivelul celulei) și, dacă este necesar acces multiplu la scriere, se asigură că modificările sunt blocate la nivelul corespunzător. Nu toate aplicațiile necesită rescrierea datelor. Cu toate acestea, numărul de astfel de aplicații este în creștere, iar sistemul trebuie să poată face față modificărilor multiple în timp util și sigur.

MULTIDIMENSIONAL (Multidimensional) - aceasta este o cerință cheie. Dacă ar trebui să definiți OLAP într-un singur cuvânt, l-ați alege. Sistemul trebuie să ofere o vedere conceptuală multidimensională a datelor, inclusiv suport complet pentru ierarhii și ierarhii multiple, deoarece acesta este în mod clar cel mai logic mod de a analiza afacerile și organizațiile. Nu există un număr minim de dimensiuni care trebuie procesate, deoarece acest lucru depinde și de aplicație, iar majoritatea produselor OLAP au un număr suficient de dimensiuni pentru piețele pe care le vizează.

INFORMAȚIE - asta este tot. Informațiile necesare trebuie obținute acolo unde este nevoie. Totuși, multe depind de aplicație. Puterea diferitelor produse este măsurată în funcție de câte date de intrare pot procesa, dar nu de câți gigaocteți pot stoca. Puterea produselor variază foarte mult - cele mai mari produse OLAP pot gestiona de cel puțin o mie de ori mai multe date decât cele mai mici. Există mulți factori de luat în considerare în acest sens, inclusiv duplicarea datelor, cerințele RAM, utilizarea spațiului pe disc, parametrii de performanță, integrarea cu depozitele de informații etc.

Testul FASMI este o definiție rezonabilă și de înțeles a obiectivelor pe care OLAP își propune să le atingă.

4. ClasificareOLAP-produse.

Deci, esența OLAP constă în faptul că informațiile inițiale pentru analiză sunt prezentate sub forma unui cub multidimensional și este posibilă manipularea în mod arbitrar și obținerea secțiunilor de informații necesare - rapoarte. În acest caz, utilizatorul final vede cubul ca pe un tabel dinamic multidimensional care rezumă automat datele (fapte) în diferite secțiuni (dimensiuni) și permite gestionarea interactivă a calculelor și formularului de raport. Implementarea acestor operațiuni este asigurată OLAP -mașină (sau mașină calcule OLAP).

Astăzi, în lume au fost dezvoltate multe produse care se vând OLAP -tehnologii. Pentru a facilita navigarea între ele, sunt folosite clasificări OLAP -produse: prin metoda de stocare a datelor pentru analiza si dupa localizare OLAP - mașini. Să aruncăm o privire mai atentă la fiecare categorie produse OLAP.

Clasificarea după metoda de stocare a datelor

Cuburile multidimensionale sunt construite pe baza datelor sursă și agregate. Atât datele sursă, cât și cele agregate pentru cuburi pot fi stocate atât în ​​baze de date relaționale, cât și în baze de date multidimensionale. Prin urmare, în prezent sunt utilizate trei metode de stocare a datelor: MOLAP (OLAP multidimensional), ROLAP (OLAP relațional) și HOLAP (OLAP hibrid) ). Respectiv, OLAP -produsele după metoda de stocare a datelor se împart în trei categorii similare:

1. În cazul MOLAP , datele sursă și agregate sunt stocate într-o bază de date multidimensională sau într-un cub local multidimensional.

2. În ROLAP -datele sursă ale produselor sunt stocate în baze de date relaționale sau în tabele locale plate pe un server de fișiere. Datele agregate pot fi plasate în tabele de servicii din aceeași bază de date. Conversia datelor dintr-o bază de date relațională în cuburi multidimensionale are loc la cerere instrumente OLAP.

3. În caz de utilizare HOLAP arhitectura, datele originale raman in baza de date relationala, iar agregatele sunt plasate in cea multidimensionala. Constructie OLAP -cub executat la cerere OLAP - instrumente bazate pe date relaționale și multidimensionale.

Clasificare după locație OLAP- mașini.

Pe această bază OLAP -produsele se împart în Servere OLAP și clienți OLAP:

· În serverul OLAP - mijloacele de calcul și stocare a datelor agregate se realizează printr-un proces separat - serverul. Aplicația client primește doar rezultatele interogărilor împotriva cuburilor multidimensionale care sunt stocate pe server. niste OLAP -serverele suporta stocarea datelor doar in baze de date relationale, unele doar in cele multidimensionale. Multe moderne OLAP -serverele acceptă toate cele trei metode de stocare a datelor:MOLAP, ROLAP și HOLAP.

MOLAP.

MOLAP este Procesare analitică on-line multidimensională, adică OLAP multidimensional.Aceasta înseamnă că serverul folosește o bază de date multidimensională (MDB) pentru a stoca date. Scopul utilizării MBD este evident. Poate stoca eficient date care sunt de natură multidimensională, oferind un mijloc de deservire rapidă a interogărilor bazei de date. Datele sunt transferate dintr-o sursă de date într-o bază de date multidimensională, iar baza de date este apoi agregată. Precalculul este ceea ce accelerează interogările OLAP, deoarece datele rezumative au fost deja calculate. Timpul de interogare devine o funcție exclusiv a timpului necesar pentru a accesa o singură bucată de date și pentru a efectua calculul. Această metodă susține conceptul că munca se face o dată și rezultatele sunt apoi folosite din nou și din nou. Bazele de date multidimensionale sunt o tehnologie relativ nouă. Utilizarea MBD are aceleași dezavantaje ca majoritatea noilor tehnologii. Și anume, ele nu sunt la fel de stabile ca bazele de date relaționale (RDB) și nu sunt optimizate în aceeași măsură. Un alt punct slab al MDB este incapacitatea de a utiliza majoritatea bazelor de date multidimensionale în procesul de agregare a datelor, astfel încât este nevoie de timp pentru ca noi informații să devină disponibile pentru analiză.

ROLAP.

ROLAP este Procesare analitică relațională on-line, adică OLAP relaţional.Termenul ROLAP înseamnă că serverul OLAP se bazează pe o bază de date relațională. Datele sursă sunt introduse într-o bază de date relațională, de obicei într-o schemă stea sau fulg de zăpadă, ceea ce ajută la reducerea timpului de recuperare. Serverul oferă un model de date multidimensional folosind interogări SQL optimizate.

Există o serie de motive pentru a alege o bază de date relațională și nu multidimensională. RDB este o tehnologie bine stabilită, cu multe oportunități de optimizare. Utilizarea în lumea reală a dus la un produs mai rafinat. În plus, RDB-urile acceptă volume de date mai mari decât MDB-urile. Sunt proiectate precis pentru astfel de volume. Principalul argument împotriva RDB-urilor este complexitatea interogărilor necesare pentru a prelua informații dintr-o bază de date mare folosind SQL. Un programator SQL fără experiență ar putea încărca cu ușurință resurse valoroase de sistem încercând să execute o interogare similară, care este mult mai ușor de executat în MDB.

Date agregate/preagregate.

Implementarea rapidă a interogărilor este un imperativ pentru OLAP. Acesta este unul dintre principiile de bază ale OLAP - capacitatea de a manipula în mod intuitiv datele necesită regăsirea rapidă a informațiilor. În general, cu cât trebuie făcute mai multe calcule pentru a obține o informație, cu atât răspunsul este mai lent. Prin urmare, pentru a reduce timpul de implementare a interogărilor, informațiile care sunt de obicei accesate cel mai des, dar care necesită și calcul, sunt supuse unei agregări preliminare. Adică sunt numărate și apoi stocate în baza de date ca date noi. Un exemplu de tip de date care pot fi calculate în avans sunt datele rezumative - de exemplu, cifrele de vânzări pentru luni, trimestre sau ani, pentru care datele efectiv introduse sunt cifre zilnice.

Diferiți furnizori au metode diferite de selectare a parametrilor, necesitând pre-agregare și numărul de valori precalculate. Abordarea de agregare afectează atât baza de date, cât și timpul de execuție a interogării. Dacă se calculează mai multe valori, probabilitatea ca utilizatorul să solicite o valoare care a fost deja calculată crește și, prin urmare, timpul de răspuns va fi redus prin faptul că nu trebuie să solicite calcularea valorii inițiale. Cu toate acestea, dacă calculați toate valorile posibile - aceasta nu este cea mai bună soluție - în acest caz dimensiunea bazei de date crește semnificativ, ceea ce o va face imposibil de gestionat, iar timpul de agregare va fi prea lung. În plus, atunci când în baza de date sunt adăugate valori numerice sau dacă acestea se modifică, aceste informații trebuie reflectate în valori precalculate care depind de noile date. Astfel, actualizarea bazei de date poate dura mult și în cazul unui număr mare de valori precalculate. Deoarece baza de date rulează de obicei offline în timpul agregării, este de dorit ca timpul de agregare să nu fie prea lung.

OLAP - clientul este structurat diferit. Construcția unui cub multidimensional și OLAP -calculele se fac in memoria calculatorului client.OLAP -clientii sunt si ei impartiti in ROLAP și MOLAP.Și unele pot accepta ambele opțiuni de acces la date.

Fiecare dintre aceste abordări are propriile sale avantaje și dezavantaje. Spre deosebire de credința populară cu privire la avantajele instrumentelor server față de instrumentele client, într-un număr de cazuri utilizarea OLAP - clientul poate fi mai eficient și mai profitabil de utilizat pentru utilizatori servere OLAP.

Dezvoltarea de aplicații analitice folosind instrumente OLAP client este un proces rapid și nu necesită pregătire specială. Un utilizator care cunoaște implementarea fizică a bazei de date poate dezvolta o aplicație analitică independent, fără implicarea unui specialist IT.

Când utilizați un server OLAP, trebuie să învățați 2 sisteme diferite, uneori de la diferiți furnizori - pentru a crea cuburi pe server și pentru a dezvolta o aplicație client.

Clientul OLAP oferă o interfață vizuală unică pentru descrierea cuburilor și configurarea interfețelor utilizator pentru acestea.

Deci, în ce cazuri utilizarea unui client OLAP poate fi mai eficientă și mai profitabilă pentru utilizatori decât utilizarea unui server OLAP?

· Fezabilitatea economică a aplicării OLAP -server apare atunci când volumele de date sunt foarte mari și copleșitoare pentru OLAP -client, in caz contrar folosirea acestuia din urma este mai justificata. În acest caz OLAP -Clientul combină caracteristicile de înaltă performanță și costul redus.

· PC-uri puternice pentru analiști – un alt argument în favoarea OLAP -clienti. Atunci când se utilizează OLAP -serverele nu folosesc această capacitate.

Printre avantajele clienților OLAP se numără următoarele:

· Costuri de implementare si intretinere OLAP - clientul este semnificativ mai mic decât costurile pentru server OLAP.

· Folosind OLAP - pentru un client cu o mașină încorporată, transmiterea datelor prin rețea se realizează o singură dată. Facand OLAP -operațiunile noilor fluxuri de date nu sunt generate.

5. Principii de funcționare OLAP-clienti.

Să ne uităm la procesul de creare a unei aplicații OLAP folosind un instrument client (Figura 1).

Poza 1.Crearea unei aplicații OLAP folosind instrumentul client ROLAP

Principiul de funcționare al clienților ROLAP este o descriere preliminară a stratului semantic, în spatele căruia se ascunde structura fizică a datelor sursă. În acest caz, sursele de date pot fi: tabele locale, RDBMS. Lista surselor de date acceptate este determinată de produsul software specific. După aceasta, utilizatorul poate manipula în mod independent obiectele pe care le înțelege în ceea ce privește domeniul de subiect pentru a crea cuburi și interfețe analitice.

Principiul de funcționare al clientului server OLAP este diferit. Într-un server OLAP, atunci când creează cuburi, utilizatorul manipulează descrierile fizice ale bazei de date. În același timp, descrierile personalizate sunt create în cubul însuși. Clientul serverului OLAP este configurat numai pentru cub.

Atunci când se creează un strat semantic, sursele de date - tabelele Vânzări și Oferte - sunt descrise în termeni pe care utilizatorul final îi poate înțelege și transforma în „Produse” și „Oferte”. Câmpul „ID” din tabelul „Produse” este redenumit „Cod”, iar „Nume” în „Produs”, etc.

Apoi este creat obiectul de afaceri Vânzări. Un obiect de afaceri este o masă plată pe baza căreia se formează un cub multidimensional. La crearea unui obiect de afaceri, tabelele „Produse” și „Tranzacții” sunt îmbinate prin câmpul „Cod” al produsului. Deoarece toate câmpurile din tabel nu sunt necesare pentru afișare în raport, obiectul de afaceri utilizează numai câmpurile „Articol”, „Data” și „Sumă”.

În exemplul nostru, pe baza obiectului de afaceri „Vânzări”, a fost creat un raport privind vânzările de produse pe lună.

Când lucrează cu un raport interactiv, utilizatorul poate seta condiții de filtrare și grupare cu aceleași mișcări simple ale mouse-ului. În acest moment, clientul ROLAP accesează datele din cache. Clientul server OLAP generează o nouă interogare la baza de date multidimensională. De exemplu, aplicând un filtru după produs într-un raport de vânzări, puteți obține un raport privind vânzările de produse care ne interesează.

Toate setările aplicației OLAP pot fi stocate într-un depozit de metadate dedicat, în aplicație sau într-un depozit de sistem de baze de date multidimensionale.Implementarea depinde de produsul software specific.

Tot ceea ce este inclus în aceste aplicații este o privire standard asupra interfeței, funcții și structuri predefinite și soluții rapide pentru situații mai mult sau mai puțin standard. De exemplu, pachetele financiare sunt populare. Aplicațiile financiare prefabricate permit profesioniștilor să utilizeze instrumente financiare familiare fără a fi nevoie să proiecteze o structură de bază de date sau formulare și rapoarte convenționale.

Internetul este o nouă formă de client. În plus, poartă amprenta noilor tehnologii; o multime de Soluții de internet diferă semnificativ în capacitățile lor în general și ca soluție OLAP în special. Există multe avantaje în a genera rapoarte OLAP pe Internet. Cea mai semnificativă este lipsa necesității de software specializat pentru a accesa informații. Acest lucru economisește companiei o mulțime de timp și bani.

6. Selectarea unei arhitecturi de aplicație OLAP.

La implementarea unui sistem informatic și analitic, este important să nu greșiți în alegerea arhitecturii unei aplicații OLAP. Traducerea literală a termenului On-Line Analytical Process - „prelucrare analitică online” - este adesea luată literal în sensul că datele care intră în sistem sunt analizate rapid. Aceasta este o concepție greșită - eficiența analizei nu este în niciun fel legată de timpul real de actualizare a datelor din sistem. Această caracteristică se referă la timpul de răspuns al sistemului OLAP la solicitările utilizatorilor. În același timp, datele analizate reprezintă adesea un instantaneu de informații „de ieri” dacă, de exemplu, datele din depozite sunt actualizate o dată pe zi.

În acest context, traducerea OLAP ca „prelucrare analitică interactivă” este mai precisă. Este capacitatea de a analiza datele într-un mod interactiv care distinge sistemele OLAP de sistemele de pregătire a rapoartelor reglementate.

O altă caracteristică a procesării interactive în formularea fondatorului OLAP E. Codd este capacitatea de a „combina, vizualiza și analiza datele din punctul de vedere al dimensiunilor multiple, adică în cel mai înțeles mod pentru analiștii corporativi”. Codd însuși folosește termenul OLAP pentru a se referi exclusiv la un mod specific de prezentare a datelor la nivel conceptual – multidimensional. La nivel fizic, datele pot fi stocate în baze de date relaționale, dar, în realitate, instrumentele OLAP funcționează de obicei cu baze de date multidimensionale în care datele sunt organizate într-un hipercub (Figura 1).

Poza 1. OLAP– cub (hipercub, metacub)

Mai mult, relevanța acestor date este determinată de momentul în care hipercubul este umplut cu date noi.

Evident, timpul necesar pentru a crea o bază de date multidimensională depinde în mod semnificativ de volumul de date încărcate în ea, așa că este rezonabil să se limiteze acest volum. Dar cum se poate evita restrângerea posibilităților de analiză și privarea utilizatorului de acces la toate informațiile de interes? Există două căi alternative: Analizați apoi interogați și Interogați apoi analizați.

Adepții primei căi propun încărcarea informațiilor generalizate într-o bază de date multidimensională, de exemplu, rezultate lunare, trimestriale și anuale pentru departamente. Și dacă este necesar să detalieze datele, utilizatorului i se cere să genereze un raport folosind o bază de date relațională care conține selecția necesară, de exemplu, pe zi pentru un anumit departament sau pe lună și angajați ai departamentului selectat.

Susținătorii celei de-a doua căi, dimpotrivă, sugerează ca utilizatorul, în primul rând, să decidă asupra datelor pe care urmează să le analizeze și să le încarce într-un microcub - o mică bază de date multidimensională. Ambele abordări diferă la nivel conceptual și au propriile avantaje și dezavantaje.

Avantajele celei de-a doua abordări includ „prospețimea” informațiilor pe care utilizatorul le primește sub forma unui raport multidimensional - un „microcub”. Microcubul este format pe baza informațiilor solicitate din baza de date relațională curentă. Lucrul cu un microcub se realizează într-un mod interactiv - obținerea de felii de informații și detalierea acestuia în microcub se realizează instantaneu. Un alt punct pozitiv este că proiectarea structurii și umplerea microcubului sunt efectuate de utilizator din mers, fără participarea administratorului bazei de date. Cu toate acestea, abordarea suferă și de deficiențe grave. Utilizatorul nu vede imaginea de ansamblu și trebuie să decidă în prealabil direcția cercetării sale. În caz contrar, microcubul solicitat poate fi prea mic și să nu conțină toate datele de interes, iar utilizatorul va trebui să solicite un nou microcub, apoi unul nou, apoi altul și altul. Abordarea de analiză a interogării implementează instrumentul BusinessObjects al companiei cu același nume și instrumentele platformei Contour a companiei.Intersoft laborator.

Cu abordarea Analiză apoi interogare, volumul de date încărcat într-o bază de date multidimensională poate fi destul de mare; completarea trebuie efectuată conform reglementărilor și poate dura destul de mult. Cu toate acestea, toate aceste dezavantaje se plătesc mai târziu, când utilizatorul are acces la aproape toate datele necesare în orice combinație. Accesul la datele sursă dintr-o bază de date relațională se realizează doar în ultimă instanță, atunci când sunt necesare informații detaliate, de exemplu, pe o anumită factură.

Funcționarea unei singure baze de date multidimensionale nu este practic afectată de numărul de utilizatori care o accesează. Ei citesc doar datele disponibile acolo, spre deosebire de abordarea Query then analysis, în care numărul de microcuburi în cazul extrem poate crește în același ritm cu numărul de utilizatori.

Această abordare mărește încărcarea serviciilor IT, care, pe lângă cele relaționale, sunt și obligate să mențină baze de date multidimensionale.Aceste servicii sunt responsabile pentru actualizarea automată în timp util a datelor din bazele de date multidimensionale.

Cei mai proeminenți reprezentanți ai abordării „Analiza apoi interogarea” sunt instrumentele PowerPlay și Impromptu de la Cognos.

Alegerea atât a abordării, cât și a instrumentului care o implementează depinde în primul rând de scopul urmărit: trebuie întotdeauna să echilibrați între economiile bugetare și îmbunătățirea calității serviciilor pentru utilizatorii finali. Trebuie avut în vedere faptul că, într-un plan strategic, crearea de sisteme informaționale și analitice urmărește obiectivele de a obține un avantaj competitiv, și nu evitarea costurilor de automatizare. De exemplu, un sistem de informare și analitică corporativă poate oferi informații necesare, oportune și de încredere despre o companie, a căror publicare pentru potențialii investitori va asigura transparența și predictibilitatea companiei, ceea ce va deveni inevitabil o condiție pentru atractivitatea investițională a acesteia.

7. Domenii de aplicare a tehnologiilor OLAP.

OLAP este aplicabil oriunde există o sarcină de analiză a datelor multivariate. În general, având în vedere un tabel de date care are cel puțin o coloană descriptivă (dimensiune) și o coloană numerică (măsuri sau fapte), un instrument OLAP va fi de obicei un instrument eficient de analiză și raportare.

Să ne uităm la câteva domenii de aplicare a tehnologiilor OLAP preluate din viața reală.

1. Vânzări.

Pe baza analizei structurii de vânzări se rezolvă problemele necesare luării deciziilor de management: privind modificarea gamei de mărfuri, prețuri, închiderea și deschiderea magazinelor, filialelor, rezilierea și semnarea contractelor cu dealerii, desfășurarea sau încetarea campaniilor publicitare etc.

2. Achiziții.

Sarcina este opusul analizei vânzărilor. Multe întreprinderi achiziționează componente și materiale de la furnizori. Întreprinderile comerciale cumpără bunuri pentru revânzare. Există multe sarcini posibile atunci când se analizează achizițiile, de la planificarea fondurilor pe baza experienței anterioare, până la control asupra managerilor, alegerea furnizorilor.

3. Preturi.

Analiza prețurilor pieței este strâns legată de analiza achizițiilor. Scopul acestei analize este optimizarea costurilor și selectarea celor mai profitabile oferte.

4. Marketing.

Prin analiză de marketing înțelegem doar zona de analiză a cumpărătorilor sau clienților-consumatori de servicii. Scopul acestei analize este poziționarea corectă a produsului, identificarea grupurilor de cumpărători pentru publicitate direcționată și optimizarea sortimentului. Sarcina OLAP în acest caz este de a oferi utilizatorului un instrument pentru a obține rapid, cu viteza gândirii, răspunsuri la întrebările care apar intuitiv în timpul analizei datelor.

5. Depozit.

Analiza structurii soldurilor depozitului pe tip de mărfuri, depozite, analiza termenului de valabilitate al mărfurilor, analiza expedierilor după destinatar și multe alte tipuri de analize care sunt importante pentru întreprindere sunt posibile dacă organizația are contabilitate de depozit.

6. Fluxul de numerar.

Aceasta este o întreagă zonă de analiză care are multe școli și metode. Tehnologia OLAP poate servi ca instrument pentru implementarea sau îmbunătățirea acestor tehnici, dar nu ca înlocuitor pentru acestea. Cifra de afaceri de numerar a fondurilor non-cash și de numerar este analizată din punct de vedere al operațiunilor de afaceri, contrapartidelor, valutelor și timpului în scopul optimizării fluxurilor, asigurării lichidității etc. Compoziția măsurătorilor depinde în mare măsură de caracteristicile afacerii, industriei și metodologiei.

7. Buget.

Una dintre cele mai fertile domenii de aplicare a tehnologiilor OLAP. Nu degeaba niciun sistem modern de bugetare nu este considerat complet fără prezența instrumentelor OLAP pentru analiza bugetară. Majoritatea rapoartelor bugetare sunt ușor de construit pe baza sistemelor OLAP. În același timp, rapoartele răspund la o gamă foarte largă de întrebări: analiza structurii cheltuielilor și veniturilor, compararea cheltuielilor pentru anumite articole din diferite divizii, analiza dinamicii și tendințelor cheltuielilor pentru anumite articole, analiza costurilor și profituri.

8. Conturi.

Un bilanţ clasic format dintr-un număr de cont şi care conţine solduri de intrare, cifra de afaceri şi solduri de ieşire poate fi analizat perfect într-un sistem OLAP. În plus, sistemul OLAP poate calcula automat și foarte rapid soldurile consolidate ale unei organizații cu mai multe sucursale, soldurile pe lună, trimestrul și anul, soldurile agregate pe ierarhia conturilor și soldurile analitice pe baza caracteristicilor analitice.

9. Raportarea financiară.

Un sistem de raportare construit tehnologic nu este altceva decât un set de indicatori numiți cu valori ale datei care trebuie grupați și rezumați în diferite secțiuni pentru a obține rapoarte specifice. Atunci când acesta este cazul, afișarea și tipărirea rapoartelor este cel mai ușor și mai ieftin implementată în sistemele OLAP. În orice caz, sistemul de raportare intern al întreprinderii nu este atât de conservator și poate fi restructurat pentru a economisi bani pe munca tehnică de creare a rapoartelor și pentru a obține capacitățile de analiză operațională multidimensională.

10. Traficul pe site.

Fișierul jurnal al serverului de Internet este de natură multidimensională, ceea ce înseamnă că este potrivit pentru analiza OLAP. Faptele sunt: ​​numărul de vizite, numărul de accesări, timpul petrecut pe pagină și alte informații disponibile în jurnal.

11. Volume de producție.

Acesta este un alt exemplu de analiză statistică. Astfel, este posibil să se analizeze volumele de cartofi cultivați, de oțel topit și de mărfuri produse.

12. Consumul de consumabile.

Imaginați-vă o fabrică formată din zeci de ateliere în care se consumă lichide de răcire, lichide de spălare, uleiuri, cârpe, șmirghel - sute de tipuri de consumabile. Pentru planificarea corectă și optimizarea costurilor, este necesară o analiză amănunțită a consumului real de consumabile.

13. Utilizarea spațiilor.

Un alt tip de analiză statistică. Exemple: analiza volumului de muncă al sălilor de clasă, clădirilor și spațiilor închiriate, utilizarea sălilor de conferințe etc.

14. Ruloarea personalului la întreprindere.

Analiza fluctuației de personal la întreprindere pe ramuri, departamente, profesii, nivel de studii, sex, vârstă, timp.

15. Transport de pasageri.

Analiza numărului de bilete vândute și a sumelor pe sezon, direcție, tip de vagon (clasă), tip de tren (avion).

Această listă nu se limitează la domeniile de aplicare OLAP - tehnologii. De exemplu, luați în considerare tehnologia OLAP - analiza in domeniul vanzarilor.

8. Exemplu de utilizare OLAP -tehnologii de analiză în domeniul vânzărilor.

Proiectarea unei reprezentări de date multidimensionale pentru OLAP -analiza începe cu formarea unei hărți de măsurare. De exemplu, atunci când se analizează vânzările, poate fi recomandabil să se identifice părți individuale ale pieței (consumatori în curs de dezvoltare, stabili, mari și mici, probabilitatea de noi consumatori etc.) și să se estimeze volumele vânzărilor pe produs, teritoriu, client, segment de piață , canalul de vânzare și dimensiunile comenzilor. Aceste direcții formează grila de coordonate a unei reprezentări multidimensionale a vânzărilor - structura dimensiunilor acesteia.

Întrucât activitățile oricărei întreprinderi se desfășoară în timp, prima întrebare care apare în timpul analizei este problema dinamicii dezvoltării afacerii. Organizarea corectă a axei timpului ne va permite să răspundem calitativ la această întrebare. De obicei, axa timpului este împărțită în ani, trimestre și luni. Este posibilă o fragmentare și mai mare în săptămâni și zile. Structura dimensiunii timp se formează ținând cont de frecvența de primire a datelor; poate fi determinată și de frecvența cererii de informații.

Dimensiunea Grup de produse este concepută pentru a reflecta cât mai aproape posibil structura produselor vândute. În același timp, este important să se mențină un anumit echilibru pentru, pe de o parte, pentru a evita detaliile excesive (numărul de grupuri ar trebui să fie vizibil), și pe de altă parte, pentru a nu rata un segment semnificativ de piață.

Dimensiunea „Clienți” reflectă structura vânzărilor pe baze teritoriale și geografice. Fiecare dimensiune poate avea propriile ierarhii, de exemplu, în această dimensiune poate fi structura: Țări – Regiuni – Orașe – Clienți.

Pentru a analiza performanța departamentelor, ar trebui să vă creați propria măsurare. De exemplu, putem distinge două niveluri de ierarhie: departamentele și diviziile incluse în acestea, care ar trebui să se reflecte în dimensiunea „Divizii”.

De fapt, dimensiunile „Timp”, „Produse”, „Clienți” definesc destul de pe deplin spațiul subiectului.

În plus, este util să împărțiți acest spațiu în zone condiționate, pe baza caracteristicilor calculate, de exemplu, intervale de volum de tranzacție în termeni de valoare. Apoi întreaga afacere poate fi împărțită într-un număr de intervale de cost în care se desfășoară. În acest exemplu, ne putem limita la următorii indicatori: valoarea vânzărilor de mărfuri, numărul de mărfuri vândute, suma veniturilor, numărul tranzacțiilor, numărul clienților, volumul achizițiilor de la producători.

OLAP - cubul pentru analiză va arăta ca (Fig. 2):


Figura 2.OLAP– cub pentru analiza volumului vânzărilor

Tocmai această matrice tridimensională este numită cub în termeni OLAP. De fapt, din punct de vedere al matematicii stricte, o astfel de matrice nu va fi întotdeauna un cub: un cub real trebuie să aibă același număr de elemente în toate dimensiunile, dar cuburile OLAP nu au o astfel de limitare. Un cub OLAP nu trebuie să fie tridimensional. Poate fi atât bidimensional, cât și multidimensional, în funcție de problema rezolvată. Produsele OLAP serioase sunt proiectate pentru aproximativ 20 de dimensiuni. Aplicațiile desktop mai simple acceptă aproximativ 6 dimensiuni.

Nu toate elementele cubului trebuie completate: dacă nu există informații despre vânzările Produsului 2 către Clientul 3 în al treilea trimestru, valoarea din celula corespunzătoare pur și simplu nu va fi determinată.

Totuși, cubul în sine nu este potrivit pentru analiză. Dacă este încă posibil să imaginezi sau să descrii în mod adecvat un cub tridimensional, atunci cu șase sau nouăsprezece dimensiuni situatia este mult mai rea. Prin urmare, înainte de utilizare, tabele bidimensionale obișnuite sunt extrase din cubul multidimensional. Această operație se numește „tăierea” cubului. Analistul, așa cum spune, ia și „tăie” dimensiunile cubului în funcție de semnele de interes pentru el. În acest fel, analistul primește o felie bidimensională a cubului (raport) și lucrează cu ea. Structura raportului este prezentată în Figura 3.

Figura 3.Structura raportului analitic

Să ne tăiem cubul OLAP și să obținem un raport de vânzări pentru al treilea trimestru, va arăta așa (Fig. 4).

Figura 4.Raport de vânzări al treilea trimestru

Puteți tăia cubul de-a lungul celeilalte axe și puteți obține un raport despre vânzările grupului de produse 2 pe parcursul anului (Fig. 5).

Figura 5.Raport trimestrial de vânzări pentru produsul 2

În mod similar, puteți analiza relația cu clientul 4, taierea cubului dupa marca Clienti(Fig. 6)

Figura 6.Raport privind livrările de mărfuri către client 4

Puteți detalia raportul pe lună sau puteți vorbi despre furnizarea de bunuri către o anumită sucursală a clientului.

Principala diferență dintre fapte și informații este că primim și luăm în considerare date și putem folosi informații pentru a beneficia. În linii mari, informațiile sunt analizate și sistematizate date. Datorită informațiilor primite în timp util, multe companii reușesc să supraviețuiască atât crizei financiare, cât și celei mai acerbe concurențe. Nu este suficient să colectezi fapte și să ai toate datele necesare. De asemenea, trebuie să le poți analiza. Pentru a le ușura persoanelor care trebuie să ia decizii importante de afaceri, au fost dezvoltate diverse sisteme de suport. Tocmai în acest scop au fost dezvoltate diverse sisteme complexe care permit analiza unor cantități mari de date eterogene și transformarea acestora în informații utile utilizatorului de afaceri. Noul domeniu al analizei de afaceri își propune să îmbunătățească controlul proceselor sistemelor de afaceri prin utilizarea depozitării de date și a tehnologiei.

Piața sistemelor de informații pentru afaceri oferă astăzi o selecție diversă de soluții care ajută o întreprindere să organizeze contabilitatea de gestiune, să asigure managementul operațional al producției și vânzărilor și să desfășoare interacțiuni eficiente cu clienții și furnizorii.

O nișă separată pe piața sistemelor de afaceri este ocupată de produse software analitice concepute pentru a sprijini luarea deciziilor la nivel strategic de management al întreprinderii. Principala diferență între astfel de instrumente și sistemele de management operațional este că acestea din urmă asigură managementul întreprinderii în „modul de funcționare”, adică implementarea unui program de producție bine definit, în timp ce sistemele analitice la nivel strategic ajută managementul întreprinderii să dezvolte decizii în „modul de dezvoltare”.

Amploarea schimbărilor efectuate poate varia de la restructurarea profundă la actualizarea parțială a tehnologiilor la locurile de producție individuale, dar, în orice caz, factorii de decizie iau în considerare alternative de dezvoltare de care depinde soarta întreprinderii pe termen lung.

Oricât de puternic și dezvoltat este sistemul informațional al întreprinderii, acesta nu poate ajuta la rezolvarea acestor probleme, în primul rând, pentru că este configurat pentru procese de afaceri staționare, stabilite și, în al doilea rând, nu conține și nu poate conține informații pentru luarea deciziilor privind noi domenii de activitate. afaceri, noi tehnologii, noi decizii organizaționale.

Datorită tehnologiei de procesare și analiză a datelor OLAP (On-Line Analytical Processing), orice organizație poate obține aproape instantaneu (în decurs de cinci secunde) datele necesare muncii. OLAP poate fi definit pe scurt prin cinci cuvinte cheie.

FAST (Rapid) - aceasta înseamnă că timpul de căutare și furnizare a informațiilor necesare nu durează mai mult de cinci secunde. Cele mai simple cereri sunt procesate într-o secundă, iar câteva cereri complexe au un timp de procesare mai mare de douăzeci de secunde. Pentru a obține acest rezultat, sunt folosite diverse metode, de la forme speciale de stocare a datelor până la pre-calculări extinse. În acest fel, puteți obține un raport într-un minut care anterior a durat câteva zile pentru a fi pregătit.

ANALIZĂ (Analitică) spune că sistemul poate efectua orice analiză, atât statistică, cât și logică, și apoi o stochează într-o formă accesibilă.

SHARED înseamnă că sistemul oferă confidențialitatea necesară până la nivelul celulei

MULTIDIMENSIONAL (Multidimensional) este principala caracteristică a OLAP. Sistemul trebuie să suporte pe deplin ierarhii și ierarhii multiple, deoarece acesta este cel mai logic mod de a analiza atât activitățile de afaceri, cât și cele organizaționale.

INFORMAȚIE. Informațiile corecte trebuie livrate acolo unde este nevoie.

Atunci când o organizație funcționează, se acumulează întotdeauna date legate de domeniul său de activitate, care uneori sunt stocate în locuri complet diferite, iar reunirea lor este atât dificilă, cât și consumatoare de timp. Pentru a accelera achiziția de date pentru a testa ipotezele de afaceri emergente, a fost dezvoltată tehnologia de procesare interactivă a datelor analitice, sau OLAP. Scopul principal al unor astfel de sisteme OLAP este de a răspunde rapid la solicitările arbitrare ale utilizatorilor. Această nevoie apare adesea atunci când se dezvoltă un proiect de afaceri important, când dezvoltatorul are nevoie de o ipoteză de lucru care a apărut. Cel mai adesea, informațiile de care are nevoie utilizatorul ar trebui să fie prezentate sub forma unui fel de dependență - de exemplu, modul în care volumul vânzărilor depinde de categoria de produs, de regiunea de vânzări, de perioada anului și așa mai departe. Datorită OLAP, el poate obține imediat datele necesare în aspectul dorit pentru perioada selectată.

Tehnologia interactivă OLAP vă permite să transformați grămezi uriașe de rapoarte și munți de date în informații utile și precise, care vor ajuta un angajat să ia o decizie de afaceri sau financiară informată la momentul potrivit.

În plus, datorită OLAP, eficiența procesării crește, iar utilizatorul poate primi volume mari de informații sortate (agregate) aproape instantaneu. Datorită OLAP, utilizatorul poate vedea clar cât de eficient funcționează organizația sa, are capacitatea de a răspunde rapid și flexibil la schimbările externe și are capacitatea de a minimiza pierderile financiare ale organizației sale. OLAP oferă informații precise care îmbunătățesc calitatea deciziilor luate.

Singurul dezavantaj al sistemelor de analiză de afaceri este costul lor ridicat. Crearea unui depozit de informații personale necesită atât timp, cât și mulți bani.

Utilizarea tehnologiei OLAP în afaceri vă permite să obțineți rapid informațiile necesare, care, la cererea utilizatorului, pot fi prezentate în forma obișnuită - rapoarte, grafice sau tabele.

Procedurile de integrare a sistemelor pentru structurile de afaceri se bazează pe utilizarea soluțiilor comune ERP, CRM și SCM. În multe cazuri, sistemele sunt furnizate de diferiți producători, iar datele importate trebuie să fie supuse armonizării datelor și să fie prezentate ca date eterogene. Într-un mediu de afaceri, există o cerință neechivocă - o analiză completă a datelor, care implică vizualizarea rapoartelor consolidate din diferite puncte de vedere.

Diferiți producători au mecanisme diferite de raportare a datelor. Procedura de reprezentare eterogenă implică extragerea, transformarea și încărcarea (ETL). De exemplu, în Microsoft SQL Server 2005 Analysis Services, problema consolidării datelor este implementată utilizând Data Source Views - tipuri de surse de date care descriu modele de prezentare analitică.

Aplicații de afaceri bazate pe tehnologii OLAP, exemple de produse. Cele mai comune aplicații ale tehnologiilor OLAP sunt:

Analiza datelor.

Sarcina pentru care cele mai populare instrumente OLAP au fost utilizate inițial și rămân încă. Un model de date multidimensional, capacitatea de a analiza cantități semnificative de date și răspunsul rapid la solicitări fac astfel de sisteme indispensabile pentru analiza vânzărilor, activităților de marketing, distribuției și a altor sarcini cu un volum mare de date sursă.

Exemple de produse: Microsoft Excel Pivot Tables, Microsoft Analysis Services, SAP BW, Oracle Essbase, Oracle OLAP, Cognos PowerPlay, MicroStrategy, Business Objects.

Planificare financiară-bugetare.

Un model multidimensional vă permite să introduceți simultan date și să le analizați cu ușurință (de exemplu, planificați analiza faptelor). Prin urmare, o serie de produse moderne CPM (Corporate Performance Management) folosesc modele OLAP%. O sarcină importantă este calculul invers multidimensional (backsolve, breakback, writeback), care vă permite să calculați modificările necesare în celulele detaliate atunci când valoarea agregată se modifică. Este un instrument de analiză ce se întâmplă dacă, de ex. pentru a juca diverse opțiuni pentru evenimente în timpul planificării.

Exemple de produse: Microsoft PerformancePint, Oracle EPB, Oracle OFA, Oracle Hyperion Planning, SAP SEM, Cognos Enterprise Planning, Geac.

Consolidarea financiară.

Consolidarea datelor în conformitate cu standardele internaționale de contabilitate, luând în considerare cotele de proprietate, diferitele valute și cifra de afaceri internă, este o sarcină urgentă în legătură cu cerințele din ce în ce mai stricte ale organismelor de inspecție (SOX, Basel II) și ale companiilor care ies la bursă. Tehnologiile OLAP vă permit să accelerați calculul rapoartelor consolidate și să creșteți transparența întregului proces.

Exemple de produse: Oracle FCH, Oracle Hyperion FM, Cognos Controller.

Tehnologii de depozitare a datelor și procesare analitică on-line (OLAP).
sunt elemente importante ale suportului pentru deciziile de afaceri, care devin din ce în ce mai mult o parte integrantă a oricărei industrii. Utilizarea tehnologiilor OLAP ca instrument de analiză de afaceri oferă mai mult control și acces în timp util la strategii
informații care facilitează luarea eficientă a deciziilor.
Acest lucru oferă posibilitatea de a simula previziunile din viața reală și de a utiliza resursele mai eficient. OLAP permite unei organizații să răspundă mai rapid la cerințele pieței.

Bibliografie:

1. Erik Thomsen. Soluții OLAP: Construirea sistemelor informaționale multidimensionale ediția a doua. Wiley Computer Publishing John Wiley & Sons, Inc., 2002.

2. Cartea albă a Consiliului OLAP, http://www.olapcouncil.org/research/whtpaply.htm

3. Gerd Stumme și Bernhard Ganter. Analiza Conceptului Formal _ Fundamentele Matematice.

Cele mai bune articole pe această temă