Introduzione alle basi dell'OLAP. Confronto delle caratteristiche dell'analisi statica e dinamica

12.04.2019 Windows 8

Ad oggi, molte organizzazioni hanno accumulato quantità significative di dati, sulla base dei quali è possibile risolvere una varietà di compiti analitici e gestionali. I problemi di archiviazione ed elaborazione delle informazioni analitiche stanno diventando sempre più rilevanti e attirano l'attenzione di specialisti e aziende che lavorano nel campo delle tecnologie dell'informazione, il che ha portato alla formazione di un mercato a tutti gli effetti per le tecnologie di analisi aziendale.

Idealmente, il lavoro di analisti e manager ai vari livelli dovrebbe essere organizzato in modo che possano avere accesso a tutte le informazioni che interessano e utilizzare in modo conveniente e mezzi semplici presentare e lavorare con queste informazioni. È per raggiungere questi obiettivi che Tecnologie dell'informazione, uniti sotto il nome generico di data warehouse e business analysis.

Come definito da Gartner, la business intelligence (BI, Business Intelligence) è una categoria di applicazioni e tecnologie per la raccolta, l'archiviazione, l'analisi e la pubblicazione di dati che consente agli utenti aziendali di acquisire migliori soluzioni. Nella terminologia russa sistemi simili chiamati anche sistemi di supporto alle decisioni (DSS).

La raccolta e l'archiviazione delle informazioni, così come la soluzione dei problemi di una query di reperimento di informazioni, sono efficacemente implementate per mezzo di sistemi di gestione di database (DBMS). Implementazione dei sottosistemi OLTP (Online Transaction Processing). transazione in corso dati. I sistemi OLTP diretti non sono adatti per un'analisi completa delle informazioni a causa dell'incoerenza dei requisiti per i sistemi OLTP e DSS.

Per fornire le informazioni necessarie per prendere decisioni, di solito è necessario raccogliere dati da diversi banche dati transazionali struttura diversa e contenuto. Il problema principale in questo caso è l'incoerenza e l'incoerenza di queste basi di origine, la mancanza di una visione logica unica dei dati aziendali.

Pertanto, per combinare OLTP e DSS in un unico sistema per implementare il sottosistema di archiviazione, viene utilizzato il concetto di data warehouse (HD). Il concetto di data warehouse si basa sull'idea di separare i dati utilizzati per l'elaborazione operativa e per la risoluzione di problemi di analisi, che consente di ottimizzare le strutture di archiviazione. Il data warehouse permette di integrare dati di dettaglio precedentemente disparati contenuti negli archivi storici accumulati nei tradizionali sistemi OLTP provenienti da fonti esterne, v singola base dati, svolgendo il loro coordinamento preliminare ed, eventualmente, aggregazione.

Il sottosistema di analisi può essere costruito sulla base di:

sottosistemi di analisi del reperimento delle informazioni basati su DBMS relazionali e query statiche che utilizzano il linguaggio SQL;
sottosistemi di analisi operativa. Per implementare tali sottosistemi, viene utilizzata la tecnologia dell'elaborazione analitica in linea. Dati OLAP, che utilizza il concetto di rappresentazione multidimensionale dei dati;
sottosistemi di mining che implementano metodi e algoritmi di Data Mining.

Il concetto di data warehouse

La tecnologia HD è progettata per archiviare e analizzare grandi quantità di dati al fine di ulteriore rilevamento contengono modelli nascosti e, insieme a Tecnologia dei dati Il mining, è incluso nel concetto di "analisi predittiva". Il Data Mining, a sua volta, studia il processo di ricerca di nuove conoscenze valide e potenzialmente utili nei database.

Un data warehouse è un set di dati specifico del dominio, integrato, che cambia di rado e gestito cronologicamente, organizzato per scopi di supporto alle decisioni. Orientamento al soggetto significa che i data warehouse integrano informazioni che riflettono punti di vista diversi sull'area tematica. L'integrazione presuppone che i dati archiviati nel data warehouse siano portati in un unico formato. Il supporto storico significa che tutti i dati nel data warehouse corrispondono a intervalli di tempo consecutivi.

Oltre alla capacità di lavorare con un'unica fonte di informazioni, manager e analisti devono avere mezzi convenienti visualizzazione dati, aggregazione, ricerca trend, forecasting. Nonostante la diversità attività analitiche può essere identificato tecnologie tipiche analisi dei dati, ognuno dei quali corrisponde a un insieme specifico utensili. Insieme al data warehouse, questi strumenti forniscono soluzione completa automatizzare le attività analitiche e creare un'azienda sistema informativo e analitico.

Archivi di dati fisici e virtuali

Quando i dati vengono caricati da un sistema OLTP in un data warehouse, i dati vengono duplicati. Tuttavia, durante questo download, i dati vengono filtrati, poiché non tutti sono rilevanti per le procedure di analisi. Il data warehouse memorizza informazioni generalizzate che non sono disponibili nel sistema OLTP.

La ridondanza delle informazioni può essere ridotta a zero utilizzando un data warehouse virtuale. In un tale sistema, i dati dal sistema OLTP non vengono copiati in un unico archivio. Vengono estratti, trasformati e integrati direttamente durante l'esecuzione di query analitiche in tempo reale. Tali richieste, infatti, vengono trasmesse direttamente al sistema OLTP.

Vantaggi dell'HD virtuale:

ridurre al minimo la quantità di dati archiviati;
lavorare con dati attuali e aggiornati.

Svantaggi dell'archiviazione virtuale:

tempo di elaborazione delle query più elevato rispetto all'archiviazione fisica;
la necessità di una disponibilità costante di tutte le sorgenti OLTP;
prestazioni ridotte dei sistemi OLTP;
I sistemi OLTP non sono focalizzati sulla conservazione dei dati per un lungo periodo di tempo; se necessario, i dati vengono caricati negli archivi, quindi non c'è sempre una possibilità fisica di ottenere set completo dati in HD.

Il concetto di data warehouse

Un "data warehouse" è una raccolta di dati specifica del dominio, limitata nel tempo e immutabile per supportare il processo decisionale della gestione.

I dati in archivio provengono da sistemi operativi(sistemi OLTP), progettati per automatizzare i processi aziendali. Inoltre, il repository può essere rifornito da fonti esterne, come report statistici, directory varie, ecc. Il data warehouse, oltre alle informazioni di dettaglio, contiene aggregati, ovvero informazioni di riepilogo, come importi di vendita, quantità, spese totali, ecc.

Un data warehouse fiscale dovrebbe essere visto come un hub informativo che automatizza il calcolo delle imposte differite, accetta e archivia informazioni da fonti esterne e trasforma i dati in un formato di facile utilizzo. Tale repository è una piattaforma per la memorizzazione di dati fiscali accurati e aggiornati che possono essere recuperati e trasferiti applicazioni esterne a fini di analisi, audit, pianificazione e previsione.

Il data warehouse è un repository risorse di informazione e fornisce il consolidamento dei dati aziendali per scopi di reportistica e analisi. I dati e le informazioni, sia operative che non operative, vengono immesse nel magazzino, di solito utilizzando strumenti ETL, da fonti, dati non appena disponibili o su base regolare. La trasformazione dei dati consente di elaborare le richieste e analizzarle in modo tempestivo, il che semplifica e velocizza il processo di evasione delle richieste di informazioni originariamente ricevute da altre fonti.
I vantaggi del repository includono la possibilità di trasformare i dati in report fiscali di qualità e informazioni sulla conformità fiscale per utenti di tutti i livelli. Tutte le parti interessate - clienti, partner, dipendenti, manager e leader - possono ricevere contenuti interattivi sempre e ovunque.
L'esistenza stessa di un'unica fonte di informazioni per la preparazione e gli adempimenti fiscali è un grande passo avanti per molte autorità fiscali.

Perché è necessario costruire data warehouse: dopotutto, contengono informazioni ovviamente ridondanti che sono già nei database o nei file dei sistemi operativi? È impossibile o molto difficile analizzare direttamente i dati dai sistemi operativi. Ciò è dovuto a vari motivi, tra cui la frammentazione dei dati e la loro memorizzazione in diversi formati DBMS. Ma anche se tutti i dati dell'azienda sono archiviati su un server di database centrale, l'analista quasi certamente non capirà le loro strutture complesse, a volte confuse.

Pertanto, il compito del repository è fornire la "materia prima" per l'analisi in un unico luogo e in una struttura semplice e comprensibile.

C'è un altro motivo che giustifica la comparsa di un repository separato: query analitiche complesse per informazioni operative rallentare lavoro attuale aziende, bloccando le tabelle per molto tempo e catturando le risorse del server.

Sotto lo storage si può capire non necessariamente un enorme accumulo di dati: l'importante è che sia conveniente per l'analisi.

Concetto di data warehouse

L'autore del concetto di data warehouse ( Data Warehouse) è B. Inmon, che ha definito i data warehouse: “insiemi di dati storici orientati al dominio, integrati, immutabili, organizzati per finalità di supporto alla gestione”, progettati per fungere da “unica e unica fonte di verità”, fornendo a manager e analisti informazioni affidabili necessarie per l'analisi operativa e il processo decisionale. Lo schema del data warehouse può essere rappresentato come segue:

L'attuazione fisica di questo schema può essere molto varia. Consideriamo la prima opzione: un data warehouse virtuale, questo è un sistema che fornisce l'accesso a un sistema di registrazione convenzionale che emula il lavoro con un data warehouse. Archiviazione virtuale può essere organizzato in due modi. È possibile creare una serie di "viste" (visualizzazioni) nel database o utilizzare mezzi speciali accesso al database (ad esempio, prodotti della classe desktop OLAP).

Poiché la creazione di un data warehouse è un processo complesso che può richiedere anni, alcune organizzazioni creano invece data mart contenenti informazioni per reparti specifici. Ad esempio, un data mart di marketing potrebbe contenere solo informazioni su clienti, prodotti e vendite e non includere piani di fornitura. Più data mart per i reparti possono coesistere con il data warehouse principale, offrendo una visione parziale del contenuto del warehouse. I data mart sono molto più veloci da costruire rispetto allo storage, ma possono verificarsi problemi di integrazione significativi in seguito se la pianificazione iniziale è stata eseguita senza considerare l'intero modello di business. Questo è il secondo modo.

La creazione di un vero e proprio data warehouse aziendale viene solitamente eseguita in un'architettura a tre livelli. Al primo livello si trovano varie fonti di dati: sistemi di registrazione interni, sistemi di aiuto, fonti esterne (dati agenzie giornalistiche, indicatori macroeconomici). Il secondo livello contiene un repository centrale, dove fluiscono le informazioni provenienti da tutte le fonti provenienti dal primo livello ed, eventualmente, un data warehouse operativo che non contiene dati storici e svolge due funzioni principali.

Il concetto di data warehouse si basa su due idee fondamentali:

1) integrazione di dati di dettaglio precedentemente separati in un unico data warehouse, loro coordinamento ed, eventualmente, aggregazione:

archivi storici;

dati da ODS tradizionali;

dati da fonti esterne.

2) separazione dei set di dati utilizzati per l'elaborazione operativa e set di dati utilizzati per risolvere problemi di analisi.

Lo scopo del concetto di data warehouse è scoprire i requisiti per i dati inseriti nel database di destinazione del data warehouse (Tabella 1), per determinare principi generali e le fasi della sua costruzione, le principali fonti di dati, forniscono raccomandazioni per la risoluzione di potenziali problemi che si verificano quando vengono scaricati, puliti, coordinati, trasportati e caricati nel database di destinazione.

Tabella 1. Requisiti di base per i dati nel Data Warehouse.

Orientamento al soggetto	Tutti i dati su un determinato soggetto (oggetto aziendale) vengono raccolti (di solito da un set varie fonti), sono liquidati, coordinati, integrati, aggregati e presentati in un'unica forma conveniente per il loro utilizzo nell'analisi aziendale.
Integrazione	Tutti i dati sui diversi oggetti aziendali sono coordinati reciprocamente e archiviati in un unico Storage a livello aziendale.
immutabilità	I dati iniziali (storici), dopo che sono stati concordati, verificati ed inseriti nello Storage aziendale, rimangono invariati e vengono utilizzati esclusivamente in modalità lettura.
Supporto della sequenza temporale	I dati sono strutturati cronologicamente e riflettono la storia, per un periodo di tempo sufficiente per completare le attività di analisi e previsione aziendale.

Oggetto del concetto di data warehouse sono i dati stessi. Dopo che il tradizionale sistema di elaborazione dei dati (DPS) è stato implementato e ha iniziato a funzionare, diventa esattamente lo stesso oggetto indipendente del mondo reale di qualsiasi processo di produzione. E i dati, che sono uno dei prodotti finali di tale produzione, hanno esattamente le stesse proprietà e caratteristiche di qualsiasi prodotto industriale: durata di conservazione, luogo di conservazione (stoccaggio), compatibilità con i dati di altre industrie (SOD), valore di mercato, trasportabilità , completezza, manutenibilità, ecc.

È da questo punto di vista che vengono presi in considerazione i dati nei data warehouse. Cioè, l'obiettivo qui non sono i modi per descrivere e visualizzare gli oggetti argomento, ma i dati stessi, in quanto oggetto autonomo dell'area disciplinare, generati a seguito del funzionamento di sistemi informativi precedentemente creati.

Per corretta comprensione Questo concetto richiede il chiarimento dei seguenti punti fondamentali:

· Il concetto di data warehousing non è un concetto di analisi dei dati, ma piuttosto un concetto di preparazione dei dati per l'analisi.

· Il concetto di data warehouse non predetermina l'architettura del sistema analitico di destinazione. Parla di quali processi dovrebbero essere in esecuzione sul sistema, ma non esattamente dove e come dovrebbero essere eseguiti questi processi.

· Il concetto di data warehouse implica non solo una singola visualizzazione logica dei dati dell'organizzazione, ma l'implementazione di un'unica fonte di dati integrata.

inoltre singola directory metadati, mezzi di caricamento, aggregazione e riconciliazione dei dati, il concetto di data warehouse implica: integrazione, immutabilità, supporto cronologico e consistenza dei dati. E se le prime due proprietà (integrazione e immutabilità) influiscono sulle modalità di analisi dei dati, le ultime due (supporto della cronologia e coerenza) restringono notevolmente l'elenco dei compiti analitici da risolvere.

Senza il supporto della cronologia (la disponibilità dei dati storici), è impossibile parlare di soluzione dei problemi di previsione e di analisi delle tendenze. Ma le più critiche e dolorose sono le problematiche legate alla riconciliazione dei dati.

Il requisito principale dell'analista non è tanto l'efficienza quanto l'affidabilità della risposta. Ma la credibilità è in definitiva determinata dalla coerenza. Fino a quando non si sarà lavorato per concordare reciprocamente sui valori dei dati provenienti da varie fonti, è difficile parlare della loro affidabilità.

Spesso un manager si trova di fronte a una situazione in cui sistemi diversi possono e di solito danno una risposta diversa alla stessa domanda. Ciò può essere dovuto sia al non sincronismo dei momenti di modifica dei dati, alle differenze nell'interpretazione degli stessi eventi, concetti e dati, ai cambiamenti nella semantica dei dati nel processo di sviluppo dell'area disciplinare, agli errori elementari durante l'input e elaborazione, perdita parziale di singoli frammenti di archivi, ecc. È ovvio che non è realistico tenere conto e determinare in anticipo gli algoritmi per risolvere tutte le possibili collisioni. Inoltre, è impossibile entrare modalità operativa, in modo dinamico, direttamente nel processo di generazione di una risposta a una richiesta.

Informazioni simili.

Secondo Forrester Research, la maggior parte grandi aziende facce prossimo problema: si accumulano grande quantità informazioni che non vengono mai utilizzate. In quasi tutte le organizzazioni, ci sono in realtà molti sistemi transazionali focalizzati sull'elaborazione dei dati online (ciascuno per una specifica classe di attività) e sul rifornimento continuo di numerosi database. Inoltre, le imprese spesso possiedono enormi quantità di informazioni memorizzate nel cosiddetto. sistemi legacy. Tutti questi dati sono distribuiti attraverso le reti computer personale, sono archiviati su mainframe, workstation e server. Quindi l'informazione c'è, ma è dispersa, incoerente, non strutturata, spesso ridondante e non sempre affidabile. Pertanto, nella maggior parte delle organizzazioni, questi dati non possono ancora essere utilizzati per prendere decisioni aziendali critiche. Il concetto di data warehouse (Data Warehouse) è volto a risolvere questa contraddizione.

Bill Inmon, l'ideatore del concetto, nel suo classico articolo "What Are Data Stores" (D2K Incorporated, 1996) definisce i data store come "set di dati storici, integrati, immutabili, specifici del dominio organizzati allo scopo di supportare la governance". Considera l'archiviazione come "l'unica e unica fonte di verità", il "centro dell'universo" dei sistemi di supporto alle decisioni (DSS). “Dai data warehouse”, scrive, “le informazioni fluiscono verso i vari reparti, filtrate in base a impostazioni predefinite DSS. Questi database decisionali separati sono chiamati data mart”.

Il concetto di data warehouse si basa sull'idea di combinare dati aziendali sparsi tra sistemi di elaborazione dati online, archivi storici e altre fonti esterne. Queste fonti possono contenere dati che non vengono utilizzati direttamente nell'ODS, ma sono vitali per il DSS: il quadro normativo(comprese le previsioni fiscali), piani di sviluppo del settore, dati statistici, elenchi elettronici. Come mostra la pratica, una decisione presa sulla base dei soli dati interni il più delle volte si rivela errata.

Lo scopo del concetto di data warehouse è chiarire le differenze nelle caratteristiche dei dati nei sistemi operativi e analitici, determinare i requisiti per i dati inseriti nel magazzino, determinare i principi generali e le fasi della sua costruzione, le principali fonti di dati, per fornire raccomandazioni per la risoluzione di potenziali problemi che si verificano durante lo scarico, la pulizia, la riconciliazione, il trasporto e il caricamento nel database di archiviazione di destinazione.

Confronto delle caratteristiche dei dati nei sistemi informativi focalizzati sull'elaborazione dei dati operativi e analitici

Caratteristica	Operativo	Analitico
Frequenza di aggiornamento	Alta frequenza, in piccole porzioni	Bassa frequenza, porzioni abbondanti
Origine dei dati	Principalmente interno	Principalmente esterno
Volumi di dati memorizzati	Centinaia di megabyte, gigabyte	gigabyte e terabyte
Età dei dati	Attuale (per un periodo da alcuni mesi a un anno)	Attuale e storico (per un periodo di diversi anni, decenni)
Scopo	Fissazione, ricerca online e trasformazione dei dati	Archiviazione di dati storici dettagliati e aggregati, elaborazione analitica, previsione e modellazione

Requisiti di base per i dati in un data warehouse

Orientamento al soggetto	Tutti i dati su un determinato argomento (oggetto aziendale) vengono raccolti (di solito da molte fonti diverse), puliti, coordinati, integrati, aggregati e presentati in un'unica forma conveniente per il loro utilizzo nell'analisi aziendale.
Integrazione	Tutti i dati sui diversi oggetti aziendali vengono concordati reciprocamente e archiviati in un unico archivio a livello aziendale
immutabilità	Dati iniziali (storici), dopo che sono stati concordati, verificati e inseriti nel generale archiviazione aziendale, rimangono invariati e vengono utilizzati esclusivamente in modalità lettura
Supporto della sequenza temporale	I dati sono strutturati cronologicamente e riflettono la storia per un periodo di tempo sufficiente per completare le attività di analisi e previsione aziendale.

Oggetto del concetto di data warehouse non è l'analisi dei dati, ma i dati stessi, ovvero il concetto della loro preparazione per ulteriori analisi. Allo stesso tempo, il concetto di data warehouse definisce non solo un'unica visualizzazione logica dei dati aziendali, ma l'implementazione di un'unica fonte di dati integrata.

Modelli di analisi dei dati

Nonostante nel concetto di data warehouse formulato da B. Inmon l'enfasi sia posta sul dato stesso e sull'identificazione della sua proprietà comuni, caratteristiche e relazioni, è chiaro che questi dati devono essere utilizzati nel processo di presa delle decisioni aziendali a tutti i livelli, fino a quello aziendale e intersocietario. Ad oggi si sono storicamente formati due modelli principali di analisi dei dati, sui quali si basano i DSS analitici esistenti:

1. Analisi statica (DSS). Il concetto stesso di DSS (Decision Support Systems) si traduce in realtà come DSS. Fino a poco tempo, questo era l'unico concetto analitico. Il risultato del funzionamento di tali sistemi erano report multipagina rigorosamente regolamentati, per la cui formazione venivano eseguite lunghe query che elaboravano enormi quantità di dati. Tali richieste potrebbero essere eseguite per diverse ore, a volte decine di ore e persino giorni.

2. Analisi dei dati operativi (OLAP). L'autore del concetto di OLAP (On-Line Analytical Processing) è il Dr. E. Codd, che ha formulato nel 1993 12 requisiti di base per gli strumenti Implementazioni OLAP. La differenza fondamentale Questo modello del tradizionale DSS statico è una rappresentazione concettuale dei dati sotto forma di un cubo multidimensionale. Allo stesso tempo, E. Codd ha mostrato i potenziali svantaggi dell'approccio relazionale nei sistemi orientati all'analisi dei dati. Lo scopo della creazione di questo concept era la possibilità fondamentale di fornire all'utente finale i mezzi per generare, elaborare ed eseguire richieste analitiche ad hoc con un tempo minimo di risposta del sistema. La necessità di questo nuovo concetto era predeterminata dal fatto che spesso dopo aver ricevuto un rapporto standard utilizzando il DSS, l'analista aveva una nuova domanda o si rendeva conto che la domanda stessa era formulata in modo errato. Di conseguenza, doveva per molto tempo attendere il risultato successivo per poi, eventualmente, tornare all'iterazione successiva di questo processo.

Confronto delle caratteristiche dell'analisi statica e dinamica

Caratteristica	Analisi statica	Analisi dinamica
Tipi di domande	Quanti? Come? Quando?	Come mai? Cosa succede se?..
Tempo di risposta	Non regolato
Operazioni tipiche	Rapporto regolamentato, diagramma	Una sequenza di report interattivi, grafici, moduli dello schermo. Modifica dinamica dei livelli di aggregazione e delle fette di dati.
Livello dei requisiti analitici
Tipo di visualizzazione	Fondamentalmente predeterminato, regolato	Definito dall'utente
Livello di aggregazione dei dati	Dettagliato e riassuntivo	Fondamentalmente totale
Età dei dati	Storico e attuale	Storico, attuale e previsionale
Tipi di richiesta	Per lo più prevedibile	Imprevedibile, caso per caso
Scopo	Elaborazione analitica programmata	Analisi multifunzionale, modellazione e previsione

Oggi, la direzione OLAP è forse la più promettente per risolvere i problemi di gestione analitica. Attraverso un servizio di Report OLAP appositamente creato, i 12 requisiti originariamente formulati dal Dr. Codd sono stati parzialmente rivisti e significativamente integrati sia con accessibilità, come la selezione e l'elaborazione dei dati mancanti, ecc. Ma il nucleo del concetto OLAP è ancora una rappresentazione multidimensionale dei dati a livello concettuale.

Data mart

Secondo la definizione classica, un Data Mart è un sottoinsieme di un data warehouse che riflette le specificità di un reparto (oggetto aziendale) e fornisce produttività incrementata. Quindi, la vetrina è il collegamento su cui uno specifico sistema analitico per risolvere la loro gamma di problemi. Tuttavia, è possibile una situazione in cui alcune aree dell'attività dell'impresa praticamente non sono correlate ad altre ed è possibile costruire il data mart corrispondente in modo autonomo, senza essere vincolati a uno storage aziendale. Quindi la vetrina verrà rifornita di dati direttamente dai sistemi di elaborazione delle transazioni online. Tali data mart sono detti indipendenti, in contrasto con i classici data warehouse dipendenti e riforniti da esso.

In alcuni casi, sembra opportuno implementare un data mart invece di un magazzino completamente formato. I data mart sono meno impegnativi, più economici e più facili da costruire e si basano su server più economici piuttosto che su sistemi multiprocessore. Con questo approccio, non è necessario utilizzare il tutto sistema informativo aziende e supportano procedure complesse per l'aggiornamento sincrono del data mart durante l'aggiornamento del magazzino. Allo stesso tempo, è necessario comprendere che con questo approccio i data mart possono moltiplicarsi in interi complessi di basi informative dati, e naturalmente verrà impostato il compito di gestire le singole strategie di ricerca, manutenzione e ripristino. D'altra parte, costruire un unico magazzino aziendale basato su molti data mart indipendenti è molto più redditizio che fare affidamento sui dati dispersi nei sistemi di elaborazione delle transazioni.

Quindi cosa ha senso utilizzare: un unico repository, data mart autonomi, un repository con mart dipendenti o altre opzioni? Non esiste una risposta universale alla domanda sulla necessità di utilizzare l'una o l'altra opzione. In ogni caso migliore opzione determinato dai requisiti aziendali, dall'intensità della domanda, dall'architettura di rete, dalla reattività richiesta e da altre condizioni.

Tecnologia di implementazione del data warehouse

Quando si costruisce un data warehouse, è naturale seguire un approccio di sviluppo graduale. Sebbene nessuna descrizione del processo di costruzione di un data warehouse come sequenza di fasi possa coprire tutti gli aspetti risposta con i suoi potenziali utenti, manager e analisti, tuttavia, ci sono alcuni passaggi di base che si applicano al processo di costruzione di un'architettura aziendale:

1. Definizione di bisogno utenti finali e costruire un modello delle domande aziendali a cui rispondere.

2. Identificazione dei dati provenienti da fonti aziendali ed esterne che alimenteranno il data warehouse o data mart.

3. Analisi delle fonti di dati e modellizzazione delle funzioni e dei processi coperti da tali fonti. Imparare le regole con cui opera un'impresa è uno dei condizioni essenziali building warehouse o data mart, poiché è sulla base che viene impostato il livello di dettaglio degli elementi nel data warehouse.

4. Determinazione delle procedure di trasformazione, pulizia e integrazione logica dei dati di origine prima del loro conferimento in un data warehouse o data mart, nonché disciplinare l'attuazione di tali procedure di aggiornamento del data warehouse.

5. Creazione di metadati che descrivano le fonti e le modalità di trasformazione dei dati e le logiche del data warehouse. Il repository di metadati dovrebbe includere definizioni di dati, regole di business e logica dettagliata per modellare lo sviluppo dei sistemi analitici.

6. Formazione delle tabelle fisiche del data warehouse e relativa compilazione. Questo processo può richiedere diverse iterazioni, tenendo conto della possibile riprogettazione delle strutture dei dati durante l'analisi dello schema dei dati di archiviazione.

7. Creazione di un repository di data mart, che includerà sottoinsiemi di dati dal magazzino e dati preaggregati. La parte dei metadati descriverà come i dati grezzi del warehouse vengono trasformati, aggregati e memorizzati nella cache nei data mart.

8. Installazione di strumenti OLAP, sistemi applicativi, server Web e tutto il resto strumenti necessari e programmi server necessario per l'accesso ai dati, l'analisi e il reporting.

9. Installazione sulle workstation degli utenti finali di software client (thick client) o browser che lo supportano formati standard dati e applet Java, nonché estensioni necessarie plug-in (client "thin") per l'accesso degli utenti ai dati.

Dopo aver completato il processo di creazione di un data warehouse, può sembrare che tutto sia già fatto. La costituzione di un warehouse, infatti, è un processo che comprende anche le necessarie fasi di continua supervisione e manutenzione del data warehouse. Un controllo corretto comporta non solo il mantenimento della correttezza dei dati, ma anche la loro segretezza, soprattutto se l'accesso ai dati di archiviazione avviene tramite il Web. “Poiché il data warehouse contiene una delle più grandi risorse di un'impresa”, afferma R. Tenler, presidente di Information Advantage, “i dati devono essere protetti. Ma per realizzare il valore potenziale di un data warehouse, un'organizzazione dovrà offrirlo a potenziali acquirenti".

Mantenere un data warehouse in buone condizioni per lungo tempo è un altro compito fondamentale. Questo fattore diventa particolarmente importante quando il numero di utenti che accedono al sistema inizia a crescere. Allo stesso tempo, se in fase di progettazione di un data warehouse servizi di informazione Poiché di solito c'è una riconciliazione completa dei dati, nel tempo l'attenzione delle persone di solito si indebolisce e il data warehouse può trasformarsi in un dump. Per evitare che ciò accada, è necessario nominare dei responsabili della qualità dei dati che verificheranno costantemente le informazioni provenienti dai sistemi di elaborazione delle transazioni con i dati in magazzino o in vetrina.

In conclusione, si può notare che il processo di progettazione di un data warehouse utilizzato per fornire le informazioni necessarie nel processo decisionale a livello aziendale e interaziendale è fondamentale per la vita di un'impresa. Nella fase della sua attuazione, bisogna prestare attenzione non solo alla soluzione problemi tecnici ma anche ai problemi connessi fattore umano. Non dobbiamo inoltre dimenticare la necessità di una valutazione costante dell'adeguatezza degli sforzi compiuti. Oltre alla giusta catena di gestione del progetto, è necessario tenere conto in ogni fase sia delle esigenze degli utenti sia della presenza di aspetti politici che possono rallentare il progetto. Con un approccio competente per risolvere questo problema, il data warehouse potrebbe presto diventare parte di esso sistema commerciale enterprise fornendo a una parte degli utenti di terze parti a pagamento la possibilità di utilizzare i dati da alcuni sottoinsiemi del repository. Questo approccio consentirà non solo di recuperare il lavoro sulla formazione di un data warehouse, ma anche di fornire nuovo canale ricevuta di reddito.

L'evoluzione dei data warehouse

Dagli anni '70, le organizzazioni sono state più interessate a investire i loro soldi in nuove sistemi informatici che nell'automazione dei processi aziendali che utilizzano. Ciò ha consentito loro di aumentare la propria competitività implementando sistemi in grado di fornire ai clienti un insieme di servizi più efficiente e meno costoso. Da allora, le organizzazioni hanno accumulato un'enorme quantità di informazioni che vengono archiviate nei loro database operativi. Ma ora, con la proliferazione dei sistemi di supporto alle decisioni, le organizzazioni tendono a concentrarsi su come utilizzare i dati operativi accumulati, con l'obiettivo di guadagnare ulteriore competitività attraverso questo.

Sistemi precedenti l'elaborazione online non è stata progettata per supportare in alcun modo tali requisiti aziendali, quindi la conversione sistemi convenzionali OLTP nei sistemi di supporto alle decisioni ha dimostrato di essere estremamente compito difficile. In genere, un'organizzazione tipica ne ha molti vari sistemi elaborazioni operative con definizioni sovrapposte e talvolta contrastanti, come ad es tipi diversi scelto per rappresentare gli stessi dati. Il compito principale dell'organizzazione è trasformare gli archivi di dati accumulati in una fonte di nuova conoscenza, e in modo tale che all'utente venga fornita una visione unica, integrata e consolidata dei dati dell'organizzazione. Il concetto di data warehouse è stato concepito come una tecnologia in grado di soddisfare i requisiti dei sistemi di supporto alle decisioni e basata su informazioni provenienti da diverse fonti di dati operativi.

L'approccio più utilizzato alla creazione di un data warehouse è stato proposto da Bill Inmon. Definisce HD in questo modo:

Archivio dati. Specifico del dominio, integrato, vincolato al tempo e un insieme immutabile di dati progettati per supportare il processo decisionale.

Nella definizione di cui sopra, tali caratteristiche dei dati sono trattate come segue.

orientamento alla materia. Il data warehouse è organizzato attorno ai soggetti (o entità) principali dell'organizzazione (come clienti, prodotti e vendite) piuttosto che alle aree applicative (fatturazione del cliente, controllo dell'inventario e vendita dei prodotti). Questa proprietà riflette la necessità di memorizzare i dati destinati a supportare il processo decisionale e non i normali dati operativi e applicati.

Integrazione. Il significato di questa caratteristica è che i dati applicativi di solito provengono da fonti diverse, che spesso hanno una rappresentazione incoerente degli stessi dati, ad esempio, formato diverso. Per fornire all'utente un'unica visione generalizzata dei dati, è necessario creare una fonte integrata che garantisca la coerenza delle informazioni memorizzate.

Collegamento al tempo. I dati a magazzino sono accurati e validi solo se legati a un momento o periodo di tempo. La necessità di collegare il data warehouse al tempo deriva dalla lunga durata del periodo di accumulo delle informazioni in esso memorizzate, dal collegamento esplicito o implicito dei timestamp con tutti i dati archiviati, nonché dal fatto che le informazioni archiviate sono in realtà un insieme di istantanee dello stato dei dati.

Immutabilità. Ciò significa che i dati non vengono aggiornati online, ma solo regolarmente aggiornati con le informazioni provenienti dai sistemi di elaborazione online. Allo stesso tempo, i nuovi dati non sostituiscono mai, ma integrano solo quelli precedenti. Pertanto, il database di archiviazione viene costantemente aggiornato con nuovi dati, coerentemente integrato con le informazioni già accumulate.

L'obiettivo finale di un data warehouse è integrare i dati aziendali in un unico repository a cui gli utenti possono accedere per interrogare, generare report e analizzare i dati. Riassumendo, possiamo dire che la tecnologia di data warehousing è una tecnologia per la gestione dei dati e l'analisi degli stessi.