Cum se configurează smartphone-uri și PC-uri. Portal de informare
  • Acasă
  • Ştiri
  • Analiza datelor - principii de bază. Ce este analiza datelor – definiție

Analiza datelor - principii de bază. Ce este analiza datelor – definiție

Agenția Federală de Comunicații Instituția bugetară pentru educație de stat federală de învățământ superior învăţământul profesional„Universitatea de Stat de Telecomunicații și Informatică Regiunea Volga” ___________________________________________________ Departamentul sisteme informaticeși tehnologii NOTE DE PRELEȚIE PRIVIND DISCIPLINA ACADEMĂ „ANALIZA DATELOR” în specialitatea (direcția de formare): Sisteme și tehnologii informaționale, Informatică de afaceri Samara 2013 UDC 004.02:004.6 Salmin A.A. Analiza datelor. Note de curs. – Samara.: FGOBU VPO „PGUTI”, 2013. - 111 p. 43 4.2. Calculul numărului preconizat de observații 46 4.3. Statistica chi-pătrat Pearson 48 5. BAZELE ANALIZEI REGRESIUNII 51 5.1. Conceptul de „regresie” 51 5.2. Relație liniară simplă 52 5.2.1. Ecuația de regresie 52 5.2.2. Ajustarea unei drepte de regresie 54 5.2.3. Interpretarea parametrilor de regresie 57 5.3. Verificarea modelului de regresie 59 3 6. CORELARE 63 6.1. Conceptul de „corelare” 63 6.2. Matricea de corelație 65 6.3. Matricea graficelor de împrăștiere a corelațiilor 66 7. APARATE DE REGRESIUNE MULTIPLĂ 69 7.1. Ecuaţie regresie multiplă 69 7.2. Testarea ipotezelor de regresie 73 7.3. Regresie în trepte 75 7.4. Regresia logistică 76 7.5. Regresia neliniară 77 8. ANALIZA VARIAȚEI 78 8.1. Analiza unidirecțională a varianței 78 8.2. Analiza unidirecțională a varianței și analiza regresiei 84 8.2. Analiza bifactorială a varianței 86 9. ANALIZA COGNITIVĂ. GRUPURI 92 9.1. Analiza cognitivă 92 9.2. Metode de analiză cognitivă a situaţiilor complexe 93 9.3. Regresie - analiză cognitivă 96 10. ANALIZA INTELIGENTĂ A DATELOR 99 10.1. Sisteme prelucrare analitică date 99 10.1.1. CRM – tehnologie 99 10.1.2. Sisteme ERP 102 10.1.3. OLAP – tehnologie 103 10.2. Exploatarea datelor 105 10.2.1. Etapele cercetării datelor folosind metodele Data Mining 105 10.2.2. Tipuri de modele 106 10.2.3. Metode de date Mineritul 107 4 INTRODUCERE Notele de curs propuse pentru disciplina „Analiza datelor” asigură pregătirea studenților pentru utilizarea eficientă a instrumentelor moderne de analiză a datelor computerizate. Sunt oferite principalele subiecte dedicate formării deprinderilor teoretice și practice în lucrul cu pachete de aplicații software pentru rezolvarea problemelor de analiză și interpretare a datelor pentru a crea prognoze de situație și a lua decizii de management. În cadrul notelor de curs privind disciplina, sunt luate în considerare diverse modalități de creare, formatare și descriere a principiilor de bază de lucru cu tabele de date în scopul analizei lor ulterioare folosind metode statistice și matematice. Astfel, viitorii specialiști dezvoltă bazele cunoștințelor teoretice și abilităților practice în domeniul analizei datelor și al luării deciziilor de management. De asemenea, trebuie remarcat faptul că ca Pentru a stăpâni cursul se propune utilizarea produsului MS Excel, care dispune de suficiente instrumente de analiză a datelor, precum: pachet de analiză, funcții statistice generale ale vrăjitorului funcției etc. În plus, se propune utilizarea suplimentară a plug-in-ului StatPlus. Disciplina „Analiza datelor” se bazează pe cunoașterea disciplinelor „ Tehnologia de informație „, „Electronic 5 tabele”, „Probabilitate și statistică”, studiat în instituțiile de învățământ de învățământ superior. Elementele cursului „Analiza datelor” sunt utilizate în studiul cursurilor „Modelarea sistemelor”, „Proiectarea sistemelor informaționale”, „Fiabilitatea sistemelor informaționale”. Scopul materialului din aceste note de curs este de a: - oferi studenților Informații generale pe principiile prelucrării și analizării datelor în vederea obținerii de noi informații de la acestea;- arata metode, instrumente si tehnologii pentru analiza datelor; - arată cu un exemplu, dar sunt primare în raport cu metodele de prelucrare și analiză a acestora, care extrag din date doar acele informații care sunt potențial disponibile în materialul selectat. Datele sunt obținute ca rezultat al măsurătorilor. Măsurarea se referă la atribuirea simbolurilor modelelor conform unor reguli. Aceste caractere pot fi alfabetice sau numerice. Caracterele numerice pot reprezenta, de asemenea, categorii sau pot fi numerice. Există 4 tipuri de scale de măsurare: 1) Scala de nume. Această scară este utilizată numai în scopuri de clasificare. Fiecărei clase de date i se atribuie propria denumire, astfel încât denumirile diferitelor clase să nu coincidă. De exemplu, clasificarea persoanelor după gen M și F (1 și 2, 10 și 100) sau o categorie da/nu. Mai mult decât atât, operațiile aritmetice nu au sens pentru denumirea scalelor. Pentru această scară 7, centrul de măsurare este modul (un element repetat frecvent). 2) Scara ordinală. Această scară vă permite nu numai să împărțiți datele în clase, ci și să organizați clasele în sine. Fiecărei clase i se atribuie o desemnare diferită, astfel încât ordinea desemnărilor să corespundă ordinii claselor. Dacă numărăm clase, atunci clasele sunt în ordine numerică; dacă notăm clase prin litere, atunci clasele sunt în pentru această scară nici nu au sens.

3) Scala de intervale. Această scară permite nu numai clasificarea și organizarea datelor, ci și cuantificarea diferențelor dintre clase. Pentru a efectua astfel de comparații, este necesar să introduceți o unitate de măsură și un punct de referință arbitrar (punct zero). De exemplu, temperatura în grade Fahrenheit aparține unei scale de interval, unde 0F este începutul și 1F este unitatea de măsură.

4) Scala de relații. Această scară diferă de scara intervalului doar prin faptul că are un punct de referință absolut. Aceste. Această scală poate fi utilizată pentru a determina de câte ori o măsurătoare este superioară alteia. De exemplu: înălțimea unei persoane în inci aparține unei scale de raport în care 0 inci este un punct de referință fix și 1 inch este o unitate de măsură. 8 În plus, observațiile sunt împărțite în: discrete și continue. Datele numite și ordinale sunt întotdeauna discrete, dar datele de interval și date pot fi fie discrete, fie continue. De exemplu, continuu: tragerea la o țintă (orice rezultat), temperatură (scala de interval); discrete: zaruri (1, 2, 3...6), monedă (capete/cozi), număr de convorbiri telefonice într-o oră (scara de raport) (Fig. 1.1).

Orez. 1.1. Date discrete și continue 1.2. Etapele rezolvării problemei analizei datelor și a relațiilor lor Analiza datelor este un set de metode și mijloace de extragere a informațiilor din datele organizate pentru luarea deciziilor.

Principalele etape ale rezolvării problemei de analiză a datelor sunt prezentate în partea stângă a Fig. 1.2. În partea dreaptă, fiecare dintre ele este împărțită în etape mai mici.

9 Etapa 1 1.1. Definirea scopului Enunțarea problemei cercetării 1.2. Determinarea compoziției datelor 1.3. Colectarea datelor 1.4. Selectarea instrumentelor de analiză a datelor 1.5. Formalizarea datelor Etapa 2 2.1. Introducerea datelor în memorie Introducerea datelor computerului în 2.2. Lucrul cu prelucrarea arhivei de date 2.3. Formarea unei sarcini de prelucrare Etapa 3 3.1. Definiție Analiza calitativ-simplică a datelor caracteristice 3.2. Vizualizarea datelor 3.3. Analiza structurii datelor Etapa 4 4.1. Selectarea unui model de date Cantitate 4.2. Efectuarea prelucrării și descrierii datelor Etapa 5 5.1. Analiza rezultatelor Interpretare 5.2. Luarea deciziilor și rezultate Fig. 1.2. Etapele analizei datelor Formularea problemei (este etapa definitorie de care depinde întregul curs de analiză) începe cu etapa de formulare a scopului doar 10

Tutorial

Întocmit în conformitate cu curriculum la disciplina „Analiza datelor pe computer” și cerințele standardului de stat rus. Destinat studenților specialităților 0618000 Metode matematice în economie și 351400 " Informatica aplicataîn economie.” Conține material teoretic despre disciplină, teme pentru orele practice și instrucțiuni pentru implementarea acestora.

Aprobat în ședința Catedrei de Matematică și Modelare din 19.10.08***, procesul-verbal nr. 18 ***

© Editura Universității de Stat din Vladivostok

economie și servicii, 2010

Introducere

Știința modernă și majoritatea domeniilor de activitate practică sunt acum caracterizate de o abordare statistică. Legile economiei pot fi considerate deterministe în medie doar după un studiu mai detaliat, se dovedește că sunt de obicei aleatorii.

Manualul discută aspecte teoretice și întrebări practice analiza datelor statistice. Analiza datelor computerizate ar trebui considerată ca studiul tehnicilor de aplicare practică a metodelor teoretice ale statisticii matematice. Natura aplicată a disciplinei studiate este evidențiată prin concentrarea sa pe utilizarea unui anumit produs software EXCEL.

Procesele și fenomenele socio-economice depind de un număr mare de parametri care le caracterizează, ceea ce provoacă dificultăți asociate cu identificarea structurii relațiilor dintre acești parametri. În astfel de situații, atunci când o decizie este luată pe baza analizei unor informații stocastice, incomplete, este necesar să se utilizeze metode analiza statistica date.

Metodele de analiză a datelor fac posibilă selectarea rezonabilă dintr-o varietate de modele statistice probabilistice posibile pe cel care corespunde cel mai bine datelor statistice inițiale care caracterizează comportamentul real al populației de obiecte studiate, pentru a evalua fiabilitatea și acuratețea concluziilor făcute pe baza de material statistic mare.

Manualul examinează un set de metode statistice profund formalizate bazate pe reprezentarea informațiilor inițiale într-un spațiu geometric multidimensional și care permit determinarea unor modele implicite (latente) dar obiectiv existente în structura organizatoricași tendințele de dezvoltare ale proceselor și fenomenelor socio-economice studiate.

Obiectivul principal al manualului este educarea elevilor fundamente teoretice cele mai comune metode de analiză a datelor statistice și dezvoltarea abilităților în utilizarea instrumentelor software standard care implementează proceduri de analiză a datelor statistice.

Pentru a studia cu succes materialul prezentat în manual, elevul are nevoie de cunoștințe ale principalelor secțiuni ale „Matematică superioară” și „ Statistică matematică" Cunoașterea unor astfel de concepte fundamentale precum: tipuri de variabile aleatoare, caracteristicile variabilelor aleatoare, legile de bază ale distribuției variabilelor aleatoare, metode de evaluare a caracteristicilor eșantionului, bazele inferenței statistice folosind criterii statistice și testarea ipotezelor, regresia liniară și neliniară.

În cursul studierii materialului prezentat în manual, studentul ar trebui să își dezvolte o idee despre situațiile practice specifice în care este necesar să se utilizeze metode de analiză statistică.

Ca urmare a lucrului cu manualul și a îndeplinirii sarcinilor practice, studentul trebuie să atingă un anumit nivel de cunoștințe în domeniul analizei datelor computerizate. Nivelul necesar de cunoștințe este format din trei puncte.

1. maestru:

Conceptul și tehnologia analizei moderne a datelor pe un computer;

Principii de funcționare a software-ului conceput pentru analiza datelor statistice;

Principiile de funcționare a metodelor vizuale moderne de analiză a datelor și utilizarea lor pentru inferența statistică și formularea de ipoteze despre structura datelor.

2. Dezvoltarea capacităţii de a rezolva în mod independent problemele privind alegerea metodelor de analiză în situaţii practice;

3. dobândiți abilități în utilizarea sistemelor software; destinat analizei datelor statistice, precum și testarii modulelor software pe date model.

Conceptul de analiză a datelor este destul de larg. Însuși conceptul de „analiza” ne-a venit de la Grecia anticăși înseamnă „a dezlega”, „a elibera”. În domeniul analizei datelor, există multe definiții și toate sunt diferite. Să ne întoarcem la Marele Dicționar Economic (Institute of New Economics. A.N. Azriliyan, 1997):

Analiza datelor este o direcție de cercetare statistică care include un set de metode de prelucrare sistem multidimensional date observaționale, caracterizate de multe caracteristici. Spre deosebire de metodele matematice și statistice clasice, care presupun un model probabilistic cunoscut de generare a datelor, metodele de analiză a datelor utilizează doar informațiile înregistrate în aceste date.

În general, definiția este corectă și exactă. Dar o altă componentă a unei astfel de analize este, de asemenea, importantă pentru afaceri. Definiția dicționarului vorbește doar despre prelucrarea datelor, dar pentru orice manager sau manager de top, nu este importantă prelucrarea și structurarea datelor în sine. Mult mai interesant și util când etapa finala— căutarea tiparelor ascunse și dobândirea de noi cunoștințe.

Prin urmare, într-un mediu de afaceri în ultima vreme O definiție foarte populară a lui Mario Faria, vicepreședintele Gartner:

Analiza este transformarea datelor în concluzii pe care se vor lua decizii și se vor baza acțiunile folosind oameni, procese și tehnologie.

Este imposibil și incorect să privim analiza datelor doar ca procesare a informațiilor după ce acestea au fost primite și colectate. În primul rând, analiza datelor este un mijloc și o modalitate de testare a ipotezelor și o modalitate de a rezolva problemele cercetătorilor. Prin urmare, printre sarcinile importante ale analizei datelor, evidențiem:

  • prognoza,
  • identificarea abaterilor,
  • primirea de recomandări.

Caracteristicile datelor de analiză

În ceea ce privește caracteristicile sale, datele pe care le folosim în analiză sunt împărțite în 2 grupuri mari:

  • cantitativ
  • si calitate.

Datele calitative sunt importante când cercetare de marketing– care este produsul tău, de ce consumatorii ar trebui să îl „iubească”. Cele mai interesante pentru prognoză sunt, desigur, datele cantitative. Cifrele sunt totul! Pe baza acestora, puteți, de exemplu, prezice scăderi sau creșterea vânzărilor. Și asta, vezi tu, este foarte important. Capacitatea de a achiziționa volumul corect de mărfuri, de a construi un lanț logistic și de a instrui personalul - toate acestea afectează în cele din urmă veniturile companiei.

Cum să analizezi rapid și util?

Există din ce în ce mai multe informații în lume. Un studiu realizat de IBS afirmă că până în 2003, lumea acumulase 5 exaocteți de date (1 EB = 1 miliard de gigaocteți). În 2011, vor exista deja 1,76 zettabytes de date (1 ZB = 1024 exabytes), iar în mai 2015, volumul global de date a fost de peste 6,5 ZB. Potrivit informațiilor din studiul The Data Age 2025, se estimează că până în 2025 vor fi generați mai mult de 400 zettabytes de informații.

Dar principalul este că toate aceste date acumulate conțin informatii importante, cu ajutorul căruia poți și trebuie să prezici, să tragi concluzii și să iei decizii. Pentru a extrage informații utile din întreaga gamă de date acumulate, este necesară prelucrarea acestor date. Sau – analiza datelor.

Procesarea datelor devine din ce în ce mai dificilă. Dacă mai devreme, acum vreo 15 ani, Excel era limita perfecțiunii, acum este cu adevărat un lucru al trecutului. Ca urmare a cererii de analiză a datelor mari, pe piață apar noi soluții pentru afaceri – mici, mijlocii și mari.

Soluțiile de analiză a datelor variază în funcție de costul implementării și de personalul care va fi desfășurat pentru a le gestiona. Există soluții pentru corporații mari, unde, desigur, este imposibil să se facă fără investiții mari - atât în ​​etapa de implementare, cât și ulterior - în etapa de funcționare a soluției (cheltuiala principală o reprezintă specialiștii care lucrează cu software-ul).

Două abordări ale analizei datelor

Orice organizație în cursul activităților sale se străduiește să crească profiturile și să reducă costurile. Alții noi o ajută cu asta tehnologie informatică, utilizare diverse programe automatizarea proceselor de afaceri. Acestea sunt sisteme de contabilitate, contabilitate și depozitare, sisteme de contabilitate de gestiune și multe altele. Cu cât informațiile sunt colectate și sistematizate mai precis și complet, cu atât mai completă va fi înțelegerea proceselor din organizație. Mass-media modernă informațiile vă permit să stocați zeci și sute de gigaocteți de informații, dar fără a utiliza mijloace speciale analiza informațiilor acumulate, astfel de media se transformă pur și simplu într-o gunoi de informații inutile. Foarte des acceptare decizia corectă complicată de faptul că, deși datele sunt disponibile, acestea sunt incomplete sau, dimpotrivă, redundante, pline de informații deloc relevante pentru caz, nesistematizate sau incorect sistematizate. Apoi apelează la ajutorul unui software care face posibilă reducerea informațiilor la o formă care să permită evaluarea faptelor conținute în ea cu un grad suficient de fiabilitate și creșterea probabilității de a lua o decizie optimă.

Există două abordări ale analizei datelor folosind sisteme informaționale.

În prima versiune, programul este utilizat pentru a vizualiza informații - extragerea datelor din surse și furnizarea acestora unei persoane pentru analiză independentă și luare a deciziilor. De obicei, datele furnizate de program sunt un tabel simplu, iar sub această formă este foarte dificil să le analizezi, mai ales dacă există multe date, dar există mai multe moduri convenabile afișează: cuburi, diagrame, histograme, hărți, arbori...

A doua opțiune pentru utilizarea software-ului de analiză este modele de construcție. Modelul simulează un anumit proces, de exemplu, modificări ale volumelor de vânzări ale unui anumit produs, comportamentul clienților etc. Pentru a construi un model, este necesar să preprocesați datele și apoi să le aplicați acestora. metode matematice analiza: clustering, clasificare, regresie etc. Modelul construit poate fi folosit pentru luarea deciziilor, explicarea motivelor, evaluarea semnificatiei factorilor, modelare diverse opțiuni dezvoltare...

Să ne uităm la un exemplu. Oferirea unei reduceri clienților este un stimulent pentru creșterea volumelor de achiziții. Cu cât un anumit produs este vândut mai mult, cu atât profitul este mai mare. Pe de altă parte, cu cât reducerea este mai mare, cu atât markupul este mai mic pentru produs și cu atât vânzările acestui produs aduc mai puțin profit. Să existe un istoric al vânzărilor, reprezentat printr-un tabel cu coloane: dată, volumul vânzărilor, reducere procentuală, markup și profit. Când efectuați o analiză manuală, puteți privi diagrama.

Data Insight (DI):

DI - Regiunea știința datelor, în care experții joacă un rol cheie în prelucrarea datelor. Considerăm această direcție ca fiind îngust focalizată, în interesul scop specific client. Experții caută informații, surse de date, resurse deschise iar pe baza evaluării experților, intuițiile generalizează materialele și formează noi cunoștințe. 80% din toate informațiile de către serviciile de informații ale lumii sunt obținute în acest fel - extragerea cunoștințelor de către experți din surse deschise. Acest lucru este relevant atunci când datele sunt neformalizate și sensul este ascuns. De exemplu: colectarea de informații despre un subiect de interes cu caracteristici de identificare implicite și conexiuni indirecte. Rezultatul cercetării este o notă analitică care indică sursele de date, principiile de identificare și relațiile cauză-efect.

Analiza datelor:

DA este un domeniu de matematică și informatică care se ocupă cu construcția și cercetarea celor mai generale metode matematice și algoritmi de calcul pentru extragerea cunoștințelor din date; proces de explorare, filtrare, transformare și modelare a datelor pentru extragere informatii utileși luarea deciziilor.
Analiza datelor are multe aspecte și abordări, acoperind metode diferite V diverse zoneștiință și activitate.
Analiza datelor este știința studierii datelor brute pentru a trage concluzii despre acele informații. Analiza datelor este utilizată în multe industrii, servicii, pentru a permite companiilor și organizațiilor să facă cele mai bune soluții de afaceri iar în știință, pentru a confirma sau infirma modelele sau teoriile existente.

Analiza datelor diferă de data mining (data minig) în domeniul de aplicare, scopul și focalizarea analizei. Exploatarea datelor operează pe seturi uriașe de date folosind software sofisticat pentru a identifica șabloane ascunseși stabilirea de conexiuni implicite. Analiza datelor se concentrează pe inferență, procesul de a trage concluzii bazate exclusiv pe ceea ce știe deja cercetătorul.

Analiza datelor este în general împărțită în analiza de căutare analiza datelor (EDA), căutarea oportunităților în date și analiza datelor de confirmare (CDA), pentru a confirma sau infirma ipotezele.
Analiza calitativă a datelor (QDA) este utilizată în științele sociale pentru a trage concluzii din date non-numerice, cum ar fi cuvinte, fotografii sau videoclipuri.
Termenul „analitică” este folosit de mulți furnizori de produse de business intelligence (BI) ca un cuvânt la modă pentru a descrie complet diferite funcții. Analiza datelor este folosită pentru a descrie totul, de la procesarea analitică online (OLAP) până la analiza CRM în centrele de apeluri.
Nu ar trebui să izolați analiza „big data” (BigData Analysis), deoarece de fapt, în majoritatea cazurilor, se folosesc aceleași tehnici și metode ca și pentru analiza datelor obișnuite, diferența începe în tehnologii și mecanisme de paralelizare;
DataInsight se deosebește - în acest studiu, accentul nu este pus pe prelucrarea datelor matematice, ci pe evaluarea experților. Identificarea conexiunilor, evaluarea consecințelor.
Miningul de date este o tehnică specifică de analiză a datelor care se concentrează pe modelarea și descoperirea datelor mai degrabă decât pe descrierea acestora.

Exploatarea datelor:

Excesul de date și deficitul de date metode bune analiza lor a condus la o situație de a fi bogat în date, dar sărac în informații. Volumul în creștere rapidă de date acumulate a depășit rapid capacitatea umană de a le procesa. Ca urmare, bazele de date mari au devenit morminte de date - arhive care sunt rar vizitate. Ca o consecință, decizii importante sunt realizate nu pe baza bazelor de date bogate în informații, ci pe baza intuiției decidentului, deoarece acesta nu dispune de instrumentele adecvate pentru a extrage cunoștințe utile din volume uriașe de date. Tehnologia Intelligent Data Analysis vă permite să extrageți cunoștințe utile, modele importante, promovând îmbunătățirea strategii de afaceri, baze de cunoștințe, cercetare științifică și medicală. Vom numi data mining procesul de identificare a cunoștințelor noi, corecte și potențial utile pe baza unor cantități mari de date. Cunoștințele extrase ca rezultat al analizei intelectuale se numesc model.

Un model poate fi, de exemplu, o afirmație non-trivială despre structura datelor, despre modele existente, despre dependența dintre atribute etc. Astfel, provocarea minării de date este de a extrage în mod eficient modele semnificative din seturi de date la scară largă.
Pentru screening cantitate mare posibile modele slab utile, poate fi introdusă o funcție de utilitate. În realitate, aprecierea utilităţii cunoştinţelor este subiectivă, adică depinde de utilizator specific. Există două caracteristici principale ale cunoștințelor „interesante”:
Surprinde. Cunoștințele sunt „surprinzătoare” pentru utilizator și pot aduce informații noi.
Aplicabilitate. Utilizatorul poate folosi noile cunoștințe pentru a-și atinge obiectivele.

Cunoștințele interesante, tiparele, informațiile de nivel înalt obținute în urma analizei datelor pot fi utilizate pentru luarea deciziilor, controlul proceselor, managementul informațiilor și procesarea cererilor. Prin urmare, tehnologia data mining este considerată unul dintre cele mai importante și promițătoare subiecte pentru cercetare și aplicare în industria tehnologiei informației.

Etapele procesului de extragere a datelor:
  1. 1. Studiul disciplinei, în urma căruia se formulează principalele scopuri ale analizei.
  2. 2. Colectarea datelor.
  3. 3. Preprocesarea datelor: (a) Curățarea datelor – eliminarea inconsistențelor și a „zgomotului” aleatoriu din datele sursă (b) Integrarea datelor – combinarea datelor din mai multe surse posibileîntr-o singură stocare (c) Transformarea datelor. În această etapă, datele sunt convertite într-o formă adecvată pentru analiză. Sunt adesea folosite agregarea datelor, eșantionarea atributelor, compresia datelor și reducerea dimensionalității.

  4. 4. Analiza datelor. Ca parte a acestei etape, algoritmii de minerit sunt utilizați pentru a extrage modele.
  5. 5. Interpretarea tiparelor găsite. Această etapă poate include vizualizarea tiparelor extrase, identificarea tiparelor cu adevărat utile bazate pe o funcție de utilitate.
  6. 6. Utilizarea noilor cunoștințe.
Data Mining (DM) este procesul de descoperire în date brute (date de rând) a cunoștințelor (patternelor) necunoscute anterior, nebanale, utile practic, interpretabile necesare pentru luarea deciziilor în diverse sfere ale activității umane (G. Pyatetsky-Shapiro) .

Volume mari de date acumulate trebuie să fie modificate în mod constant din cauza schimbare rapidă hardware și software pentru baze de date, cu pierderi și distorsiuni inevitabile ale informațiilor. Unul dintre mijloacele de depășire a unor astfel de dificultăți este crearea de depozite de date informaționale, accesul la care nu va depinde foarte mult de modificările date în timp și de software-ul utilizat. O altă abordare se concentrează pe comprimarea unor cantități mari de date prin găsirea unor modele generale (cunoștințe) în informațiile acumulate. Ambele direcții sunt relevante din punct de vedere practic.

Disponibilitatea stocării datelor de informații - conditie necesara pentru finalizarea cu succes a întregului proces de DataMining. Un depozit de informații este o colecție de date specifică domeniului, integrată, limitată în timp și imuabilă, utilizată pentru a sprijini luarea deciziilor de management. Specific domeniului înseamnă că datele sunt clasificate și stocate în funcție de domeniile pe care le descrie, mai degrabă decât în ​​funcție de aplicațiile care le folosesc. Acest principiu de stocare asigură că rapoartele generate de diferiți analiști se vor baza pe același set de date. Bazat pe timp înseamnă că depozitul poate fi văzut ca o colecție de date istorice, de ex. valorile specifice ale datelor sunt asociate în mod unic cu anumite momente în timp. Atributul time este întotdeauna prezent în mod explicit în structurile depozitului de date. Spre deosebire de datele introduse în stocare nu se mai modifică sisteme de operare, unde sunt prezente doar cele mai recente versiuni ale datelor, aflate în continuă schimbare.

Tehnologiile DM folosesc diverse metode și algoritmi matematici: clasificare, clustering, regresie, prognoza serii temporale, asociere, succesiune.

Clasificarea este un instrument de generalizare. Ne permite să trecem de la luarea în considerare a obiectelor individuale la concepte generalizate care caracterizează anumite colecții de obiecte și sunt suficiente pentru a recunoaște obiectele aparținând acestor colecții (clase). Esența procesului de formare a conceptelor este găsirea tiparelor caracteristice claselor. Pentru a descrie obiectele, sunt folosite multe caracteristici (atribute) diferite Problema formării conceptelor pe baza descrierilor de caracteristici a fost formulată de M. M. Bongart. Soluția sa se bazează pe aplicarea a două proceduri principale: instruire și testare. În procedurile de antrenament, o regulă de clasificare este construită pe baza procesării setului de obiecte de antrenament. Procedura de verificare (examinare) constă în utilizarea regulii de clasificare rezultată pentru a recunoaște obiectele dintr-o nouă probă (de examinare). Dacă rezultatele testelor sunt considerate satisfăcătoare, atunci procesul de învățare se termină în caz contrar, regula de clasificare este rafinată în procesul de reinstruire.

Clustering este distribuția de informații (înregistrări) dintr-o bază de date în grupuri (clustere) sau segmente cu definirea simultană a acestor grupuri. Spre deosebire de clasificare, analiza aici nu necesită repartizarea preliminară a claselor.
Analiza de regresie este utilizată dacă relațiile dintre atributele obiectelor din baza de date sunt exprimate în termeni cantitativi. Ecuațiile de regresie construite fac posibilă calcularea valorilor atributelor dependente folosind valori date semne independente.
Prognoza serii temporale este un instrument de identificare a tendințelor în timp ale atributelor obiectelor luate în considerare. Analiza comportamentului seriilor temporale permite prezicerea valorilor caracteristicilor studiate.
Asocierea vă permite să identificați grupuri stabile de obiecte între care există conexiuni implicite. Frecvența de apariție a unui element individual sau a unui grup de elemente, exprimată ca procent, se numește prevalență. Nivel scăzut prevalența (mai puțin de o miime de unu la sută) sugerează că o astfel de asociere nu este semnificativă.

Un exemplu tipic de utilizare a asocierii este analiza modelelor de cumpărare. De exemplu, la efectuarea unui studiu într-un supermarket, poți constata că 65% dintre cei care cumpără chipsuri de cartofi cumpără și Coca-Cola, iar dacă există reducere la un astfel de set, cumpără Cola în 85% din cazuri. Astfel de rezultate sunt valoroase în modelarea strategiilor de marketing.

Secvența este o metodă de identificare a asociațiilor în timp. ÎN în acest caz, sunt definite reguli care descriu apariția secvențială a anumitor grupuri de evenimente. Astfel de reguli sunt necesare pentru construirea scenariilor. În plus, ele pot fi utilizate, de exemplu, pentru a formula un set tipic de vânzări anterioare care pot duce la vânzări ulterioare ale unui anumit produs.

Instrumentele DM inteligente includ rețele neuronale, arbori de decizie, inferență inductivă, raționament analogic, inferență neclară, algoritmi genetici, algoritmi de asociere și de detectare a secvenței, analiza acțiunilor selective, regresia logică, programarea evolutivă, vizualizarea datelor. Uneori, metodele enumerate sunt utilizate în diferite combinații.

Rețelele neuronale aparțin clasei neliniare sisteme adaptative cu o arhitectură care imită condiționat țesutul nervos format din neuroni. Model matematic Un neuron este un fel de element neliniar universal care permite modificarea și ajustarea caracteristicilor acestuia. Rețelele neuronale sunt utilizate pe scară largă pentru a rezolva probleme de clasificare. Rețeaua construită trebuie mai întâi „antrenată” folosind exemple pentru care sunt cunoscute valorile datelor inițiale și rezultatele. Procesul de „antrenare” a rețelei constă în selectarea ponderilor conexiunilor interneuronice și modificarea parametri interni funcția de activare a neuronilor. Rețeaua „antrenată” este capabilă să clasifice noi obiecte (sau să rezolve alte exemple), dar regulile de clasificare rămân necunoscute utilizatorului.

Arborele de decizie reprezintă o metodă de structurare a unei probleme sub forma unui grafic arborescent, ale cărui vârfuri corespund regulilor de producție care vă permit să clasificați datele sau să analizați consecințele deciziilor. Această metodă oferă o reprezentare vizuală a sistemului de reguli de clasificare, dacă nu sunt foarte multe. Problemele simple pot fi rezolvate folosind această metodă mult mai rapid decât folosind rețelele neuronale. Pentru probleme complexe iar pentru unele tipuri de date, arborii de decizie pot să nu fie adecvati. În plus, această metodă este caracterizată de problema semnificației. Una dintre consecințele grupării ierarhice a datelor este că pentru multe cazuri speciale nu există un număr suficient de exemple de instruire și, prin urmare, clasificarea nu poate fi considerată fiabilă.

Inferențele inductive ne permit să obținem generalizări ale faptelor stocate în baza de date. Procesul de învățare inductivă poate implica un specialist care furnizează ipoteze. Această metodă se numește învățare supravegheată. Căutarea regulilor de generalizare poate fi efectuată fără profesor de generare automată ipoteze. În modern software De regulă, ambele metode sunt combinate, iar metodele statistice sunt folosite pentru a testa ipotezele.

Raționamentul bazat pe caz (CBR) se bazează pe căutarea în baza de date a situațiilor ale căror descrieri sunt similare în mai multe moduri cu o situație dată. Principiul analogiei ne permite să presupunem că rezultatele unor situații similare vor fi, de asemenea, aproape unele de altele. Dezavantajul acestei abordări este că nu creează niciun model sau reguli care să generalizeze experiența anterioară. În plus, fiabilitatea rezultatelor deduse depinde de caracterul complet al descrierii situațiilor, ca în procesele de inferență inductive.

Logica fuzzy este folosită pentru a procesa date cu valori de adevăr neclare care pot fi reprezentate printr-o varietate de variabile lingvistice. Reprezentarea cunoștințelor fuzzy este utilizată pe scară largă în sistemele de inferență (deductiv, inductiv, abductiv) pentru a rezolva probleme de clasificare și prognoză.

Algoritmii genetici fac parte din setul de instrumente DM ca un instrument puternic pentru rezolvarea problemelor combinatorii și de optimizare. Ele sunt adesea folosite în combinație cu rețele neuronale. Aplicare în sarcinile de extragere a cunoștințelor algoritmi genetici este asociată cu dificultatea de a aprecia semnificaţia statistică a soluţiilor obţinute şi cu dificultăţile de a construi criterii de selectare a soluţiilor de succes.

Regresia logică este utilizată pentru a prezice probabilitatea de apariție a unei anumite valori a unei variabile țintă discrete. O variabilă dependentă (țintă) discretă nu poate fi modelată folosind metode multivariate convenționale. regresie liniară. Cu toate acestea, probabilitatea unui rezultat poate fi reprezentată în funcție de variabilele de intrare, ceea ce permite obținerea unor estimări cantitative ale influenței acestor parametri asupra variabilei dependente. Probabilitățile obținute pot fi folosite și pentru estimarea șanselor. Regresia logică este, pe de o parte, un instrument de clasificare care este utilizat pentru a prezice valorile variabilelor categoriale, iar pe de altă parte, este un instrument de regresie care vă permite să evaluați gradul de influență a factorilor de intrare asupra rezultat.

Programarea evolutivă este cea mai nouă și mai promițătoare ramură a DM. Esența metodei este că se formulează ipoteze despre forma de dependență a variabilei țintă față de alte variabile. sistem informatic sub formă de programe într-un limbaj de programare intern specific. Dacă aceasta limbaj universal, atunci teoretic este capabil să exprime dependențele formă liberă. Procesul de construire a unor astfel de programe este organizat ca evoluție în lumea programelor. Când sistemul găsește un program care exprimă suficient de precis dependența dorită, începe să-i facă mici modificări și le selectează pe cele care sunt cele mai precise dintre programele copil construite. Apoi dependențele găsite sunt traduse din limbaj intern sisteme pornite ușor de utilizat limba ( formule matematice, mese etc.). În acest caz, instrumentele de vizualizare sunt utilizate în mod activ.

Cele mai bune articole pe această temă