Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Vijesti
  • Analiza podataka - osnovni principi. Šta je analiza podataka – definicija

Analiza podataka - osnovni principi. Šta je analiza podataka – definicija

Federalna agencija za komunikacije Federalna državna obrazovna budžetska ustanova visokog obrazovanja stručno obrazovanje Odeljenje „Volški državni univerzitet za telekomunikacije i informatiku“ ___________________________________________________ informacioni sistemi i tehnologije BILJEŠKE PREDAVANJA IZ AKADEMSKE DISCIPLINE “ANALIZA PODATAKA” iz specijalnosti (smjer obuke): Informacioni sistemi i tehnologije, Poslovna informatika Samara 2013 UDK 004.02:004.6 Salmin A.A. Analiza podataka. Bilješke sa predavanja. – Samara.: FGOBU VPO “PGUTI”, 2013. - 111 str. Razmatrana su pitanja analize podataka. Predstavljene su neke od osnovnih metoda analize podataka, kao što su: regresiona analiza, korelacija, analiza varijanse, itd. Pitanja data mininga, uz pomoć kojih možete identifikovati do sada nepoznate, netrivijalne obrasce u podacima, odražavaju se. Recenzent: Tarasov V.N. – doktor tehničkih nauka, profesor, dr. Katedra za „Softver i upravljanje u tehničkim sistemima“ PGUTI Federalna državna obrazovna budžetska ustanova visokog stručnog obrazovanja „Volški državni univerzitet za telekomunikacije i informatiku“ © Salmin A.A., 2013. 2 Sadržaj bilješke sa predavanja UVOD 5 1. UVOD U „ANALIZU PODATAKA“ 7 1.1. Rad s podacima 7 1.2. Faze rješavanja problema analize podataka i njihovih odnosa 9 2. DISTRIBUCIJA VEROVATNOĆA 18 2.1. Vjerovatnoća 18 2.2. Distribucije vjerovatnoće 20 2.3. Slučajne varijable i slučajni uzorci podataka 23 2.4. Normalna distribucija 24 2.2.5.Bayesova formula STATI 3.1 Intervali pouzdanosti 30 3.2 Testiranje hipoteza 32 3.2.1. Vrste grešaka 33 3.2.2. Oblasti prihvatanja i neprihvatanja 34 3.2.3. t-distribucija 35 3.3. Primjena neparametarskog testa za uparene podatke 39 4. ANALIZA TABELSKIH PODATAKA 43 4.1. Pivot table 43 4.2. Proračun očekivanog broja zapažanja 46 4.3. Pearsonova hi-kvadrat statistika 48 5. OSNOVE REGRESIJNE ANALIZE 51 5.1. Koncept „regresije“ 51 5.2. Jednostavan linearni odnos 52 5.2.1. Jednačina regresije 52 5.2.2. Podešavanje linije regresije 54 5.2.3. Interpretacija parametara regresije 57 5.3. Provjera regresijskog modela 59 3 6. KORELACIJA 63 6.1. Koncept „korelacije“ 63 6.2. Korelaciona matrica 65 6.3. Matrica dijagrama rasipanja korelacija 66 7. APARAT VIŠE REGRESIJE 69 7.1. Jednačina višestruka regresija 69 7.2. Testiranje pretpostavki regresije 73 7.3. Postepena regresija 75 7.4. Logistička regresija 76 7.5. Nelinearna regresija 77 8. ANALIZA VARIJANCE 78 8.1. Jednosmjerna analiza varijanse 78 8.2. Jednosmjerna analiza varijanse i regresiona analiza 84 8.2. Dvofaktorska analiza varijanse 86 9. KOGNITIVNA ANALIZA. GRUPE 92 9.1. Kognitivna analiza 92 9.2. Metode kognitivne analize složenih situacija 93 9.3. Regresija - kognitivna analiza 96 10. INTELIGENTNA ANALIZA PODATAKA 99 10.1. Sistemi analitička obrada podaci 99 10.1.1. CRM – tehnologija 99 10.1.2. ERP sistemi 102 10.1.3. OLAP – tehnologija 103 10.2. Data Mining 105 10.2.1. Faze istraživanja podataka korištenjem Data Mining metoda 105 10.2.2. Vrste obrazaca 106 10.2.3. Data Methods Rudarstvo 107 4 UVOD Predložene beleške sa predavanja za disciplinu „Analiza podataka“ obezbeđuju da se studenti osposobe za efikasno korišćenje savremenih kompjuterskih alata za analizu podataka. Ponuđene su glavne teme posvećene formiranju teorijskih i praktičnih vještina u radu sa aplikativnim softverskim paketima za rješavanje problema analize i interpretacije podataka za kreiranje prognoze situacije i donošenje upravljačkih odluka. U okviru bilješke iz ove discipline razmatraju se različiti načini kreiranja, formatiranja i opisivanja osnovnih principa rada sa tabelama podataka u svrhu njihove naknadne analize statističkim i matematičkim metodama. Tako budući stručnjaci razvijaju temelje teorijskih znanja i praktičnih vještina u oblasti analize podataka i donošenja upravljačkih odluka. Takođe treba napomenuti da kao softver Za savladavanje predmeta predlaže se korištenje MS Excel proizvoda koji ima dovoljno alata za analizu podataka, kao što su: paket za analizu, opšte statističke funkcije čarobnjaka funkcija itd. Osim toga, predlaže se dodatno korištenje dodatka StatPlus. Disciplina „Analiza podataka“ zasniva se na poznavanju predmeta „ informacione tehnologije“, „Elektronskih 5 tabela“, „Vjerovatnoća i statistika“, studirao u obrazovnim ustanovama visokog obrazovanja. Elementi predmeta „Analiza podataka“ koriste se u izučavanju predmeta „Modeliranje sistema“, „Projektovanje informacionih sistema“, „Pouzdanost informacionih sistema“. Svrha materijala u bilješkama sa predavanja je da: - pruži studentima opće informacije o principima obrade i analize podataka u cilju dobijanja novih informacija od njih; - pokazati metode, alate i tehnologije za analizu podataka; - pokazati na primjeru regresiona analiza princip dobijanja novih znanja iz podataka. Znanja i vještine stečene kao rezultat izučavanja ove discipline mogu se primijeniti: 1. prilikom provođenja analize podataka u cilju dobijanja statističkih informacija ili predviđanja situacije; 2. interpretirati rezultate dobijene tokom analize; 3. prilikom formulisanja projektni zadatak kada kreiraju IP od strane profesionalnih programera. 6 1. UVOD U “ANALIZU PODATAKA” 1.1. Rad sa podacima Podaci su činjenice, događaji, poruke, izmjerene karakteristike i snimljeni signali koje osoba percipira. Specifičnost podataka je u tome što, s jedne strane, postoje nezavisno od posmatrača, as druge, postaju stvarni „podaci“ tek kada postoji subjekt koji ih namenski prikuplja. Zaključak: podaci bi trebali biti temelj na kojem se grade svi zaključci, zaključci i odluke. Oni su sekundarni u odnosu na svrhu studije i predmetna oblast, ali su primarni u odnosu na metode njihove obrade i analize, kojima se iz podataka izdvajaju samo one informacije koje su potencijalno dostupne u okviru odabranog materijala. Podaci se dobijaju kao rezultat merenja. Mjerenje se odnosi na dodjeljivanje simbola uzorcima prema nekom pravilu. Ovi znakovi mogu biti abecedni ili numerički. Numerički znakovi također mogu predstavljati kategorije ili biti numerički. Postoje 4 vrste mjernih skala: 1) Imenska skala. Ova skala se koristi samo u svrhe klasifikacije. Svaka klasa podataka ima svoju oznaku tako da se oznake različitih klasa ne poklapaju. Na primjer, razvrstavanje ljudi prema spolu M i Ž (1 i 2, 10 i 100) ili kategoriji da/ne. Štaviše, aritmetičke operacije nemaju smisla za imenovanje skala. Za ovu skalu 7, centar mjerenja je mod (element koji se često ponavlja). 2) Redna skala. Ova skala vam omogućava ne samo da podijelite podatke u klase, već i da organizirate same klase. Svakoj klasi je dodeljena drugačija oznaka tako da redosled oznaka odgovara redosledu klasa. Ako numerišemo klase, onda su klase u numeričkom redu; ako klase označavamo slovima, onda su klase in abecedni red. Na primjer, potrebno je identificirati pojedince prema tri socio-ekonomske kategorije – niska, srednja, visoka: 1 – niska, 2 – srednja, 3 – visoka; ili X – nisko, Y – srednje, Z – visoko. Koristi se bilo koja oznaka brojeva ili slova. Aritmetičke operacije za ovu skalu takođe nema smisla. 3) Intervalna skala. Ova skala omogućava ne samo da se klasifikuju i organizuju podaci, već i da se kvantifikuju razlike između klasa. Za izvođenje takvih poređenja potrebno je unijeti mjernu jedinicu i proizvoljnu referentnu tačku (nultu tačku). Na primjer, temperatura u stepenima Farenhajta pripada intervalnoj skali, gdje je 0F početak, a 1F mjerna jedinica. 4) Skala odnosa. Ova skala se razlikuje od intervalne skale samo po tome što ima apsolutnu referentnu tačku. One. Ova skala se može koristiti za određivanje koliko puta je jedno mjerenje superiornije od drugog. Na primjer: visina osobe u inčima pripada skali omjera u kojoj je 0 inča fiksna referentna tačka, a 1 inč jedinica mjere. 8 Osim toga, opažanja se dijele na: diskretna i kontinuirana. Imenovani i redni podaci su uvijek diskretni, ali intervalni i relativni podaci mogu biti diskretni ili kontinuirani. Na primjer, kontinuirano: pucanje u metu (bilo koji ishod), temperatura (skala intervala); diskretno: kockice (1, 2, 3...6), novčić (glave/repe), broj telefonskih poziva u jednom satu (skala omjera) (slika 1.1). Rice. 1.1. Diskretni i kontinuirani podaci 1.2. Faze rješavanja problema analize podataka i njihovih odnosa Analiza podataka je skup metoda i sredstava za izdvajanje informacija iz organiziranih podataka za donošenje odluka. Glavne faze rješavanja problema analize podataka prikazane su na lijevoj strani Sl. 1.2. Na desnoj strani svaka od njih je podijeljena na manje etape. 9 Faza 1 1.1. Definicija cilja Izjava o problemu istraživanja 1.2. Određivanje sastava podataka 1.3. Prikupljanje podataka 1.4. Odabir alata za analizu podataka 1.5. Formalizacija podataka Faza 2 2.1. Unos podataka u memoriju Unos kompjuterskih podataka u 2.2. Rad sa obradom arhive podataka 2.3. Formiranje zadatka obrade 3. faza 3.1. Definicija Kvalitativno-jednostavna analiza karakterističnih podataka 3.2. Vizualizacija podataka 3.3. Analiza strukture podataka Faza 4 4.1. Odabir modela podataka Količina 4.2. Izvođenje obrade i opisa podataka Faza 5 5.1. Analiza rezultata Tumačenje 5.2. Donošenje odluka i rezultati Sl. 1.2. Faze analize podataka Formulacija problema (definirajuća je faza od koje zavisi čitav tok analize) počinje sa fazom samo formulacije cilja 10

Tutorial

BBK 22.172ya73

Recenzenti:

Martyshenko S.N.

Kompjuterska analiza podataka:

Tutorial. – Vladivostok: Izdavačka kuća VGUES, 2010. – 80 str.

Sastavljeno u skladu sa nastavni plan i program u disciplini „Računarska analiza podataka“ i zahtjevima ruskog državnog standarda. Namijenjen studentima specijalnosti 0618000 Matematičke metode u ekonomiji i 351400" Primijenjena informatika u ekonomiji“. Sadrži teorijski materijal iz discipline, zadatke za praktičnu nastavu i uputstva za njihovu realizaciju.

Odobreno na sjednici Katedre za matematiku i modelarstvo dana 19.10.2008. godine***, zapisnik broj 18 ***

© Izdavačka kuća Vladivostok State University

ekonomija i usluga, 2010

Uvod

Modernu nauku i većinu oblasti praktične aktivnosti danas karakteriše statistički pristup. Zakoni ekonomije se samo u prosjeku mogu smatrati determinističkim; nakon detaljnijeg proučavanja, ispostavlja se da su oni tipično nasumične prirode.

Priručnik razmatra teorijske i praktična pitanja analiza statističkih podataka. Kompjutersku analizu podataka treba posmatrati kao proučavanje tehnika za praktičnu primenu teorijskih metoda matematičke statistike. Primijenjena priroda discipline koja se izučava je naglašena njenim fokusom na korištenje specifičnog EXCEL softverskog proizvoda.

Društveno-ekonomski procesi i pojave zavise od velikog broja parametara koji ih karakterišu, što uzrokuje poteškoće u identifikaciji strukture odnosa između ovih parametara. U takvim situacijama, kada se odluka donosi na osnovu analize stohastičkih, nepotpunih informacija, potrebno je koristiti metode Statistička analiza podaci.

Metode analize podataka omogućavaju da se između niza mogućih vjerovatnostističkih statističkih modela razumno odabere onaj koji najbolje odgovara početnim statističkim podacima koji karakteriziraju stvarno ponašanje proučavane populacije objekata, da se ocijeni pouzdanost i tačnost zaključaka donesenih na osnovu velikog statističkog materijala.

Priručnik ispituje skup duboko formaliziranih statističkih metoda zasnovanih na predstavljanju početnih informacija u višedimenzionalnom geometrijskom prostoru i omogućavajući određivanje implicitnih (latentnih) ali objektivno postojećih obrazaca u organizacijske strukture i trendovi razvoja proučavanih društveno-ekonomskih procesa i pojava.

Osnovni cilj priručnika je edukacija učenika teorijske osnove najčešće metode statističke analize podataka i razvoj vještina u korištenju standardnih softverskih alata koji implementiraju procedure statističke analize podataka.

Za uspješno proučavanje materijala predstavljenog u priručniku, studentu je potrebno poznavanje glavnih odjeljaka "Viša matematika" i " Math statistics" Poznavanje osnovnih pojmova kao što su: vrste slučajne varijable, karakteristike slučajnih varijabli, osnovni zakoni distribucije slučajnih varijabli, metode za procjenu karakteristika uzorka, osnove statističkog zaključivanja korištenjem statističkih kriterija i testiranje hipoteza, linearna i nelinearna regresija.

U toku proučavanja gradiva prikazanog u priručniku, student treba da razvije ideju o konkretnim praktičnim situacijama u kojima je potrebno koristiti metode statističke analize.

Kao rezultat rada sa priručnikom i izvršavanja praktičnih zadataka, student mora postići određeni nivo znanja iz oblasti kompjuterske analize podataka. Potreban nivo znanja sastoji se od tri boda.

1. majstor:

Koncept i tehnologija savremene analize podataka na računaru;

Principi rada softvera dizajniranog za statističku analizu podataka;

Principi rada savremenih vizuelnih metoda analize podataka i njihova upotreba za statističko zaključivanje i formulisanje hipoteza o strukturi podataka.

2. Razvijati sposobnost samostalnog rješavanja problema u vezi sa izborom metoda analize u praktičnim situacijama;

3. steći vještine korištenja softverskih sistema; namijenjen za statističku analizu podataka, kao i testiranje softverskih modula na podacima modela.

Koncept analize podataka je prilično širok. Sam koncept „analize“ je došao do nas Ancient Greece i znači "otkriti", "osloboditi". U području analize podataka postoji mnogo definicija i sve su različite. Okrenimo se Velikom ekonomskom rječniku (Institut za novu ekonomiju. A.N. Azriliyan, 1997):

Analiza podataka je pravac statističkog istraživanja koji uključuje skup metoda obrade multidimenzionalni sistem opservacijski podaci, koje karakteriziraju mnoge karakteristike. Za razliku od klasičnih matematičkih i statističkih metoda, koje pretpostavljaju poznati probabilistički model generiranja podataka, metode analize podataka koriste samo informacije koje su zabilježene u tim podacima.

Generalno, definicija je tačna i tačna. Ali još jedna komponenta takve analize je takođe važna za poslovanje. Definicija rječnika govori samo o obradi podataka, ali za svakog menadžera ili top menadžera nije važna sama obrada i strukturiranje podataka. Mnogo zanimljivije i korisnije kada Završna faza— traženje skrivenih obrazaca i sticanje novih znanja.

Dakle, u poslovnom okruženju U poslednje vreme Vrlo popularna definicija Maria Faria, potpredsjednika Gartnera:

Analiza je transformacija podataka u zaključke na kojima će se donositi odluke i temeljiti akcije korištenjem ljudi, procesa i tehnologije.

Nemoguće je i netačno na analizu podataka gledati samo kao na obradu informacija nakon što su one primljene i prikupljene. Prije svega, analiza podataka je sredstvo i način testiranja hipoteza i način rješavanja problema istraživača. Stoga među važnim zadacima analize podataka izdvajamo:

  • predviđanje,
  • identifikovanje odstupanja,
  • primanje preporuka.

Karakteristike podataka analize

Po svojim karakteristikama, podaci koje koristimo u analizi podijeljeni su u 2 velike grupe:

  • kvantitativno
  • i kvaliteta.

Kvalitativni podaci su važni kada marketinško istraživanje– koji je vaš proizvod, zašto bi ga potrošači trebali „voleti“. Najzanimljiviji za prognoziranje su, naravno, kvantitativni podaci. Brojevi su sve! Na osnovu njih možete, na primjer, predvidjeti pad ili rast prodaje. A ovo je, vidite, veoma važno. Mogućnost kupovine odgovarajuće količine robe, izgradnje logističkog lanca i obuke osoblja - sve to u konačnici utiče na prihod kompanije.

Kako analizirati brzo i korisno?

U svijetu je sve više informacija. Studija IBS-a navodi da je do 2003. godine svijet akumulirao 5 eksabajta podataka (1 EB = 1 milijarda gigabajta). U 2011. već će postojati 1,76 zetabajta podataka (1 ZB = 1024 eksabajta), a u maju 2015. globalni obim podataka bio je veći od 6,5 ZB. Prema informacijama iz studije The Data Age 2025, predviđa se da će do 2025. godine biti generisano više od 400 zetabajta informacija.

Ali glavna stvar je da svi ti akumulirani podaci sadrže važna informacija, uz pomoć kojih možete i trebate predviđati, donositi zaključke i donositi odluke. Da bi se iz čitavog niza akumuliranih podataka izdvojile korisne informacije, neophodna je obrada ovih podataka. Ili – analiza podataka.

Obrada podataka postaje sve teža. Ako je ranije, prije 15-ak godina, Excel bio granica savršenstva, sada je to zaista prošlost. Prateći potražnju za analizom velikih podataka, na tržištu se pojavljuju nova rješenja za poduzeća – mala, srednja i velika.

Rješenja za analizu podataka razlikuju se ovisno o cijeni implementacije i osoblju koje će biti raspoređeno da njima upravlja. Postoje rješenja za velike korporacije, gdje je, naravno, nemoguće bez velikih ulaganja - kako u fazi implementacije, tako i kasnije - u fazi rada rješenja (glavni trošak su stručnjaci koji rade sa softverom).

Dva pristupa analizi podataka

Svaka organizacija u toku svojih aktivnosti nastoji da poveća profit i smanji troškove. U tome joj pomažu novi Računarske tehnologije, upotreba razni programi automatizacija poslovnih procesa. To su računovodstveni, računovodstveni i skladišni sistemi, sistemi upravljačkog računovodstva i mnogi drugi. Što se tačnije i potpunije informacije prikupljaju i sistematiziraju, to će biti potpunije razumijevanje procesa u organizaciji. Moderni mediji informacije vam omogućavaju da pohranite desetine i stotine gigabajta informacija, ali bez upotrebe specijalnim sredstvima analizom nagomilanih informacija takvi mediji se jednostavno pretvaraju u deponiju beskorisnih informacija. Vrlo često prihvatanje ispravna odluka komplikovano činjenicom da su podaci, iako su dostupni, nepotpuni, ili, obrnuto, suvišni, pretrpani informacijama koje uopšte nisu relevantne za predmet, nesistematizovane ili netačno sistematizovane. Zatim pribjegavaju pomoći softverskih alata koji omogućavaju svođenje informacija na oblik koji omogućava procjenu činjenica sadržanih u njima s dovoljnim stupnjem pouzdanosti i povećava vjerojatnost donošenja optimalne odluke.

Postoje dva pristupa analizi podataka korišćenjem informacionih sistema.

U prvoj verziji program se koristi za vizualizaciju informacija - izdvajanje podataka iz izvora i pružanje ih osobi na samostalnu analizu i donošenje odluka. Obično su podaci koje pruža program jednostavna tabela i u ovom obliku ih je vrlo teško analizirati, pogotovo ako ima puno podataka, ali ih ima više pogodne načine prikazuje: kocke, grafikone, histograme, karte, stabla...

Druga opcija za korištenje softvera za analizu je građevinski modeli. Model simulira određeni proces, na primjer, promjene u obimu prodaje određenog proizvoda, ponašanje kupaca itd. Da biste izgradili model, potrebno je prethodno obraditi podatke i zatim ih primijeniti na njih. matematičke metode analiza: grupisanje, klasifikacija, regresija itd. Konstruisani model se može koristiti za donošenje odluka, objašnjenje razloga, procenu značaja faktora, modeliranje razne opcije razvoj...

Pogledajmo primjer. Pružanje popusta kupcima je poticaj za povećanje obima kupovine. Što se određeni proizvod više proda, to je veći profit. S druge strane, što je veći popust, to je niža marža na proizvod i manji profit donosi prodaja ovog proizvoda. Neka postoji istorija prodaje, predstavljena tabelom sa kolonama: datum, obim prodaje, postotak popusta, marža i profit. Kada izvodite ručnu analizu, možete pogledati dijagram.

Uvid u podatke (DI):

DI - Region data science, u kojoj stručnjaci igraju ključnu ulogu u obradi podataka. Ovaj pravac smatramo usko fokusiranim, u interesu specifične svrhe kupac. Stručnjaci traže informacije, izvore podataka, otvorenim resursima a na osnovu stručne procene, intuicije generalizuju materijale i formiraju nova znanja. 80% svih informacija svjetskih obavještajnih službi dolazi na ovaj način - izvlačenjem znanja stručnjaka iz otvoreni izvori. Ovo je relevantno kada su podaci neformalizovani, a značenje je skriveno. Na primjer: prikupljanje informacija o predmetu od interesa sa implicitnim identifikacijskim karakteristikama i indirektnim vezama. Rezultat istraživanja je analitička bilješka u kojoj su navedeni izvori podataka, principi identifikacije i uzročno-posljedične veze.

Analiza podataka:

DA je oblast matematike i računarstva koja se bavi konstrukcijom i istraživanjem najopštijih matematičkih metoda i računskih algoritama za izvlačenje znanja iz podataka; proces istraživanja, filtriranja, transformacije i modeliranja podataka za izdvajanje korisne informacije i donošenje odluka.
Analiza podataka ima mnogo aspekata i pristupa koji pokrivaju različite metode V raznim oblastima nauke i aktivnosti.
Analiza podataka je nauka o proučavanju sirovih podataka kako bi se izvukli zaključci o tim informacijama. Analitika podataka se koristi u mnogim industrijama, uslugama, kako bi omogućila kompanijama i organizacijama da naprave najbolja poslovna rješenja iu nauci, da potvrdi ili opovrgne postojeće modele ili teorije.

Analiza podataka razlikuje se od data mininga (data mining) po obimu, svrsi i fokusu analize. Data mining radi na ogromnim skupovima podataka koristeći sofisticirani softver za identifikaciju skriveni šabloni i uspostavljanje implicitnih veza. Analiza podataka se fokusira na zaključivanje, proces izvlačenja zaključaka koji se zasniva isključivo na onome što istraživač već zna.

Analiza podataka se generalno dijeli na analiza pretrage analiza podataka (EDA), traženje mogućnosti u podacima i potvrdna analiza podataka (CDA), za potvrđivanje ili opovrgavanje hipoteza.
Kvalitativna analiza podataka (QDA) koristi se u društvenim naukama za izvođenje zaključaka iz nenumeričkih podataka kao što su riječi, fotografije ili video zapisi.
Pojam "analitika" koriste mnogi dobavljači proizvoda poslovne inteligencije (BI) kao popularnu riječ za potpuno opisivanje različite funkcije. Analitika podataka se koristi za opisivanje svega, od online analitičke obrade (OLAP) do CRM analitike u pozivnim centrima.
Ne biste trebali izolirati analizu “velikih podataka” (BigData Analysis), jer se zapravo u većini slučajeva koriste iste tehnike i metode kao i za analizu običnih podataka; razlika počinje u tehnologijama i mehanizmima paralelizacije.
DataInsight se izdvaja – u ovoj studiji naglasak nije na matematičkoj obradi podataka, već na stručnoj procjeni. Identifikacija veza, procjena posljedica.
Data mining je specifična tehnika analize podataka koja se fokusira na modeliranje i otkrivanje podataka, a ne na njihovo opisivanje.

Data Mining:

Višak podataka i nedostatak podataka dobre metode njihova analiza je dovela do situacije da su bogati podacima, ali siromašni informacijama. Brzo rastuće količine akumuliranih podataka brzo su premašile ljudsku sposobnost da ih obradi. Kao rezultat toga, velike baze podataka postale su grobnice podataka – arhive koje se rijetko posjećuju. shodno tome, važne odluke izrađuju se ne na osnovu baza podataka bogatih informacijama, već na osnovu intuicije donosioca odluka, budući da on nema odgovarajuće alate za izvlačenje korisnog znanja iz ogromnih količina podataka. Data Mining tehnologija vam omogućava da izvučete korisno znanje i važne obrasce, promovišući poboljšanje poslovne strategije, baze znanja, naučna i medicinska istraživanja. Data miningom ćemo nazvati proces identifikacije novih, tačnih i potencijalno korisnih znanja zasnovanih na velikim količinama podataka. Izvučeno znanje kao rezultat intelektualne analize naziva se obrazac.

Obrazac može biti, na primjer, neka netrivijalna izjava o strukturi podataka, o postojećim obrascima, o zavisnosti između atributa, itd. Stoga je izazov rudarenja podataka efikasno izdvajanje smislenih obrazaca iz velikih skupova podataka.
Za skrining velika količina mogućih malo korisnih obrazaca, može se uvesti funkcija korisnosti. U stvarnosti, procjena korisnosti znanja je subjektivna, odnosno zavisi od određenog korisnika. Dvije su glavne karakteristike “zanimljivog” znanja:
Iznenadjenje. Znanje je „iznenađujuće“ za korisnika i potencijalno nosi nove informacije.
Primjenjivost. Korisnik može koristiti nova znanja za postizanje svojih ciljeva.

Zanimljiva znanja, obrasci, informacije visokog nivoa dobijene kao rezultat analize podataka mogu se koristiti za donošenje odluka, kontrolu procesa, upravljanje informacijama i obradu zahteva. Stoga se tehnologija rudarenja podataka smatra jednom od najvažnijih i najperspektivnijih tema za istraživanje i primjenu u industriji informacionih tehnologija.

Koraci u procesu rudarenja podataka:
  1. 1. Proučavanje predmetne oblasti, kao rezultat čega se formulišu glavni ciljevi analize.
  2. 2. Prikupljanje podataka.
  3. 3. Prethodna obrada podataka: (a) Čišćenje podataka – eliminisanje nedoslednosti i nasumične „šumove“ iz izvornih podataka (b) Integracija podataka – kombinovanje podataka iz nekoliko mogući izvori u jednom skladištu (c) Transformacija podataka. U ovoj fazi, podaci se pretvaraju u oblik pogodan za analizu. Često se koristi agregacija podataka, uzorkovanje atributa, kompresija podataka i smanjenje dimenzionalnosti.

  4. 4. Analiza podataka. Kao dio ove faze, algoritmi rudarenja se koriste za izdvajanje obrazaca.
  5. 5. Interpretacija pronađenih obrazaca. Ova faza može uključivati ​​vizualizaciju ekstrahovanih obrazaca, identifikaciju zaista korisnih obrazaca zasnovanih na nekoj funkciji korisnosti.
  6. 6. Upotreba novih znanja.
Data Mining (DM) je proces otkrivanja u sirovim podacima (podacima redova) ranije nepoznatih, netrivijalnih, praktično korisnih, pristupačnih tumačenja znanja (obrazaca) neophodnih za donošenje odluka u različitim sferama ljudske aktivnosti (G. Pyatetsky- Shapiro).

Velike količine akumuliranih podataka moraju se stalno mijenjati zbog brza promena hardver i softver baze podataka, uz neizbježan gubitak i izobličenje informacija. Jedno od načina za prevazilaženje ovakvih poteškoća je stvaranje skladišta informacijskih podataka, čiji pristup neće mnogo zavisiti od promena podataka tokom vremena i od softvera koji se koristi. Drugi pristup je fokusiran na kompresiju velikih količina podataka pronalaženjem nekih općih obrazaca (znanja) u akumuliranim informacijama. Oba smjera su relevantna sa praktične tačke gledišta.

Dostupnost skladištenja podataka - neophodno stanje za uspješan završetak cjelokupnog DataMining procesa. Informaciono skladište je domenski specifična, integrisana, vremenski ograničena, nepromenljiva kolekcija podataka koja se koristi za podršku donošenju upravljačkih odluka. Specifično za domenu znači da su podaci kategorizirani i pohranjeni prema domenima koje opisuju, a ne prema aplikacijama koje ih koriste. Ovaj princip skladištenja osigurava da će izvještaji koje generiraju različiti analitičari biti zasnovani na istom skupu podataka. Vremenski zasnovano znači da se spremište može posmatrati kao zbirka istorijskih podataka, tj. specifične vrijednosti podataka su jedinstveno povezane s određenim vremenskim točkama. Atribut vremena je uvijek eksplicitno prisutan u strukturama skladišta podataka. Podaci uneseni u memoriju se više ne mijenjaju, za razliku od operativni sistemi, gdje su prisutne samo najnovije verzije podataka koje se stalno mijenjaju.

DM tehnologije koriste različite matematičke metode i algoritme: klasifikaciju, grupiranje, regresiju, predviđanje vremenskih serija, asocijacije, sekvence.

Klasifikacija je oruđe generalizacije. Omogućava nam da pređemo sa razmatranja pojedinačnih objekata na generalizovane koncepte koji karakterišu određene kolekcije objekata i dovoljni su da prepoznaju objekte koji pripadaju tim zbirkama (klasama). Suština procesa formiranja koncepta je pronalaženje obrazaca karakterističnih za klase. Za opisivanje objekata koristi se mnogo različitih karakteristika (atributa) Problem formiranja koncepata na osnovu opisa karakteristika formulisao je M. M. Bongart. Njegovo rješenje se zasniva na primjeni dvije glavne procedure: obuke i testiranja. U procedurama obuke, pravilo klasifikacije se konstruiše na osnovu obrade skupa objekata za obuku. Procedura verifikacije (ispitivanja) se sastoji od upotrebe rezultirajućeg pravila klasifikacije za prepoznavanje objekata iz novog (ispitnog) uzorka. Ako se rezultati testa smatraju zadovoljavajućim, tada se proces učenja završava, u suprotnom se klasifikaciono pravilo dorađuje u procesu preobuke.

Grupiranje je distribucija informacija (zapisa) iz baze podataka u grupe (klastere) ili segmente uz istovremeno definisanje ovih grupa. Za razliku od klasifikacije, ovdje analiza ne zahtijeva preliminarnu dodjelu klasa.
Regresiona analiza se koristi ako su odnosi između atributa objekata u bazi podataka izraženi kvantitativno. Konstruirane jednadžbe regresije omogućavaju izračunavanje vrijednosti zavisnih atributa korištenjem date vrijednosti nezavisni znakovi.
Predviđanje vremenskih serija je alat za identifikaciju trendova u atributima objekata koji se razmatraju tokom vremena. Analiza ponašanja vremenskih serija omogućava nam da predvidimo vrijednosti karakteristika koje se proučavaju.
Asocijacija vam omogućava da identifikujete stabilne grupe objekata između kojih postoje implicitne veze. Učestalost pojavljivanja pojedinačne stavke ili grupe stavki, izražena u procentima, naziva se prevalencija. Nizak nivo prevalencija (manje od hiljaditi dio jednog procenta) sugerira da takva povezanost nije značajna.

Tipičan primjer upotrebe asocijacije je analiza obrazaca kupovine. Na primjer, kada provodite istraživanje u supermarketu, možete otkriti da 65% onih koji kupuju čips kupuje i Coca-Colu, a ako postoji popust za takav set, kupuju Colu u 85% slučajeva. Takvi rezultati su vrijedni u oblikovanju marketinških strategija.

Sekvenca je metoda identifikacije asocijacija tokom vremena. IN u ovom slučaju definirana su pravila koja opisuju sekvencijalno pojavljivanje određenih grupa događaja. Takva pravila su neophodna za konstruisanje scenarija. Osim toga, mogu se koristiti, na primjer, za formuliranje tipičnog skupa prethodnih prodaja koje mogu dovesti do naknadne prodaje određenog proizvoda.

Inteligentni DM alati uključuju neuronske mreže, stabla odlučivanja, induktivno zaključivanje, analogno zaključivanje, neizrazito zaključivanje, genetske algoritme, algoritme za detekciju asocijacija i sekvenci, analizu selektivne akcije, logičku regresiju, evolucijsko programiranje, vizualizaciju podataka. Ponekad se navedene metode koriste u raznim kombinacijama.

Neuronske mreže pripadaju klasi nelinearnih adaptivni sistemi sa arhitekturom koja uslovno imitira nervno tkivo koje se sastoji od neurona. Matematički model Neuron je vrsta univerzalnog nelinearnog elementa koji omogućava mogućnost promjene i prilagođavanja njegovih karakteristika. Neuronske mreže se široko koriste za rješavanje problema klasifikacije. Izgrađena mreža mora se prvo „obučiti“ na primjerima za koje su poznate vrijednosti početnih podataka i rezultata. Proces “treninga” mreže sastoji se od odabira težine interneuronskih veza i modifikacije interni parametri aktivaciona funkcija neurona. „Obučena“ mreža je u stanju da klasifikuje nove objekte (ili rešava druge primere), ali pravila klasifikacije ostaju nepoznata korisniku.

Stabla odluka su metoda strukturiranja problema u obliku grafa nalik stablu, čiji vrhovi odgovaraju pravilima proizvodnje koja vam omogućavaju da klasifikujete podatke ili analizirate posljedice odluka. Ova metoda daje vizuelni prikaz sistema klasifikacijskih pravila, ako ih nema mnogo. Jednostavni problemi se mogu riješiti ovom metodom mnogo brže nego korištenjem neuronskih mreža. Za složeni problemi a za neke vrste podataka stabla odlučivanja možda nisu odgovarajuća. Osim toga, ovu metodu karakterizira problem značaja. Jedna od posljedica hijerarhijskog grupiranja podataka je da za mnoge posebne slučajeve ne postoji dovoljan broj primjera za obuku, pa se stoga klasifikacija ne može smatrati pouzdanom.

Induktivni zaključci nam omogućavaju da dobijemo generalizacije činjenica pohranjenih u bazi podataka. Proces induktivnog učenja može uključiti stručnjaka koji daje hipoteze. Ova metoda se zove učenje pod nadzorom. Potraga za pravilima generalizacije može se vršiti bez nastavnika automatska generacija hipoteze. U modernom softver U pravilu se obje metode kombiniraju, a za provjeru hipoteza koriste se statističke metode.

Obrazloženje zasnovano na slučaju (CBR) zasniva se na pretraživanju baze podataka za situacije čiji su opisi na više načina slični datoj situaciji. Princip analogije nam omogućava da pretpostavimo da će rezultati sličnih situacija također biti bliski jedni drugima. Nedostatak ovog pristupa je što ne stvara nikakve modele ili pravila koja generaliziraju prethodno iskustvo. Osim toga, pouzdanost izvedenih rezultata ovisi o potpunosti opisa situacija, kao u induktivnim procesima zaključivanja.

Fuzzy logika se koristi za obradu podataka s neizrazitim vrijednostima istine koje se mogu predstaviti različitim jezičkim varijablama. Fazno predstavljanje znanja se široko koristi u sistemima zaključivanja (deduktivni, induktivni, abduktivni) za rješavanje problema klasifikacije i predviđanja.

Genetski algoritmi su dio DM alata kao moćan alat za rješavanje kombinatornih i optimizacijskih problema. Često se koriste u kombinaciji sa neuronske mreže. Primjena u zadacima ekstrakcije znanja genetski algoritmi je povezana sa teškoćama u proceni statističke značajnosti dobijenih rešenja i sa teškoćama konstruisanja kriterijuma za izbor uspešnih rešenja.

Logička regresija se koristi za predviđanje vjerovatnoće pojave određene vrijednosti diskretne ciljne varijable. Diskretna zavisna (ciljna) varijabla ne može se modelirati korištenjem konvencionalnih multivarijantnih metoda. linearna regresija. Međutim, vjerovatnoća ishoda može se predstaviti kao funkcija ulaznih varijabli, što omogućava da se dobiju kvantitativne procjene uticaja ovih parametara na zavisnu varijablu. Dobijene vjerovatnoće se također mogu koristiti za procjenu šansi. Logička regresija je, s jedne strane, alat za klasifikaciju koji se koristi za predviđanje vrijednosti kategoričkih varijabli, a s druge strane, to je alat za regresiju koji vam omogućava da procijenite stepen uticaja ulaznih faktora na rezultat.

Evolucijsko programiranje je najnovija i najperspektivnija grana DM-a. Suština metode je da se formulišu hipoteze o obliku zavisnosti ciljne varijable od drugih varijabli kompjuterski sistem u obliku programa na određenom internom programskom jeziku. Ako ovo univerzalni jezik, onda je teoretski sposoban izraziti zavisnosti slobodnoj formi. Proces izgradnje ovakvih programa organiziran je kao evolucija u svijetu programa. Kada sistem pronađe program koji dovoljno precizno izražava željenu zavisnost, počinje da pravi male modifikacije na njemu i bira one koji su najtačniji među ugrađenim podređenim programima. Zatim se pronađene zavisnosti prevode iz interni jezik sistemi uključeni user friendly jezik ( matematičke formule, tabele itd.). U ovom slučaju se aktivno koriste alati za vizualizaciju.

Najbolji članci na ovu temu