Analiza e të dhënave - parimet bazë. Çfarë është analiza e të dhënave - përkufizimi

17.06.2019 Lajme

Agjencia Federale e Komunikimeve Institucioni Buxhetor Arsimor Federal Shtetëror i Arsimit të Lartë Profesional "Universiteti Shtetëror i Vollgës i Telekomunikacionit dhe Informatikës" 2013 UDC 004.02: 004.6 Salmin A.A. Analiza e të dhënave. Shënime leksioni. - Samara .: FGOBU VPO "PGUTI", 2013. - 111 f. Janë marrë në konsideratë çështjet e analizës së të dhënave. Janë dhënë disa nga metodat themelore të analizës së të dhënave, si: analiza e regresionit, korrelacioni, analiza e variancës, etj. Janë pasqyruar çështjet e nxjerrjes së të dhënave, me ndihmën e të cilave është e mundur të identifikohen modele të panjohura më parë, jo të parëndësishme. në të dhënat. Shqyrtues: V.N. Tarasov - Doktor i Shkencave Teknike, Profesor, Drejtues. Departamenti i "Programeve kompjuterike dhe menaxhimit në sistemet teknike" PSUTI Institucioni Buxhetor Arsimor Shtetëror Federal i Arsimit të Lartë Profesional "Universiteti Shtetëror i Telekomunikacionit dhe Informatikës së Vollgës" © Salmin AA, 2013 2 Përmbajtja e shënimeve të leksionit HYRJE 5 1. HYRJE NË ANALIZA E TË DHËNAVE71. . Puna me të dhënat 7 1.2. Fazat e zgjidhjes së problemit të analizës së të dhënave dhe marrëdhëniet e tyre 9 2. SHPËRNDARJA E PROBABILITETIT 18 2.1.Probabiliteti 18 2.2.Shpërndarjet e probabilitetit 20 2.3.Ndryshoret e rastësishme dhe mostrat e rastësishme të të dhënave 23 2.4.Shpërndarja normale 24 2.5.Bashkueshmëria 2.5. 30 3.1.Intervalet e besimit 30 3.2 Testimi i hipotezave 32 3.2.1. Llojet e gabimeve 33 3.2.2. Fushat e pranimit dhe mospranimit 34 3.2.3. t-shpërndarja 35 3.3. Zbatimi i një testi joparametrik për të dhënat e çiftuara 39 4. ANALIZA E TË DHËNAVE TË TABELAVE 43 4.1. Tabelat përmbledhëse 43 4.2. Llogaritja e numrit të pritur të vëzhgimeve 46 4.3. Statistika chi-square e Pearson-it 48 5. BAZAT E ANALIZËS SË REGRESIONIT 51 5.1. Koncepti i "regresionit" 51 5.2. Lidhja e thjeshtë lineare 52 5.2.1. Ekuacioni i regresionit 52 5.2.2. Përshtatja e vijës së regresionit 54 5.2.3. Interpretimi i parametrave të regresionit 57 5.3. Kontrollimi i modelit të regresionit 59 3 6. KORELACIONI 63 6.1. Koncepti i "korrelacioneve" 63 6.2. Matrica e korrelacionit 65 6.3. Matrica e diagrameve me pika të korrelacioneve 66 7. PAJISJA E REGRESIONIT TË SHUMËFISHT 69 7.1. Ekuacioni i regresionit të shumëfishtë 69 7.2. Kontrollimi i supozimeve të regresionit 73 7. 3. Regresioni hap pas hapi 75 7.4. Regresioni logjistik 76 7.5. Regresioni jolinear 77 8. ANALIZA E ANALIZËS 78 8.1. Analiza njëkahëshe e variancës 78 8.2. Analiza njëkahëshe e variancës dhe analiza e regresionit 84 8.2. Analiza e dyanshme e variancës 86 9. ANALIZA KOGNITIVE. KUTI 92 9.1. Analiza njohëse 92 9.2. Metoda e analizës konjitive të situatave komplekse 93 9.3. Regresioni - analiza kognitive 96 10. ANALIZA E TË DHËNAVE INTELEKTUALE 99 10.1. Sistemet analitike të përpunimit të të dhënave 99 10.1.1. CRM - teknologji 99 10.1.2. ERP - sistemet 102 10.1.3. OLAP - teknologji 103 10.2. Minimi i të dhënave 105 10.2.1. Fazat e nxjerrjes së të dhënave duke përdorur metodat e nxjerrjes së të dhënave 105 10.2.2. Llojet e rregullsive 106 10.2.3. Metodat e nxjerrjes së të dhënave 107 4 HYRJE Shënimet e propozuara të leksionit për disiplinën "Analiza e të dhënave" i përgatit studentët për përdorimin efektiv të mjeteve moderne të analizës së të dhënave kompjuterike. Propozohen temat kryesore kushtuar formimit të aftësive teorike dhe praktike në punën me paketat softuerike të aplikuara për zgjidhjen e problemeve të analizës dhe interpretimit të të dhënave për krijimin e parashikimeve të situatës dhe marrjen e vendimeve të menaxhimit. Si pjesë e shënimeve të leksioneve për disiplinën, merren parasysh mënyra të ndryshme të krijimit, formatimit, përshkrimit të parimeve bazë të punës me tabelat e të dhënave për qëllimin e analizës së tyre të mëvonshme duke përdorur metoda statistikore dhe matematikore. Kështu, specialistët e ardhshëm po zhvillojnë bazat e njohurive teorike dhe aftësive praktike në fushën e analizës së të dhënave dhe vendimmarrjes së menaxhimit. Gjithashtu duhet theksuar se si softuer për përvetësimin e lëndës, propozohet përdorimi i produktit MS Excel, i cili ka mjete të mjaftueshme të analizës së të dhënave, si: një paketë analize, funksione të përgjithshme statistikore të magjistarit të funksionit etj. Për më tepër, sugjerohet të përdorni shtesë shtesën StatPlus. Disiplina “Analiza e të dhënave” bazohet në njohuritë e lëndëve “Teknologji e Informacionit”, “Elektronike 5 Tabela”, “Probabiliteti dhe Statistika” të studiuara në institucionet arsimore të arsimit të lartë. Elemente të lëndës “Analiza e të dhënave” përdoren në studimin e lëndëve “Modelimi i sistemeve”, “Projektimi i sistemeve të informacionit”, “Besueshmëria e sistemeve të informacionit”. Detyra e materialit të këtij shënimi leksioni është që: - t'u ofrojë studentëve informacion të përgjithshëm rreth parimeve të përpunimit dhe analizës së të dhënave për të marrë informacion të ri prej tyre; - të tregojë metoda, mjete dhe teknologji për analizën e të dhënave; - të tregojë parimin e marrjes së njohurive të reja nga të dhënat duke përdorur shembullin e analizës së regresionit. Njohuritë dhe aftësitë e marra si rezultat i studimit të kësaj disipline mund të zbatohen: 1. gjatë analizimit të të dhënave për të marrë informacion statistikor ose për të parashikuar një situatë; 2. të interpretojë rezultatet e marra gjatë analizës; 3. në formulimin e specifikimeve teknike për krijimin e IP nga zhvilluesit profesionistë. 6 1. HYRJE NË ANALIZËN E TË DHËNAVE 1.1. Puna me të dhëna Të dhënat janë fakte, ngjarje, mesazhe, karakteristika të matura, sinjale të regjistruara të perceptuara nga njeriu. Specifikimi i të dhënave është se, nga njëra anë, ato ekzistojnë në mënyrë të pavarur nga vëzhguesi, dhe nga ana tjetër, ato bëhen në të vërtetë "të dhëna" vetëm kur ka një subjekt që i mbledh ato me qëllim. Përfundimi: të dhënat duhet të jenë themeli mbi të cilin ndërtohen të gjitha përfundimet, përfundimet dhe vendimet. Ato janë dytësore në lidhje me qëllimin e kërkimit dhe fushën lëndore, por parësore në lidhje me metodat e përpunimit dhe analizës së tyre, të cilat nxjerrin nga të dhënat vetëm informacionin që është potencialisht i disponueshëm brenda materialit të përzgjedhur. Të dhënat merren si rezultat i matjeve. Matja i referohet caktimit të simboleve për mostrat sipas disa rregullave. Këto karaktere mund të jenë alfabetike ose numerike. Karakteret numerike gjithashtu mund të përfaqësojnë kategori ose të jenë numerikë. Ka 4 lloje shkallësh matëse: 1) Shkalla e emrave. Kjo shkallë përdoret vetëm për klasifikim. Secilës klasë të dhënash i caktohet emërtimi i saj në mënyrë që emërtimet e klasave të ndryshme të mos përkojnë. Për shembull, klasifikimi i njerëzve sipas gjinisë M dhe F (1 dhe 2, 10 dhe 100) ose një kategori po / jo. Për më tepër, veprimet aritmetike janë të pakuptimta për emërtimin e shkallëve. Për një shkallë të caktuar 7, qendra e matjes është modaliteti (një element i përsëritur shpesh). 2) Shkalla rendore. Kjo shkallë lejon jo vetëm zbërthimin e të dhënave në klasa, por edhe renditjen e vetë klasave. Secilës klasë i caktohet një emërtim i ndryshëm në mënyrë që rendi i emërtimeve të përputhet me renditjen e klasave. Nëse numërojmë klasat, atëherë klasat janë në rend numerik; nëse klasat i shënojmë me shkronja, atëherë klasat janë sipas rendit alfabetik. Për shembull, është e nevojshme të identifikohen individë në tre kategori socio-ekonomike - i ulët, i mesëm, i lartë: 1 - i ulët, 2 - i mesëm, 3 - i lartë; ose X është i ulët, Y është mesatar, Z është i lartë. Zbatohet çdo emërtim i numrave ose shkronjave. Veprimet aritmetike për këtë shkallë janë gjithashtu të pakuptimta. 3) Shkalla e intervalit. Kjo shkallë lejon jo vetëm të klasifikojë dhe organizojë të dhënat, por edhe të përcaktojë sasinë e ndryshimit midis klasave. Për të bërë krahasime të tilla, është e nevojshme të futet një njësi matëse dhe një origjinë arbitrare (pika zero). Për shembull, temperatura në gradë Fahrenheit i përket një shkalle intervali, ku 0F është fillimi, 1F është njësia. 4) Shkalla e marrëdhënieve. Kjo shkallë ndryshon nga shkalla e intervalit vetëm në atë që në të specifikohet origjina absolute. ato. në këtë shkallë, ju mund të përcaktoni se sa herë një dimension është superior ndaj një tjetri. Për shembull: lartësia e një personi në inç i përket një shkalle marrëdhënieje në të cilën 0 inç është një pikë referimi fikse dhe 1 inç është një njësi matëse. 8 Përveç kësaj, vëzhgimet ndahen në: diskrete dhe të vazhdueshme. Të dhënat e emërtuara dhe rendore janë gjithmonë diskrete, ndërsa të dhënat e intervalit dhe ato relative mund të jenë ose diskrete ose të vazhdueshme. Për shembull, e vazhdueshme: gjuajtja në një objektiv (çdo rezultat), temperatura (shkalla e intervalit); diskrete: një zare (1, 2, 3 ... 6), një monedhë (koka / bishtat), numri i thirrjeve telefonike në orë (shkalla e marrëdhënieve) (Fig. 1.1). Oriz. 1.1. Të dhëna diskrete dhe të vazhdueshme 1.2. Fazat e zgjidhjes së problemit të analizës së të dhënave dhe marrëdhëniet e tyre Analiza e të dhënave është një grup metodash dhe mjetesh për nxjerrjen e informacionit nga të dhënat e organizuara për vendimmarrje. Fazat kryesore të zgjidhjes së problemit të analizës së të dhënave janë paraqitur në pjesën e majtë të Fig. 1.2. Në anën e djathtë, secila prej tyre ndahet në faza më të vogla. 9 Faza 1 1.1. Përcaktimi i qëllimit Deklaratë-hulumtim i problemit 1.2. Përcaktimi i përbërjes së të dhënave 1.3. Mbledhja e të dhënave 1.4. Zgjedhja e mjeteve të analizës së të dhënave 1.5. Formalizimi i të dhënave Faza 2 2.1. Futja e të dhënave në memorie Futja e të dhënave kompjuterike në 2.2. Puna me përpunimin e arkivit të të dhënave 2.3. Formimi i detyrës përpunuese Faza 3 3.1. Përcaktimi i cilësisë - karakteristikat më të thjeshta të analizës së të dhënave 3.2. Vizualizimi i të dhënave 3.3. Analiza e strukturës së të dhënave Faza 4 4.1. Zgjedhja e modelit të të dhënave Sasia - 4.2. Kryerja e përpunimit të përshkrimit të të dhënave të të dhënave Hapi 5 5.1. Analiza e rezultateve Interpretimi 5.2. Vendimmarrja dhe rezultatet Fig. 1.2. Fazat e analizës së të dhënave Deklarata e problemit (është faza përcaktuese nga e cila varet e gjithë rrjedha e analizës) fillon me fazën e formulimit të një qëllimi prej vetëm 10

Tutorial

BBK 22.172y73

Rishikuesit:

Martyshenko S.N.

Analiza kompjuterike e të dhënave:

Tutorial. - Vladivostok: Shtëpia botuese e VSUES, 2010 .-- 80 f.

Përpiluar në përputhje me kurrikulën për disiplinën "Analiza e të dhënave kompjuterike" dhe kërkesat e standardit shtetëror të Rusisë. Është i destinuar për studentët e specialiteteve 0618000 Metodat Matematikore në Ekonomi dhe 351400 “Informatikë e Aplikuar në Ekonomi”. Përmban material teorik mbi disiplinën, detyra për ushtrime praktike dhe udhëzime për zbatimin e tyre.

Miratuar në mbledhjen e Departamentit të Matematikës dhe Modelimit 19.10.08 ***, procesverbali nr. 18 ***

ekonomia dhe shërbimi, 2010

Prezantimi

Për shkencën moderne dhe për shumicën e fushave të veprimtarisë praktike, tashmë është karakteristike një qasje statistikore. Ligjet e ekonomisë mund të konsiderohen përcaktuese vetëm mesatarisht; një studim më i detajuar rezulton se ato janë zakonisht të rastësishme në natyrë.

Manuali trajton çështjet teorike dhe praktike të analizës së të dhënave statistikore. Analiza kompjuterike e të dhënave duhet të konsiderohet si studim i metodave për zbatimin praktik të metodave teorike të statistikave matematikore. Natyra e aplikuar e disiplinës së studiuar theksohet nga orientimi i saj drejt përdorimit të një produkti specifik softuer EXCEL.

Proceset dhe dukuritë socio-ekonomike varen nga një numër i madh parametrash që i karakterizojnë ato, gjë që shkakton vështirësi që lidhen me identifikimin e strukturës së marrëdhënies së këtyre parametrave. Në situata të tilla, kur merret një vendim bazuar në analizën e informacionit stokastik, jo të plotë, është e nevojshme të përdoren metoda të analizës së të dhënave statistikore.

Metodat e analizës së të dhënave bëjnë të mundur zgjedhjen e arsyeshme midis grupit të modeleve të mundshme probabilistiko-statistikore të atij që përputhet më mirë me të dhënat fillestare statistikore që karakterizojnë sjelljen reale të grupit të objekteve të studiuara, për të vlerësuar besueshmërinë dhe saktësinë e përfundimeve të nxjerra mbi bazë të një materiali të madh statistikor.

Manuali shqyrton një sërë metodash statistikore të formalizuara thellësisht të bazuara në paraqitjen e informacionit fillestar në një hapësirë gjeometrike shumëdimensionale dhe duke lejuar përcaktimin e modeleve implicite (latente), por objektivisht ekzistuese në strukturën organizative dhe tendencat e zhvillimit të proceseve socio-ekonomike të studiuara dhe dukuritë.

Objektivi kryesor i manualit është t'u mësojë studentëve bazat teorike të metodave më të zakonshme të analizës së të dhënave statistikore dhe zhvillimin e aftësive në përdorimin e mjeteve standarde softuerike në të cilat zbatohen procedurat për analizën e të dhënave statistikore.

Për të studiuar me sukses materialin e paraqitur në manual, studenti ka nevojë për njohuri në seksionet kryesore të "Matematikës së Lartë" dhe "Statistikës Matematike". Kërkohet njohja e koncepteve të tilla themelore si: llojet e variablave të rastësishëm, karakteristikat e ndryshoreve të rastit, ligjet bazë të shpërndarjes së variablave të rastit, metodat e vlerësimit të karakteristikave të mostrës, bazat e konkluzionit statistikor duke përdorur kritere statistikore dhe hipoteza testimi, regresion linear dhe jolinear.

Gjatë studimit të materialit të paraqitur në manual, studenti duhet të krijojë një ide për situata specifike praktike në të cilat është e nevojshme të përdoren metodat e analizës statistikore.

Si rezultat i punës me manualin dhe kryerjes së detyrave praktike, studenti duhet të arrijë një nivel të caktuar njohurish në fushën e analizës së të dhënave kompjuterike. Niveli i kërkuar i njohurive përbëhet nga tre pikë.

1. për të zotëruar:

Koncepti dhe teknologjia e analizës moderne të të dhënave në një kompjuter;

Parimet e funksionimit të mjeteve softuerike të dizajnuara për analizën e të dhënave statistikore;

Parimet e punës së metodave moderne vizuale të analizës së të dhënave dhe përdorimi i tyre për përfundimin statistikor dhe formulimin e hipotezave për strukturën e të dhënave.

2. Të zhvillojë aftësinë për të zgjidhur në mënyrë të pavarur problemet në zgjedhjen e metodave të analizës në situata praktike;

3. të fitojë aftësi për të përdorur sisteme softuerike; projektuar për analizën statistikore të të dhënave, si dhe testimin e moduleve softuerike mbi të dhënat e modelit.

Analiza e të dhënave është një koncept i gjerë. Vetë koncepti i "analizës" na erdhi nga Greqia e Lashtë dhe do të thotë "zbulo", "çliro". Në fushën e analizës së të dhënave, ka shumë përkufizime dhe të gjitha janë të ndryshme. Le të kthehemi te Big Dictionary of Economics (Instituti i Ekonomisë së Re. A.N. Azrilian, 1997):

Analiza e të dhënave është një drejtim i kërkimit statistikor, i cili përfshin një grup metodash për përpunimin e një sistemi shumëdimensional të të dhënave vëzhguese, të karakterizuara nga shumë karakteristika. Ndryshe nga metodat klasike matematikore dhe statistikore, të cilat supozojnë një model të njohur probabilistik të gjenerimit të të dhënave, metodat e analizës së të dhënave përdorin vetëm informacionin e regjistruar në to.

Në përgjithësi, përkufizimi është i saktë dhe i saktë. Por për biznesin, një komponent tjetër i kësaj analize është gjithashtu i rëndësishëm. Përkufizimi i fjalorit flet vetëm për përpunimin e të dhënave, por për çdo menaxher apo menaxher të lartë, nuk është vetë përpunimi dhe strukturimi i të dhënave ai që është i rëndësishëm. Është shumë më interesante dhe e dobishme në fazën përfundimtare - kërkimi i modeleve të fshehura dhe fitimi i njohurive të reja.

Prandaj, në mjedisin e biznesit, përkufizimi i Mario Faria, nënkryetar i Gartner, kohët e fundit është bërë shumë i njohur:

Analiza - shndërrimi i të dhënave në përfundime, në bazë të të cilave do të merren vendimet dhe ndërtohen veprimet me ndihmën e njerëzve, proceseve dhe teknologjive.

Është e pamundur dhe e gabuar të shikohet analiza e të dhënave vetëm si përpunimi i informacionit pasi ai është marrë dhe mbledhur. Para së gjithash, analiza e të dhënave është një mjet dhe një mënyrë për të testuar hipotezat dhe një mënyrë për të zgjidhur problemet e një studiuesi. Prandaj, ndër detyrat e rëndësishme të analizës së të dhënave, veçojmë:

parashikimi,
identifikimi i devijimeve,
marrjen e rekomandimeve.

Karakteristikat e të dhënave të analizës

Nga pikëpamja e karakteristikave të tij, të dhënat që përdorim në analizë ndahen në 2 grupe të mëdha:

sasiore
dhe cilësi të lartë.

Të dhënat cilësore janë të rëndësishme në kërkimin e marketingut - cili është produkti juaj, për çfarë duhet ta "dashurojnë" konsumatorët. Më interesantet për parashikim, natyrisht, janë të dhënat sasiore. Numrat janë gjithçka jonë! Mbi bazën e tyre, për shembull, mund të parashikoni recesione ose rritje të shitjeve. Dhe kjo, e shihni, është shumë e rëndësishme. Aftësia për të blerë sasinë e duhur të mallrave, për të ndërtuar një zinxhir furnizimi, për të trajnuar personelin - e gjithë kjo në fund të fundit ndikon në të ardhurat e kompanisë.

Si të analizoni shpejt dhe të dobishëm?

Ka gjithnjë e më shumë informacion në botë. Një studim i IBS thotë se deri në vitin 2003 bota kishte grumbulluar 5 ekzabajt të dhëna (1 EB = 1 miliard gigabajt). Në vitin 2011, do të ketë 1,76 zetabajt të dhëna (1 ZB = 1,024 ekzabajt), dhe në maj 2015 vëllimi global i të dhënave ishte mbi 6,5 zb. Sipas studimit të Epokës së të Dhënave 2025, parashikohet që deri në vitin 2025 të gjenerohen më shumë se 400 zetabajt informacione.

Por gjëja kryesore është se të gjitha këto të dhëna të grumbulluara përmbajnë informacione të rëndësishme me ndihmën e të cilave është e mundur dhe e nevojshme të parashikohen, të nxirren përfundime dhe të merren vendime. Për të nxjerrë informacione të dobishme nga e gjithë grupi i të dhënave të grumbulluara, është e nevojshme të përpunohen këto të dhëna. Ose - analiza e të dhënave.

Përpunimi i të dhënave po bëhet gjithnjë e më i vështirë. Nëse më parë, 15 vjet më parë, Excel ishte kufiri i përsosmërisë, tani ai tashmë është vërtet "shekulli i kaluar". Pas kërkesës për analiza Big Data, në treg shfaqen zgjidhje të reja për bizneset e vogla, të mesme dhe të mëdha.

Zgjidhjet e analizës së të dhënave ndryshojnë në varësi të kostos së zbatimit dhe personelit që do të punësohet për ta menaxhuar atë. Ka zgjidhje për korporatat e mëdha, ku, natyrisht, nuk mund të bëhet pa investime të mëdha - si në fazën e zbatimit ashtu edhe më vonë në fazën e punës së zgjidhjes (shpenzimi kryesor janë specialistë që punojnë me softuer).

Dy qasje ndaj analizës së të dhënave

Çdo organizatë në rrjedhën e aktiviteteve të saj kërkon të rrisë fitimet dhe të zvogëlojë kostot. Në këtë ajo ndihmohet nga teknologjitë e reja kompjuterike, përdorimi i programeve të ndryshme për automatizimin e proceseve të biznesit. Këto janë sistemet e kontabilitetit, kontabilitetit dhe depove, sistemet e kontabilitetit të menaxhimit dhe shumë të tjera. Sa më saktë dhe më e plotë të kryhet mbledhja dhe sistematizimi i informacionit, aq më i plotë do të jetë kuptimi i proceseve në organizatë. Mediat moderne të ruajtjes lejojnë ruajtjen e dhjetëra e qindra gigabajt informacioni, por pa përdorimin e mjeteve speciale për analizimin e informacionit të grumbulluar, media të tilla janë thjesht një hale informacioni të padobishëm. Shumë shpesh, marrja e vendimit të duhur pengohet nga fakti se megjithëse të dhënat janë të disponueshme, ato janë të paplota, ose, anasjelltas, të tepërta, të mbushura me informacione që nuk janë aspak të rëndësishme për rastin, të pasistemuara ose të sistemuara gabimisht. Pastaj ata përdorin mjete softuerike që ju lejojnë të sillni informacionin në një formë që bën të mundur vlerësimin e fakteve të përfshira në të me një shkallë të mjaftueshme besueshmërie dhe të rrisë gjasat për të marrë një vendim optimal.

Ekzistojnë dy mënyra për të analizuar të dhënat duke përdorur sistemet e informacionit.

Në versionin e parë, programi përdoret për të vizualizuar informacionin - për të nxjerrë të dhëna nga burimet dhe për t'i ofruar ato një personi për analizë dhe vendimmarrje të pavarur. Zakonisht të dhënat e ofruara nga programi janë një tabelë e thjeshtë, dhe në këtë formë është shumë e vështirë t'i analizosh ato, veçanërisht nëse ka shumë të dhëna, por ka edhe metoda më të përshtatshme të shfaqjes: kube, grafiku, histogramë, harta, pemët...

Rasti i dytë i përdorimit për softuerin e analizës është modele ndërtimi... Modeli simulon një proces të caktuar, për shembull, një ndryshim në vëllimin e shitjeve të një produkti të caktuar, sjelljen e klientit dhe më shumë. Për të ndërtuar një model, është e nevojshme të përpunohen paraprakisht të dhënat dhe më pas të aplikohen metoda matematikore të analizës: grupimi, klasifikimi, regresioni, etj. Modeli i ndërtuar mund të përdoret për të marrë vendime, për të shpjeguar arsyet, për të vlerësuar rëndësinë e faktorëve. modeloni opsione të ndryshme zhvillimi ...

Le të shohim një shembull. Ofrimi i zbritjeve për klientët është një nxitje për të rritur vëllimet e blerjeve. Sa më shumë të shitet një produkt i caktuar, aq më i madh është fitimi. Nga ana tjetër, sa më shumë zbritje ofrohet, aq më i ulët është markup-i në produkt dhe aq më pak fitim sjell shitjet e këtij produkti. Le të ketë një histori shitjesh të përfaqësuar nga një tabelë me kolona: data, vëllimi i shitjeve, zbritja në përqindje, shënimi dhe fitimi. Kur bëni analizën "me dorë", mund të shikoni diagramin.

Kuptimi i të dhënave (DataInsight - DI):

DI - Rajoni shkenca e të dhënave, në të cilën ekspertët luajnë një rol kyç në përpunimin e të dhënave. Ne e konsiderojmë këtë drejtim si të fokusuar ngushtë, në interes të qëllimit specifik të klientit. Ekspertët kërkojnë informacion, burime të dhënash, burime të hapura dhe, bazuar në gjykimin e ekspertëve, intuitën, përgjithësojnë materialet, formojnë njohuri të reja. 80% e të gjithë informacionit nga shërbimet e inteligjencës botërore merret në këtë mënyrë - nxjerrja e njohurive nga ekspertët nga burimet e hapura. Kjo është e rëndësishme kur të dhënat nuk janë të zyrtarizuara, kuptimi është i fshehur. Për shembull: grumbullimi i informacionit për subjektin e interesit me karakteristika të nënkuptuara identifikuese, lidhje indirekte. Rezultati i hulumtimit është një shënim analitik që tregon burimet e të dhënave, parimet e identifikimit dhe marrëdhëniet shkak-pasojë.

Analiza e të dhënave:

DA - fusha e matematikës dhe shkencave kompjuterike, e angazhuar në ndërtimin dhe kërkimin e metodave më të përgjithshme matematikore dhe algoritmeve llogaritëse për nxjerrjen e njohurive nga të dhënat; procesi i kërkimit, filtrimit, transformimit dhe modelimit të të dhënave për të nxjerrë informacione të dobishme dhe për të marrë vendime.

Analiza e të dhënave ka shumë aspekte dhe qasje, mbulon metoda të ndryshme në fusha të ndryshme të shkencës dhe veprimtarisë.

Analiza e të dhënave është shkenca e ekzaminimit të të dhënave të papërpunuara për të nxjerrë përfundime rreth atij informacioni. Analiza e të dhënave përdoret në shumë industri, industri shërbimesh për t'u mundësuar kompanive dhe organizatave të marrin vendime më të mira biznesi dhe në shkencë për të konfirmuar ose hedhur poshtë modelet ose teoritë ekzistuese.

Analiza e të dhënave ndryshon nga data mining (data mining) në qëllimin, qëllimin dhe fokusin e analizës. Minimi i të dhënave operon në grupe të mëdha të dhënash duke përdorur softuer të sofistikuar për të zbuluar modele të fshehura dhe për të vendosur marrëdhënie të nënkuptuara. Analiza e të dhënave përqendrohet në përfundimin, procesi i arritjes së përfundimeve bazuar vetëm në atë që studiuesi tashmë di.

Analiza e të dhënave përgjithësisht kategorizohet në analizën e të dhënave eksploruese (EDA), kërkimin e mundësive në të dhëna dhe analizën e të dhënave konfirmuese (CDA), për të konfirmuar ose hedhur poshtë hipotezat.

Analiza cilësore e të dhënave (QDA) përdoret në shkencat sociale për të nxjerrë konkluzione nga të dhënat jo-numerike si fjalët, fotot ose videot.

Termi analitikë përdoret nga shumë shitës të inteligjencës së biznesit (BI) si një fjalë kryesore për të përshkruar funksione shumë të ndryshme. Analiza e të dhënave përdoret për të përshkruar gjithçka, nga përpunimi analitik në internet (OLAP) tek analitika CRM në qendrat e thirrjeve.

Nuk është e nevojshme të ekzagjerohet analiza e "të dhënave të mëdha" (BigData Analysis), pasi në fakt, në shumicën e rasteve përdoren të njëjtat teknika dhe metoda si për analizën e të dhënave të zakonshme, ndryshimi fillon në teknologji, mekanizma paralelizimi.

DataInsight qëndron veçmas - në këtë studim, theksi nuk është në përpunimin matematikor të të dhënave, por në gjykimin e ekspertëve. Shpërndarja e lidhjeve, vlerësimi i pasojave.

Minimi i të dhënave është një teknikë e specializuar e analizës së të dhënave që fokusohet në modelimin dhe zbulimin e të dhënave, në vend që t'i përshkruajë ato.

Minierat e të dhënave:

Teprica e të dhënave dhe mungesa e metodave të mira për analizën e tyre çuan në një situatë të pasur në të dhëna, por të varfër në informacion. Vëllimet në rritje të shpejtë të të dhënave të grumbulluara kanë tejkaluar me shpejtësi aftësinë njerëzore për t'i përpunuar ato. Si rezultat, bazat e të dhënave të mëdha janë shndërruar në varre të dhënash - arkiva që vizitohen rrallë. Si rezultat, vendimet e rëndësishme nuk merren në bazë të bazave të të dhënave të pasura me informacion, por në bazë të intuitës së vendimmarrësit, pasi ai nuk ka mjetet e duhura për të nxjerrë njohuri të dobishme nga sasi të mëdha të dhënash. Teknologjia Inteligjente e Analizës së të Dhënave ju lejon të nxirrni njohuri të dobishme, modele të rëndësishme, duke kontribuar në përmirësimin e strategjive të biznesit, bazave të njohurive, kërkimit shkencor dhe mjekësor. Ne do ta quajmë minierë të të dhënave procesi i përcaktimit të njohurive të reja, të sakta dhe potencialisht të dobishme bazuar në grupe të mëdha të dhënash. Njohuritë e nxjerra si rezultat i minierave quhen termi model.

Një model mund të jetë, për shembull, një deklaratë jo e parëndësishme për strukturën e të dhënave, për modelet ekzistuese, për marrëdhëniet midis atributeve, etj. Kështu, detyra e nxjerrjes së të dhënave është të nxjerrë në mënyrë efikase modele kuptimplote nga grupi i madh i të dhënave ekzistuese.

Mund të futet një funksion i dobishëm për të filtruar një numër të madh modelesh të mundshme të padobishme. Në realitet, vlerësimi i dobisë së njohurive është subjektiv, domethënë varet nga përdoruesi specifik. Ekzistojnë dy karakteristika kryesore të njohurive "interesante":

Surprizë. Njohuria është "e habitshme" për përdoruesin dhe potencialisht sjell informacion të ri.

Zbatueshmëria. Përdoruesi mund të përdorë njohuri të reja për të arritur qëllimet e tij.

Njohuritë interesante, modelet, informacionet e nivelit të lartë të marra si rezultat i analizës së të dhënave mund të përdoren për të marrë vendime, për të kontrolluar proceset, për të menaxhuar informacionin dhe për të përpunuar kërkesat. Prandaj, teknologjia e minierave të të dhënave shihet si një nga temat më të rëndësishme dhe më premtuese për kërkimin dhe aplikimin në industrinë e teknologjisë së informacionit.

Hapat në procesin e nxjerrjes së të dhënave:

1. Studimi i fushës lëndore, si rezultat i të cilit formulohen qëllimet kryesore të analizës.
2. Mbledhja e të dhënave.

3. Parapërpunimi i të dhënave: (a) Pastrimi i të dhënave - eliminimi i mospërputhjeve dhe "zhurmës" rastësore nga të dhënat origjinale (b) Integrimi i të dhënave - kombinimi i të dhënave nga disa burime të mundshme në një magazinë (c) Transformimi i të dhënave. Në këtë fazë, të dhënat shndërrohen në një formë të përshtatshme për analizë. Zakonisht përdoren grumbullimi i të dhënave, kampionimi i atributeve, kompresimi i të dhënave dhe zvogëlimi i dimensioneve.

4. Analiza e të dhënave. Brenda kësaj faze, algoritmet e minierave aplikohen për nxjerrjen e modeleve.
5. Interpretimi i modeleve të gjetura. Ky hap mund të përfshijë vizualizimin e modeleve të nxjerra, identifikimin e modeleve vërtet të dobishme bazuar në disa funksione të dobishme.
6. Përdorimi i njohurive të reja.

Minierat e të Dhënave (DM) është një proces zbulimi në të dhëna të papërpunuara (të dhëna rreshti) interpretimi i panjohur më parë, jo i parëndësishëm, praktikisht i dobishëm, i arritshëm i njohurive (modeleve) të nevojshme për marrjen e vendimeve në sfera të ndryshme të veprimtarisë njerëzore (G. Pyatetsky-Shapiro ).

Sasi të mëdha të të dhënave të grumbulluara vazhdimisht duhet të modifikohen për shkak të ndryshimit të shpejtë të harduerit dhe softuerit të bazës së të dhënave, ndërsa humbjet dhe shtrembërimi i informacionit janë të pashmangshme. Një nga mjetet për tejkalimin e vështirësive të tilla është krijimi i depove të të dhënave të informacionit, qasja në të cilat nuk do të varet shumë nga ndryshimet e të dhënave me kalimin e kohës dhe nga softueri i përdorur. Një qasje tjetër fokusohet në kompresimin e sasive të mëdha të të dhënave duke gjetur disa modele të përgjithshme (njohuri) në informacionin e grumbulluar. Të dy drejtimet janë të rëndësishme nga pikëpamja praktike.

Prania e një magazine të dhënash informacioni është një parakusht për zbatimin e suksesshëm të të gjithë procesit DataMining. Një magazinë informacioni është një koleksion i të dhënave specifike për domenin, i integruar, i kufizuar në kohë dhe i pandryshueshëm, i përdorur për të mbështetur procesin e vendimmarrjes së menaxhimit. Orientimi i subjektit do të thotë që të dhënat organizohen në kategori dhe ruhen sipas zonave që përshkruan, dhe jo sipas aplikacioneve që i përdorin ato. Ky parim i ruajtjes siguron që raportet e gjeneruara nga analistë të ndryshëm do të bazohen në të njëjtin grup të dhënash. I kufizuar në kohë do të thotë që dyqani mund të shihet si një koleksion të dhënash historike, d.m.th. vlerat specifike të të dhënave lidhen në mënyrë unike me pika specifike në kohë. Atributi kohë është gjithmonë i pranishëm në mënyrë eksplicite në strukturat e magazinës së të dhënave. Të dhënat e futura në ruajtje nuk ndryshojnë më, në ndryshim nga sistemet operative, ku janë të pranishme vetëm versionet më të fundit, vazhdimisht në ndryshim të të dhënave.

Në teknologjitë DM përdoren metoda dhe algoritme të ndryshme matematikore: klasifikimi, grupimi, regresioni, parashikimi i serive kohore, shoqërimi, sekuenca.

Klasifikimi është një mjet përgjithësimi. Kjo ju lejon të kaloni nga shqyrtimi i objekteve të vetme në koncepte të përgjithësuara që karakterizojnë disa grupe objektesh dhe janë të mjaftueshme për të njohur objektet që u përkasin këtyre grupeve (klasave). Thelbi i procesit të formimit të konceptit është gjetja e modeleve të qenësishme në klasa. Shumë veçori (atribute) të ndryshme përdoren për të përshkruar objektet.Problemi i formimit të konceptit bazuar në përshkrimet e veçorive u formulua nga MM Bongart. Zgjidhja e tij bazohet në zbatimin e dy procedurave bazë: trajnimit dhe testimit. Në procedurat e trajnimit, një rregull klasifikimi ndërtohet bazuar në përpunimin e një grupi objektesh trajnimi. Procedura e verifikimit (ekzaminimit) konsiston në përdorimin e rregullit të klasifikimit të fituar për njohjen e objekteve nga një mostër e re (ekzaminimi). Nëse rezultatet e testit rezultojnë të kënaqshme, atëherë procesi mësimor përfundon, përndryshe rregulli i klasifikimit rafinohet në procesin e rimësimit.

Clustering është shpërndarja e informacionit (rekordeve) nga baza e të dhënave në grupe (grupe) ose segmente me përcaktimin e njëkohshëm të këtyre grupeve. Në ndryshim nga klasifikimi, këtu, për analizën, nuk kërkohet caktimi paraprak i klasave.

Analiza e regresionit përdoret kur marrëdhëniet midis atributeve të objekteve në bazën e të dhënave shprehen në vlerësime sasiore. Ekuacionet e ndërtuara të regresionit bëjnë të mundur llogaritjen e vlerave të atributeve të varura bazuar në vlerat e dhëna të veçorive të pavarura.

Parashikimi i serive kohore është një mjet për identifikimin e tendencave në atributet e objekteve në shqyrtim me kalimin e kohës. Analiza e sjelljes së serive kohore bën të mundur parashikimin e vlerave të karakteristikave të studiuara.

Lidhja ju lejon të zgjidhni grupe të qëndrueshme të objekteve midis të cilave ka lidhje të specifikuara në mënyrë implicite. Frekuenca e shfaqjes së një sendi individual ose grupi artikujsh, e shprehur në përqindje, quhet prevalencë. Një shkallë e ulët e prevalencës (më pak se një e mija e përqindjes) sugjeron që një lidhje e tillë nuk është e rëndësishme.

Një shembull tipik i përdorimit të shoqatës është analiza e strukturës së blerjeve. Për shembull, kur kryeni një studim në një supermarket, mund të konstatohet se 65% e atyre që kanë blerë patatina, marrin edhe Coca-Cola, dhe nëse ka zbritje për një set të tillë, Cola blihet në 85% të rasteve. Rezultatet si këto janë të vlefshme në formësimin e strategjive të marketingut.

Konsistenca është një metodë e identifikimit të shoqatave me kalimin e kohës. Në këtë rast, përcaktohen rregulla që përshkruajnë shfaqjen e njëpasnjëshme të grupeve të caktuara të ngjarjeve. Këto rregulla janë thelbësore për ndërtimin e skripteve. Përveç kësaj, ato mund të përdoren, për shembull, për të formuar një grup tipik të shitjeve të mëparshme që mund të çojnë në shitje të mëvonshme të një produkti të caktuar.

Mjetet inteligjente DM përfshijnë rrjetet nervore, pemët e vendimeve, konkluzionet induktive, metodat e arsyetimit me analogji, konkluzionet fuzzy, algoritmet gjenetike, algoritmet për përcaktimin e asociacioneve dhe sekuencave, analizën selektive, regresionin logjik, programimin evolucionar, vizualizimin e të dhënave. Ndonjëherë këto metoda përdoren në kombinime të ndryshme.

Rrjetet nervore i përkasin klasës së sistemeve jolineare adaptive me një arkitekturë që imiton me kusht indin nervor, të përbërë nga neurone. Modeli matematikor i një neuroni është një lloj elementi universal jolinear që lejon mundësinë e ndryshimit dhe rregullimit të karakteristikave të tij. Rrjetet nervore përdoren gjerësisht për të zgjidhur problemet e klasifikimit. Rrjeti i ndërtuar fillimisht duhet të "trajnohet" duke përdorur shembuj për të cilët dihen vlerat e të dhënave fillestare dhe rezultateve. Procesi i "të mësuarit" të rrjetit konsiston në zgjedhjen e peshave të lidhjeve ndërneurone dhe modifikimin e parametrave të brendshëm të funksionit të aktivizimit të neuroneve. Një rrjet "i trajnuar" është në gjendje të klasifikojë objekte të reja (ose të zgjidhë shembuj të tjerë), por rregullat e klasifikimit mbeten të panjohura për përdoruesit.

Pemët e vendimit janë një metodë për strukturimin e një detyre në formën e një grafiku peme, kulmet e të cilit korrespondojnë me rregullat e prodhimit që ju lejojnë të klasifikoni të dhënat ose të analizoni pasojat e vendimeve. Kjo metodë jep një paraqitje vizuale të sistemit të klasifikimit të rregullave, nëse nuk ka shumë prej tyre. Problemet e thjeshta zgjidhen duke përdorur këtë metodë shumë më shpejt sesa duke përdorur rrjetet nervore. Për probleme komplekse dhe për disa lloje të dhënash, pemët e vendimit mund të jenë të papranueshme. Për më tepër, kjo metodë ka një problem të rëndësishëm. Një nga pasojat e grupimit hierarkik të të dhënave është se për shumë raste të veçanta nuk ka një numër të mjaftueshëm shembujsh trajnimi, dhe për këtë arsye klasifikimi nuk mund të konsiderohet i besueshëm.

Konkluzionet induktive bëjnë të mundur marrjen e përgjithësimeve të fakteve të ruajtura në bazën e të dhënave. Në procesin e të mësuarit induktiv, mund të përfshihet një specialist që jep hipoteza. Ky quhet mësim i mbikëqyrur. Kërkimi i rregullave të përgjithësimit mund të kryhet pa një mësues duke gjeneruar automatikisht hipoteza. Në softuerin modern, si rregull, të dyja metodat kombinohen, dhe metodat statistikore përdoren për të testuar hipotezat.

Arsyetimi në bazë të rasteve të ngjashme (Arsyetimi i bazuar në rast - CBR) bazohet në kërkimin në bazën e të dhënave për situata, përshkrimet e të cilave janë të ngjashme në një numër karakteristikash me një situatë të caktuar. Parimi i analogjisë na lejon të supozojmë se rezultatet e situatave të ngjashme do të jenë gjithashtu afër njëra-tjetrës. Disavantazhi i kësaj qasjeje është se nuk krijon modele apo rregulla që përgjithësojnë përvojën e mëparshme. Për më tepër, besueshmëria e rezultateve të nxjerra varet nga plotësia e përshkrimit të situatave, si në proceset e konkluzionit induktiv.

Logjika fuzzy përdoret për të përpunuar të dhëna me vlera të vërteta të paqarta që mund të përfaqësohen nga një sërë variablash gjuhësorë. Paraqitja e njohurive fuzzy përdoret gjerësisht në sistemet me konkluzion logjik (deduktiv, induktiv, abduktiv) për zgjidhjen e problemeve të klasifikimit dhe parashikimit.

Algoritmet gjenetike janë përfshirë në paketën e veglave DM si një mjet i fuqishëm për zgjidhjen e problemeve kombinuese dhe optimizuese. Ato shpesh përdoren në lidhje me rrjetet nervore. Në detyrat e nxjerrjes së njohurive, përdorimi i algoritmeve gjenetike shoqërohet me kompleksitetin e vlerësimit të rëndësisë statistikore të zgjidhjeve të marra dhe me vështirësitë e ndërtimit të kritereve për zgjedhjen e zgjidhjeve të suksesshme.

Regresioni logjik (logjistik) përdoret për të parashikuar mundësinë e shfaqjes së një vlere të caktuar të një ndryshoreje objektive diskrete. Ndryshorja e varur diskrete (objektivi) nuk mund të modelohet duke përdorur metoda konvencionale të regresionit linear multivariate. Sidoqoftë, probabiliteti i rezultatit mund të përfaqësohet si një funksion i variablave hyrëse, gjë që lejon marrjen e vlerësimeve sasiore të efektit të këtyre parametrave në variablin e varur. Probabilitetet e marra mund të përdoren gjithashtu për të vlerësuar shanset. Regresioni logjik është, nga njëra anë, një mjet klasifikimi që përdoret për të parashikuar vlerat e ndryshoreve kategorike, dhe nga ana tjetër, është një mjet regresioni që lejon të vlerësohet shkalla e ndikimit të faktorëve të hyrjes në rezultat.

Programimi evolucionar është dega më e re dhe më premtuese e DM. Thelbi i metodës qëndron në faktin se hipotezat për formën e varësisë së ndryshores së synuar nga variablat e tjerë formulohen nga një sistem kompjuterik në formën e programeve në një gjuhë të caktuar programimi të brendshëm. Nëse është një gjuhë universale, atëherë teorikisht është në gjendje të shprehë varësi të formës arbitrare. Procesi i ndërtimit të programeve të tilla është organizuar si një evolucion në botën e programeve. Kur sistemi gjen një program që shpreh me saktësi të mjaftueshme varësinë e dëshiruar, ai fillon të bëjë modifikime të vogla në të dhe zgjedh ato që janë më të sakta midis programeve të ndërtuara fëmijë. Më pas, varësitë e gjetura përkthehen nga gjuha e brendshme e sistemit në një gjuhë të kuptueshme për përdoruesin (formula matematikore, tabela, etj.). Në të njëjtën kohë, mjetet e vizualizimit përdoren në mënyrë aktive.