Čo je dolovanie údajov? Základy a ich techniky.

Založenie štvrtej priemyselnej revolúcie bude vo veľkej miere závisieť od údajov(Data) a konektivity(Connectivity) . V tomto smere budú kľúčovú úlohu zohrávať analytické služby schopné vyvíjať alebo vytvárať riešenia na dolovanie údajov. (Analysis Services)Mohlo by to pomôcť pri analýze a predpovedaní výsledkov nákupného správania zákazníkov pri zacielení na potenciálnych kupcov. Údaje(Data) sa stanú novým prírodným zdrojom a proces získavania relevantných informácií z týchto netriedených údajov nadobudne nesmiernu dôležitosť. Správne pochopenie pojmu – dolovanie údajov(Data Mining) , jeho procesov a aplikácie by nám mohlo pomôcť pri vytváraní holistického prístupu k tomuto módnemu slovu.

Základy dolovania údajov(Data Mining Basics) a jeho techniky

data mining

Data mining, tiež známy ako Knowledge Discovery in Data ( KDD ), je o vyhľadávaní veľkých skladov údajov s cieľom odhaliť vzory a trendy, ktoré presahujú jednoduchú analýzu. Toto však nie je jednostupňové riešenie, ale viacstupňový proces a je dokončený v rôznych fázach. Tie obsahujú:

1] Zber a príprava údajov

Začína sa zberom údajov a ich správnou organizáciou. Pomáha to výrazne zvýšiť šance na nájdenie informácií, ktoré je možné objaviť pomocou dolovania údajov

2] Tvorba a hodnotenie modelu

Druhým krokom v procese dolovania údajov je aplikácia rôznych techník modelovania. Tie slúžia na kalibráciu parametrov na optimálne hodnoty. Použité techniky do značnej miery závisia od analytických schopností potrebných na riešenie škály organizačných potrieb a na prijatie rozhodnutia.

Pozrime sa v krátkosti na niektoré techniky dolovania údajov. Zistilo sa, že väčšina organizácií kombinuje dve alebo viac techník dolovania údajov, aby vytvorili vhodný proces, ktorý spĺňa ich obchodné požiadavky.

Prečítajte si(Read) : Čo sú veľké dáta?(What is Big Data?)

Techniky dolovania údajov

  1. Asociácia –  (Association – )Asociácia(Association) je jednou zo všeobecne známych techník dolovania údajov. Podľa toho sa vzor dešifruje na základe vzťahu medzi položkami v tej istej transakcii. Preto(Hence) je tiež známa ako technika vzťahov. Maloobchodníci veľkých značiek sa spoliehajú na túto techniku ​​pri prieskume nákupných návykov/preferencií zákazníkov. Napríklad pri sledovaní nákupných návykov ľudí môžu maloobchodníci zistiť, že zákazník vždy kupuje smotanu, keď kupuje čokoládu, a preto navrhnúť, aby si pri ďalšom nákupe čokolády chcel kúpiť aj smotanu.
  2. Klasifikácia(Classification) – Táto technika dolovania údajov sa líši od vyššie uvedených v tom, že je založená na strojovom učení a využíva matematické techniky, ako sú lineárne(Linear) programovanie, rozhodovacie(Decision) stromy, neurónové(Neural)siete. Pri klasifikácii sa spoločnosti snažia vytvoriť softvér, ktorý sa dokáže naučiť klasifikovať dátové položky do skupín. Spoločnosť môže napríklad v aplikácii definovať klasifikáciu, ktorá „vzhľadom na všetky záznamy o zamestnancoch, ktorí ponúkli výpoveď zo spoločnosti, predpovedá počet jednotlivcov, ktorí pravdepodobne v budúcnosti odstúpia zo spoločnosti“. V rámci takéhoto scenára môže spoločnosť zaradiť evidenciu zamestnancov do dvoch skupín, a to „odísť“ a „zostať“. Potom môže použiť svoj softvér na dolovanie údajov na klasifikáciu zamestnancov do samostatných skupín vytvorených skôr.
  3. Klastrovanie(Clustering)rôzne(Different)objekty vykazujúce podobné vlastnosti sú prostredníctvom automatizácie zoskupené do jedného klastra. Mnoho takýchto zhlukov je vytvorených ako triedy a objekty (s podobnými charakteristikami) sú do nich podľa toho umiestnené. Aby sme tomu lepšie porozumeli, pouvažujme o príklade správy kníh v knižnici. V knižnici je rozsiahla zbierka kníh plne katalogizovaná. Položky rovnakého typu sú uvedené spolu. To nám uľahčuje nájsť knihu, ktorá nás zaujíma. Podobne pomocou techniky zhlukovania môžeme uchovávať knihy, ktoré majú niektoré druhy podobností, v jednom zhluku a priradiť mu vhodný názov. Ak teda čitateľ hľadá knihu, ktorá je relevantná pre jeho záujmy, musí ísť iba na túto policu, a nie hľadať v celej knižnici. Technika zhlukovania teda definuje triedy a vkladá objekty do každej triedy,
  4. Predikcia(Prediction) – Predikcia je technika dolovania údajov, ktorá sa často používa v kombinácii s inými technikami dolovania údajov. Zahŕňa analýzu trendov, klasifikáciu, porovnávanie vzorov a vzťah. Analýzou minulých udalostí alebo prípadov v správnom poradí je možné bezpečne predpovedať budúcu udalosť. Napríklad techniku ​​predikčnej analýzy možno použiť pri predaji na predpovedanie budúceho zisku, ak sa predaj zvolí ako nezávislá premenná a zisk ako premenná závislá od predaja. Potom je možné na základe historických údajov o predaji a zisku nakresliť prispôsobenú regresnú krivku, ktorá sa používa na predikciu zisku.
  5. Rozhodovacie stromy(Decision trees) – V rámci rozhodovacieho stromu začíname jednoduchou otázkou, ktorá má viacero odpovedí. Každá odpoveď vedie k ďalšej otázke, ktorá pomáha klasifikovať alebo identifikovať údaje, aby sa dali kategorizovať alebo aby bolo možné na základe každej odpovede urobiť predpoveď. Napríklad na určenie toho, či hrať kriket ODI alebo nie, používame nasledujúci rozhodovací strom : Rozhodovací strom dolovania údajov(Data Mining Decision Tree) : Začíname v koreňovom uzle, ak predpoveď počasia predpovedá dážď, mali by sme sa zápasu na daný deň vyhnúť. Prípadne, ak je jasná predpoveď počasia, zápas by sme mali odohrať.

Data mining je jadrom analytického úsilia v rôznych odvetviach a disciplínach, ako sú komunikácia, poisťovníctvo(Insurance) , vzdelávanie(Education) , výroba(Manufacturing) , bankovníctvo(Banking) a maloobchod(Retail) a ďalšie. Preto je dôležité mať o ňom správne informácie pred použitím rôznych techník.



About the author

Som počítačový technik s viac ako 10-ročnými skúsenosťami a skúsenosťami s prácou so zariadeniami Android. Posledných päť rokov pracujem aj v kancelárii, kde som sa naučil používať Office 365 a MacOS. Vo voľnom čase rád trávim čas vonku pri hudbe alebo pozeraní filmov.



Related posts