Čo je dolovanie údajov? Základy a ich techniky.
Založenie štvrtej priemyselnej revolúcie bude vo veľkej miere závisieť od údajov(Data) a konektivity(Connectivity) . V tomto smere budú kľúčovú úlohu zohrávať analytické služby schopné vyvíjať alebo vytvárať riešenia na dolovanie údajov. (Analysis Services)Mohlo by to pomôcť pri analýze a predpovedaní výsledkov nákupného správania zákazníkov pri zacielení na potenciálnych kupcov. Údaje(Data) sa stanú novým prírodným zdrojom a proces získavania relevantných informácií z týchto netriedených údajov nadobudne nesmiernu dôležitosť. Správne pochopenie pojmu – dolovanie údajov(Data Mining) , jeho procesov a aplikácie by nám mohlo pomôcť pri vytváraní holistického prístupu k tomuto módnemu slovu.
Základy dolovania údajov(Data Mining Basics) a jeho techniky
Data mining, tiež známy ako Knowledge Discovery in Data ( KDD ), je o vyhľadávaní veľkých skladov údajov s cieľom odhaliť vzory a trendy, ktoré presahujú jednoduchú analýzu. Toto však nie je jednostupňové riešenie, ale viacstupňový proces a je dokončený v rôznych fázach. Tie obsahujú:
1] Zber a príprava údajov
Začína sa zberom údajov a ich správnou organizáciou. Pomáha to výrazne zvýšiť šance na nájdenie informácií, ktoré je možné objaviť pomocou dolovania údajov
2] Tvorba a hodnotenie modelu
Druhým krokom v procese dolovania údajov je aplikácia rôznych techník modelovania. Tie slúžia na kalibráciu parametrov na optimálne hodnoty. Použité techniky do značnej miery závisia od analytických schopností potrebných na riešenie škály organizačných potrieb a na prijatie rozhodnutia.
Pozrime sa v krátkosti na niektoré techniky dolovania údajov. Zistilo sa, že väčšina organizácií kombinuje dve alebo viac techník dolovania údajov, aby vytvorili vhodný proces, ktorý spĺňa ich obchodné požiadavky.
Prečítajte si(Read) : Čo sú veľké dáta?(What is Big Data?)
Techniky dolovania údajov
- Asociácia – (Association – )Asociácia(Association) je jednou zo všeobecne známych techník dolovania údajov. Podľa toho sa vzor dešifruje na základe vzťahu medzi položkami v tej istej transakcii. Preto(Hence) je tiež známa ako technika vzťahov. Maloobchodníci veľkých značiek sa spoliehajú na túto techniku pri prieskume nákupných návykov/preferencií zákazníkov. Napríklad pri sledovaní nákupných návykov ľudí môžu maloobchodníci zistiť, že zákazník vždy kupuje smotanu, keď kupuje čokoládu, a preto navrhnúť, aby si pri ďalšom nákupe čokolády chcel kúpiť aj smotanu.
- Klasifikácia(Classification) – Táto technika dolovania údajov sa líši od vyššie uvedených v tom, že je založená na strojovom učení a využíva matematické techniky, ako sú lineárne(Linear) programovanie, rozhodovacie(Decision) stromy, neurónové(Neural)siete. Pri klasifikácii sa spoločnosti snažia vytvoriť softvér, ktorý sa dokáže naučiť klasifikovať dátové položky do skupín. Spoločnosť môže napríklad v aplikácii definovať klasifikáciu, ktorá „vzhľadom na všetky záznamy o zamestnancoch, ktorí ponúkli výpoveď zo spoločnosti, predpovedá počet jednotlivcov, ktorí pravdepodobne v budúcnosti odstúpia zo spoločnosti“. V rámci takéhoto scenára môže spoločnosť zaradiť evidenciu zamestnancov do dvoch skupín, a to „odísť“ a „zostať“. Potom môže použiť svoj softvér na dolovanie údajov na klasifikáciu zamestnancov do samostatných skupín vytvorených skôr.
- Klastrovanie(Clustering) – rôzne(Different)objekty vykazujúce podobné vlastnosti sú prostredníctvom automatizácie zoskupené do jedného klastra. Mnoho takýchto zhlukov je vytvorených ako triedy a objekty (s podobnými charakteristikami) sú do nich podľa toho umiestnené. Aby sme tomu lepšie porozumeli, pouvažujme o príklade správy kníh v knižnici. V knižnici je rozsiahla zbierka kníh plne katalogizovaná. Položky rovnakého typu sú uvedené spolu. To nám uľahčuje nájsť knihu, ktorá nás zaujíma. Podobne pomocou techniky zhlukovania môžeme uchovávať knihy, ktoré majú niektoré druhy podobností, v jednom zhluku a priradiť mu vhodný názov. Ak teda čitateľ hľadá knihu, ktorá je relevantná pre jeho záujmy, musí ísť iba na túto policu, a nie hľadať v celej knižnici. Technika zhlukovania teda definuje triedy a vkladá objekty do každej triedy,
- Predikcia(Prediction) – Predikcia je technika dolovania údajov, ktorá sa často používa v kombinácii s inými technikami dolovania údajov. Zahŕňa analýzu trendov, klasifikáciu, porovnávanie vzorov a vzťah. Analýzou minulých udalostí alebo prípadov v správnom poradí je možné bezpečne predpovedať budúcu udalosť. Napríklad techniku predikčnej analýzy možno použiť pri predaji na predpovedanie budúceho zisku, ak sa predaj zvolí ako nezávislá premenná a zisk ako premenná závislá od predaja. Potom je možné na základe historických údajov o predaji a zisku nakresliť prispôsobenú regresnú krivku, ktorá sa používa na predikciu zisku.
- Rozhodovacie stromy(Decision trees) – V rámci rozhodovacieho stromu začíname jednoduchou otázkou, ktorá má viacero odpovedí. Každá odpoveď vedie k ďalšej otázke, ktorá pomáha klasifikovať alebo identifikovať údaje, aby sa dali kategorizovať alebo aby bolo možné na základe každej odpovede urobiť predpoveď. Napríklad na určenie toho, či hrať kriket ODI alebo nie, používame nasledujúci rozhodovací strom : Rozhodovací strom dolovania údajov(Data Mining Decision Tree) : Začíname v koreňovom uzle, ak predpoveď počasia predpovedá dážď, mali by sme sa zápasu na daný deň vyhnúť. Prípadne, ak je jasná predpoveď počasia, zápas by sme mali odohrať.
Data mining je jadrom analytického úsilia v rôznych odvetviach a disciplínach, ako sú komunikácia, poisťovníctvo(Insurance) , vzdelávanie(Education) , výroba(Manufacturing) , bankovníctvo(Banking) a maloobchod(Retail) a ďalšie. Preto je dôležité mať o ňom správne informácie pred použitím rôznych techník.
Related posts
26 najlepších softvérov na dolovanie dát
Ako používať funkciu automatického typu údajov v Exceli
Inštalácii BitLocker sa nepodarilo exportovať ukladací priestor BCD (Boot Configuration Data).
Ako spravovať limit využitia dát v systéme Windows 11/10
Nie je možné importovať súbor databázy Registry. Nie všetky údaje boli zapísané do databázy Registry
Opravte nepridelený pevný disk bez straty údajov v systéme Windows 10
Čo je Data Analytics a na čo sa používa
Prečo spoločnosti zhromažďujú, predávajú, nakupujú alebo uchovávajú osobné údaje
Vymazať súbory cookie, údaje stránok, vyrovnávaciu pamäť pre konkrétny web: Chrome Edge Firefox
CD/DVD Data Recovery software na obnovu dát z CD DVD
Kto vlastní IoT dáta? Výrobca, koncový používateľ alebo nejaká tretia strana?
Vysvetlenie zraniteľnosti mikroarchitektúrneho vzorkovania údajov (MDS).
Disk Drill pre Windows: Obnovte omylom odstránené súbory
Ako stiahnuť alebo extrahovať údaje z Máp Google
Zapnite alebo vypnite diagnostické údaje o používaní programu Moderátor v systéme Windows 10
Softvér na zálohovanie údajov Renee Becca pre Windows PC
PCmover Express – migrujte dáta z Windows 7 na Windows 10 zadarmo
Čo sú veľké dáta – jednoduché vysvetlenie s príkladom
Vymažte údaje stránok pre konkrétny web v prehliadači Chrome alebo Edge pomocou nástrojov pre vývojárov
Nástroj na opravu dvojitého spustenia: Oprava konfiguračných údajov zavádzania BCD