Použite Excel ako nástroj na kopírovanie údajov z webu

Web scraping je akt extrahovania údajov, informácií alebo obrázkov z webovej stránky pomocou automatizovanej metódy. Predstavte si(Think) to ako kopírovanie a prilepenie v plnom automatickom režime.

Buď napíšeme, alebo použijeme aplikáciu, aby sme prešli na webové stránky, ktoré chceme, a vytvorili kópiu konkrétnych vecí, ktoré z týchto webových stránok chceme. Je to oveľa presnejšie ako sťahovanie celej webovej stránky(downloading an entire website) .

Ako každý nástroj, aj zoškrabovanie webu sa dá použiť na dobro alebo zlo. Niektoré z lepších dôvodov na zoškrabovanie webových stránok by bolo ich hodnotenie vo vyhľadávači na základe ich obsahu, porovnávania cien alebo monitorovania informácií o akciovom trhu. Môžete ho dokonca použiť ako určitý druh výskumného nástroja.

Ako môžem zoškrabať webové stránky pomocou Excelu(Excel) ?

Verte či nie, Excel má schopnosť extrahovať dáta z webových stránok už dlho, minimálne od Excelu 2003(Excel 2003) . Ide len o to, že zoškrabovanie webu je niečo, na čo väčšina ľudí nemyslí, nehovoriac o tom, že by na túto prácu použili tabuľkový procesor. Ale je to prekvapivo jednoduché a výkonné. Poďme sa naučiť, ako sa to robí, vytvorením zbierky klávesových skratiek balíka Microsoft Office .(Microsoft Office)

Nájdite stránky, ktoré chcete zoškrabať

Prvá vec, ktorú urobíme, je nájsť konkrétne webové stránky, z ktorých chceme získať informácie. Poďme k zdroju a hľadajme na https://support.office.com/ . Budeme používať hľadaný výraz „často používané skratky“. Môžeme to spresniť použitím názvu konkrétnej aplikácie, napríklad Outlook , Excel , Word atď. Môže byť dobrý nápad uložiť si stránku s výsledkami ako záložku, aby sme sa tam mohli jednoducho vrátiť.

Kliknite(Click) na výsledok vyhľadávania „Klávesové skratky v Exceli(Excel) pre Windows“. Na tejto stránke nájdite zoznam verzií Excelu(Excel) a kliknite na Novšie verzie(Newer Versions) . Teraz pracujeme s najnovšími a najlepšími.

Mohli by sme sa vrátiť na našu stránku s výsledkami vyhľadávania a otvoriť výsledky pre všetky ostatné aplikácie balíka Office(Office) na ich vlastných kartách a uložiť ich medzi záložky. Je to dobrý nápad, dokonca aj pre toto cvičenie. Tu by sa väčšina ľudí zastavila pri zbieraní skratiek Office , ale nie my. (Office)Vložíme ich do Excelu(Excel) , aby sme s nimi mohli robiť, čo chceme, kedykoľvek budeme chcieť.

Otvorte Excel a Scrape

Otvorte Excel a začnite nový zošit. Uložte zošit ako skratky balíka Office(Office Shortcuts) . Ak máte OneDrive, uložte si ho tam, aby funkcia automatického ukladania fungovala.(AutoSave )

Po uložení zošita kliknite na kartu Údaje .(Data)

Na páse s nástrojmi na karte Údaje(Data) kliknite na položku Z webu(From Web) .

Otvorí sa okno sprievodcu Z webu . (From Web )Tu umiestnime webovú adresu alebo URL webovej stránky, z ktorej chceme zoškrabať údaje. Prepnite sa do webového prehliadača a skopírujte(copy) URL.

Prilepte adresu URL do poľa adresy URL(URL) v sprievodcovi z webu . (From Web)Mohli by sme sa rozhodnúť použiť to v základnom(Basic) alebo rozšírenom(Advanced) režime. Pokročilý(Advanced) režim nám poskytuje oveľa viac možností, ako pristupovať k údajom z webovej stránky. Na toto cvičenie potrebujeme iba Základný režim. Kliknite (Click) na tlačidlo OK(OK) .

Excel sa teraz pokúsi pripojiť k webovej lokalite. Môže to trvať niekoľko sekúnd. Ak áno, zobrazí sa nám okno postupu.

Otvorí sa okno Navigátor(Navigator) a naľavo sa zobrazí zoznam tabuliek z webovej lokality. Keď jeden vyberieme, vpravo sa nám zobrazí náhľad tabuľky. Vyberieme tabuľku Často používané skratky .(Frequently used shortcuts )

Ak sa potrebujeme poobzerať po tabuľke, ktorú chceme, môžeme kliknúť na kartu Web View a zobraziť skutočnú webovú stránku. (Web View)Keď ho nájdeme, môžeme naň kliknúť a vyberie sa na import.

Teraz klikneme na tlačidlo Načítať(Load) v spodnej časti tohto okna. Existujú aj iné možnosti, ktoré by sme si mohli vybrať, ktoré sú zložitejšie a presahujú rámec nášho prvého škrabania. Len si uvedomte, že sú tam. Možnosti webového zoškrabovania Excelu sú veľmi výkonné.

Webová tabuľka sa po niekoľkých sekundách načíta do Excelu . (Excel)Údaje uvidíme vľavo, kde na obrázku nižšie je číslo 1 . Číslo 2 zvýrazňuje dopyt(Query) použitý na získanie údajov z webovej lokality. Keď máme v zošite viacero dotazov, tu vyberieme ten, ktorý potrebujeme použiť.

Všimnite si(Notice) , že údaje prichádzajú do tabuľky ako tabuľka programu Excel(Excel) . Už je to nastavené tak, aby sme mohli dáta filtrovať alebo triediť.

Tento proces môžeme zopakovať pre všetky ostatné webové stránky, ktoré majú požadované skratky balíka Office pre (Office)Outlook , Word , Access , PowerPoint a akúkoľvek inú aplikáciu balíka Office(Office) .

Udržiavanie zoškrabaných údajov aktuálnych(Scraped Data Current) v Exceli(Excel)

Ako bonus pre vás sa naučíme, ako udržiavať naše zoškrabané údaje v Exceli(Excel) čerstvé . Je to skvelý spôsob, ako ilustrovať, aký silný je Excel na zoškrabovanie údajov. Aj v tomto prípade robíme len najzákladnejšie zoškrabovanie, ktoré Excel dokáže.

Pre tento príklad použite webovú stránku s informáciami o akciách, ako je https://www.cnbc.com/stocks/ .

Prejdite si to, čo sme urobili predtým, a skopírujte a prilepte novú adresu URL(URL) z panela s adresou.

Dostanete sa do okna Navigátora(Navigator) a uvidíte dostupné tabuľky. Vyberme hlavné americké akciové indexy(Major U.S. Stock Indices) .

Po zoškrabaní údajov sa nám zobrazí nasledujúca tabuľka.

Vpravo vidíme dopyt na hlavné americké akciové indexy(Major U.S. Stock Indexes) . Vyberte(Select) to tak, aby bolo zvýraznené. Uistite(Make) sa, že sme na karte Nástroje tabuľky(Table Tools) a v oblasti Návrh(Design) . Potom kliknite na šípku nadol pod položkou Obnoviť(Refresh) . Potom kliknite na Vlastnosti pripojenia(Connection Properties) .

V okne Vlastnosti dotazu na karte (Query Properties )Použitie(Usage) môžeme ovládať, ako sa tieto informácie obnovujú. Môžeme nastaviť konkrétne časové obdobie na obnovenie alebo obnovenie pri ďalšom otvorení zošita, na obnovenie na pozadí alebo akúkoľvek kombináciu týchto možností. Keď si vyberieme, čo potrebujeme, kliknutím na OK zatvorte okno a pokračujte.

To je všetko! Teraz môžete z tabuľky programu Excel(Excel) sledovať ceny akcií, športové výsledky alebo akékoľvek iné údaje, ktoré sa často menia . Ak ovládate rovnice a funkcie Excelu(Excel equations and functions) , môžete s údajmi robiť takmer všetko, čo chcete.

Možno sa pokúste identifikovať akciové trendy, prevádzkovať fantastický športový bazén v práci alebo možno len sledovať počasie. Kto vie? Vaša predstavivosť a údaje dostupné na internete(Internet) sú jedinými obmedzeniami.



About the author

Som webový vývojár s viac ako 10 ročnými skúsenosťami, z toho 8 rokov ako profesionálny softvérový inžinier. Mám tiež skúsenosti s vývojom mobilných aplikácií a hier pre stolné aj mobilné zariadenia. Vo voľnom čase rád hrám videohry a pozerám filmy, počúvam hudbu, čítam knihy a venujem sa záhradke.



Related posts