Ako otvárať skutočne veľké textové súbory a súbory CSV

MS Excel dokáže zobraziť 1 048 576 riadkov. Aj keď sa to pri bežnom používaní môže zdať ako skutočne veľké číslo, existuje veľa scenárov, v ktorých to nestačí.

Či už si prezeráte protokolové súbory alebo veľké súbory údajov, je ľahké naraziť na súbory CSV s miliónmi riadkov alebo obrovské textové súbory. Keďže Excel nedokáže podporovať takéto veľké súbory, ako presne ich otvoríte? Poďme zistiť.

Prečo normálne textové editory(Normal Text Editors) neotvoria skutočne veľké súbory(Open Really Large Files) ?

Počítač má gigabajty úložného priestoru, tak prečo textové editory nemôžu otvárať veľké súbory?

V hre sú dva faktory. Niektoré aplikácie majú pevne zakódovaný limit množstva údajov, ktoré môžu zobraziť. Nezáleží na tom, koľko pamäte má váš počítač, jednoducho ju nevyužijú.

Druhým problémom je RAM . Mnoho textových editorov nemá pevný limit na počet riadkov, ale nedokáže zobraziť veľké súbory z dôvodu obmedzení pamäte. Načítajú celý súbor do systémovej RAM , takže ak táto pamäť nie je dostatočne veľká, proces zlyhá.

Metóda č. 1: Používanie bezplatných editorov

Najlepší spôsob, ako zobraziť extrémne veľké textové súbory, je použiť... textový editor. Nie hocijaký textový editor, ale nástroje určené na písanie kódu. Takéto aplikácie si zvyčajne bez problémov poradia s veľkými súbormi a sú zadarmo.

Prehliadač veľkých textových súborov(Large Text File Viewer) je pravdepodobne najjednoduchšia z týchto aplikácií. Je to naozaj jednoduché použitie, funguje rýchlo a má veľmi nízku náročnosť na zdroje. Jediná nevýhoda? Nemôže upravovať súbory. Ak si však chcete prezerať iba veľké súbory CSV , je to najlepší nástroj na túto prácu.

Na úpravu veľkých textových súborov by ste mali vyskúšať Emacs . Pôvodne vytvorený pre systémy Unix , funguje perfektne aj na Windows a dokáže spracovať veľké súbory. Podobne Neovim a Sublime Text sú dve ľahké IDE(IDEs) , ktoré možno použiť na otváranie textových súborov CSV s veľkosťou gigabajtu.(CSV)

Ak všetko, čo hľadáte, je vyhľadávanie údajov prostredníctvom veľkých protokolových súborov, potom je klogg práve pre vás nástrojom. Táto aplikácia, aktualizačná vidlica populárneho glogg , vám umožňuje ľahko vykonávať zložité operácie vyhľadávania v obrovských textových súboroch. Keďže počítačom generované protokolové súbory môžu mať často milióny riadkov, klogg je navrhnutý tak, aby s takýmito veľkosťami súborov fungoval bez problémov.

Metóda(Method) #2: Rozdelenie na viacero častí(Into Multiple Parts)

Celý problém pri pokuse o otvorenie veľkých súborov CSV spočíva v tom, že sú príliš veľké. Čo keby ste ich však rozdelili do viacerých menších súborov?

Toto je obľúbené riešenie, pretože vo všeobecnosti nezahŕňa učenie sa rozhrania nového textového editora. Namiesto toho môžete použiť jeden z mnohých rozdeľovačov CSV dostupných online(one of the many CSV splitters available online) na rozdelenie veľkého súboru na množstvo ľahko otvárateľných súborov. Ku každému z týchto súborov je potom možné normálne pristupovať.

Toto však nie je najlepší spôsob. Rozdelenie veľkého súboru môže často viesť k zvláštnym preklepom alebo nesprávne nakonfigurovaným súborom. Okrem toho otváranie každého bloku oddelene vám bráni filtrovať celé údaje naraz.

Metóda #3: Import do databázy

Textové súbory a súbory .csv s veľkosťou niekoľkých gigabajtov sú vo všeobecnosti veľké množiny údajov. Tak prečo ich jednoducho neimportovať do databázy?

SQL je v súčasnosti najbežnejším značkovacím jazykom databázy. Používa sa veľa verzií SQL(many versions of SQL) , ale najjednoduchšia je pravdepodobne MySQL . A ako šťastie, je možné previesť súbor CSV na tabuľku MySQL(convert a CSV file into a MySQL table) .

Toto nie je v žiadnom prípade najjednoduchší spôsob práce s veľkými súbormi CSV , takže to odporúčame iba vtedy, ak chcete pravidelne pracovať s veľkými súbormi údajov. Ak vám MySQL znie príliš ťažko, vždy môžete namiesto toho importovať súbory .csv do MS Access .

Metóda(Method) č. 4: Analýza pomocou knižníc Pythonu(Python)

Keď pracujete so súborom vo formáte .csv s miliónmi riadkov údajov, očividne z toho nebudete vedieť porozumieť manuálne. Pravdepodobne budete chcieť filtrovať údaje a spustiť konkrétne dotazy, aby ste pochopili trendy.

Prečo teda nenapísať kód Python(write Python code) , aby ste to urobili?

Ešte raz, toto nie je užívateľsky najpríjemnejšia metóda. Aj keď Python nie je najťažší programovací jazyk na učenie(Python isn’t the hardest programming language to learn) , je to kódovanie, takže to pre vás nemusí byť najlepší prístup. Ak však zistíte, že musíte denne analyzovať skutočne veľké súbory CSV , možno budete chcieť túto úlohu zautomatizovať pomocou kódu Python(automate the task with some Python code) .

Metóda č. 5: S prémiovými nástrojmi

Textové editory, ktoré sme videli v prvej metóde, neboli špecializované nástroje určené na spracovanie CSV . Boli to univerzálne nástroje, ktoré sa dali použiť aj na prácu s veľkými súbormi .csv.

Ale čo špecializované aplikácie? Neexistujú žiadne aplikácie, ktoré by boli vytvorené na vyriešenie tohto problému?

V skutočnosti existujú. Napríklad CSV Explorer(CSV Explorer) stavia na samotnom procese, ktorý sme opísali v posledných dvoch metódach ( databáza SQL a kód Python ), na vytvorenie aplikácie schopnej prezerať a upravovať súbory CSV ľubovoľnej veľkosti. Môžete robiť všetko, čo očakávate od tabuľkového procesora, ako je vytváranie grafov alebo filtrovanie údajov v CSV Explorer .

Ďalšou možnosťou je UltraEdit . Na rozdiel od predchádzajúceho nástroja to nie je určené len pre súbory .csv, ale pre akýkoľvek typ textového súboru. Dokáže ľahko spracovať textové súbory a súbory CSV v rozsahu niekoľkých gigabajtov s rozhraním podobným mnohým bezplatným editorom, o ktorých sme hovorili vyššie. 

Jedinou nevýhodou týchto nástrojov je, že ide o prémiové aplikácie, ktoré si vyžadujú, aby ste získali platenú licenciu, aby ste ich mohli používať. Vždy si môžete vyskúšať ich bezplatné skúšobné verzie, aby ste si overili ich funkcie, alebo ak máte len jednorazové použitie.

Aký je najlepší spôsob otvárania veľkých textových(Large Text) súborov a súborov CSV(CSV Files) ?

V tomto veku veľkých dát(Big Data) nie je nezvyčajné naraziť na textové súbory s veľkosťou gigabajtov, ktoré môže byť ťažké dokonca zobraziť pomocou vstavaných nástrojov, ako je Poznámkový blok(Notepad) alebo MS Excel . Aby ste mohli otvárať takéto veľké súbory CSV , musíte si stiahnuť a použiť aplikáciu tretej strany.

Ak si chcete iba prezerať takéto súbory, potom je pre vás najlepšou voľbou prehliadač veľkých textových súborov . (Large Text File Viewer)Ak ich chcete skutočne upraviť, môžete vyskúšať textový editor s bohatými funkciami, ako je Emacs , alebo použiť prémiový nástroj, ako je CSV Explorer .

Techniky, ako je rozdelenie súboru CSV alebo jeho import do databázy, zahŕňajú príliš veľa krokov. Ak veľa pracujete s obrovskými textovými súbormi, je lepšie, ak si zaobstaráte platenú licenciu špeciálneho prémiového nástroja.



About the author

Som počítačový vedec s viac ako 10-ročnými skúsenosťami v oblasti prehliadačov, Microsoft office a onedrive. Špecializujem sa na vývoj webových aplikácií, prieskum používateľských skúseností a rozsiahly vývoj aplikácií. Moje schopnosti využívajú niektoré z popredných svetových spoločností vrátane Google, Facebooku a Apple.



Related posts