Ako extrahovať tabuľky z dokumentov PDF

Tento článok vám ukáže, ako extrahovať tabuľky z dokumentov PDF(extract tables from PDF documents) . Môžete mať veľa súborov PDF , ktoré obsahujú viacero tabuliek, ktoré chcete použiť samostatne. Kopírovanie(Copying) a prilepenie týchto tabuliek nie je dobrou voľbou, pretože nemusí poskytnúť očakávaný výstup, a preto potrebujete ďalšie jednoduché možnosti, ktoré dokážu extrahovať tabuľky zo súboru PDF a uložiť tieto tabuľky ako samostatné súbory.

Väčšina týchto nástrojov na extrakciu tabuliek PDF(PDF table extractor tools) nemôže pomôcť, ak je tabuľka PDF naskenovaná. V takom prípade by ste mali najskôr nastaviť PDF na vyhľadávanie(make the PDF searchable)  a potom vyskúšať tieto možnosti.

Extrahujte tabuľky z dokumentov PDF

V tomto príspevku sme pridali 2 bezplatné online služby a 3 bezplatný softvér na extrahovanie tabuliek zo súboru PDF :

  1. PDF do XLS
  2. PDFtoExcel.com
  3. Tabula
  4. ByteScout PDF Multitool
  5. Sejda PDF Desktop.

1] PDF do XLS

Služba PDF do XLS

PDF do XLS je jednou z najlepších možností na extrahovanie tabuliek z PDF . Má dve funkcie, vďaka ktorým je praktický. Môžete načítať tabuľky z 20 dokumentov PDF(20 PDF) spolu. Extrakcia tabuľky PDF(PDF) je tiež automatická. Vygeneruje výstup ako súbor XLSX . Ak má PDF viacero tabuliek, každá tabuľka je uložená samostatne v rôznych hárkoch výstupného súboru XLSX .

Otvorte domovskú stránku(Open the homepage) tejto služby. Potom potiahnite a pustite súbory PDF alebo použite tlačidlo NAHRAŤ SÚBORY(UPLOAD FILES) . Každý odovzdaný súbor PDF(PDF) sa automaticky skonvertuje na súbor vo formáte XLSX. Keď sú výstupné súbory pripravené, môžete si ich stiahnuť jeden po druhom alebo stiahnuť súbor ZIP , ktorý bude obsahovať všetky výstupné súbory.

2] PDFtoExcel.com

Extrahujte tabuľky z dokumentov PDF

Služba PDFtoExcel.com(PDFtoExcel.com) dokáže extrahovať tabuľky z jedného PDF naraz, ale podporuje viacero platforiem na nahrávanie PDF . Na nahrávanie PDF podporuje platformy OneDrive , desktop , Google Drive a Dropbox . Proces konverzie je tiež automatický.

Táto domovská stránka služby je tu(here) . Ak chcete pridať súbor PDF(PDF) , vyberte možnosť nahrávania . Potom automaticky nahrá a skonvertuje PDF do súboru Excel ( XLSX ). Keď je výstup pripravený, dostanete odkaz na stiahnutie na uloženie výstupného súboru obsahujúceho tabuľku (tabuľky) PDF .

Poznámka:(Note: ) Hoci táto služba uvádza, že dokáže extrahovať tabuľky aj z naskenovaných súborov PDF , mne to nefungovalo. Stále to môžete vyskúšať pre naskenované PDF .

3] Tabuľka

Softvér na extrakciu PDF súborov Tabula

Tabula je výkonný softvér, ktorý dokáže automaticky rozpoznať tabuľky nachádzajúce sa v PDF a potom vám umožní uložiť tieto tabuľky ako súbor TSV , JSON alebo CSV . Môžete si vybrať možnosť uložiť samostatné súbory CSV pre každú tabuľku PDF alebo uložiť všetky tabuľky do jedného súboru CSV .

Ak chcete stiahnuť tento extraktor tabuliek PDF s otvoreným zdrojom , (open-source)kliknite sem(click here) . Na spustenie a úspešné používanie tiež vyžaduje Java .(requires Java)

Rozbaľte súbor ZIP , ktorý ste stiahli, a spustite súbor tabula.exe . Otvorí sa stránka vo vašom predvolenom prehliadači. Ak sa stránka neotvorí, pridajte do prehliadača http://localhost:8080 a stlačte Enter .

Teraz uvidíte jeho rozhranie, kde môžete pomocou možnosti Prehľadávať(Browse) pridať súbor PDF . Potom stlačte tlačidlo Importovať(Import) . Po pridaní súboru PDF môžete v jeho rozhraní vidieť stránky PDF .

Použite tlačidlo Autodetect Tables a automaticky zvýrazní všetky tabuľky prítomné v tomto PDF . Tabuľku môžete zvýrazniť aj manuálne výberom konkrétnej tabuľky. Ak chcete, môžete tiež odstrániť vybrané stoly(remove selected tables) podľa vlastného výberu.

To vám pomôže uložiť iba tie tabuľky, ktoré chcete. Keď sú zvýraznené tabuľky PDF , kliknite na tlačidlo (PDF)Zobraziť a exportovať extrahované údaje(Preview & Export Extracted Data) .

Nakoniec použite rozbaľovaciu ponuku dostupnú v hornej časti na výber výstupného formátu a stlačte tlačidlo Exportovať(Export) . Tým sa uložia tabuľky PDF vo vami vybranom súbore výstupného formátu.

4] ByteScout PDF Multitool

ByteScout PDF Multitool – pridajte pdf a zistite tabuľky

Ako už názov napovedá, tento softvér sa dodáva s viacerými nástrojmi. Má nástroje ako konvertovať PDF na viacstranový TIFF(convert PDF to multipage TIFF) , otáčať dokument PDF(rotate PDF document) , robiť PDF nevyhľadateľným(make PDF unsearchable) , optimalizovať PDF(optimize PDF) , pridávať obrázok do PDF(add an image to PDF) a ďalšie. Existuje aj funkcia detektora stolov PDF , čo je celkom úžasné. (PDF)Výhodou tohto nástroja je, že môžete extrahovať tabuľky(extract tables from scanned PDF) aj z naskenovaného PDF. Tabuľky môžete zistiť na viacerých stránkach a potom ich extrahovať ako súbory vo formáte CSV , XLS , XML , TXT alebo JSON . Pred extrakciou vám tiež umožňuje nastaviť rozsah strán(page range)na extrahovanie tabuliek len z určených stránok.

Tento softvér si môžete stiahnuť tu(here) . Je zadarmo len na nekomerčné použitie(free for non-commercial use) . Po inštalácii spustite tento softvér a pomocou možnosti Otvoriť dokument(Open Document) pridajte súbor PDF . Potom kliknite na nástroj Detekcia tabuliek(Detect tables) , ako je zvýraznené na obrázku vyššie. Tento nástroj sa nachádza v kategórii Extrakcia údajov(Data Extraction) .

Otvorí sa okno, v ktorom môžete nastaviť podmienky na detekciu tabuliek. Môžete napríklad nastaviť minimálny počet stĺpcov, riadkov, minimálne zalomenia riadkov medzi tabuľkami, nastaviť režim detekcie tabuľky na ohraničenú alebo bezokrajovú tabuľku atď. Použite možnosti alebo ponechajte predvolené nastavenia.

Potom stlačte tlačidlo Rozpoznať ďalšiu tabuľku(Detect next table) v tomto poli. Identifikuje a vyberie tabuľku na aktuálnej stránke. Týmto spôsobom sa môžete presunúť na inú stránku a zistiť viac tabuliek.

detegovať tabuľky a ukladať pdf tabuľky s vybraným výstupom

Keď skončíte, použite tlačidlo Pokračovať na extrakciu(Proceed to extraction) a vyberte výstupný formát. Nakoniec môžete použiť voľby na uloženie tabuliek z aktuálnej stránky alebo definovanie rozsahu stránok a uloženie výstupu.

Nástroj poskytuje uspokojivý výstup. Niekedy však môže zistiť iný obsah v PDF a nemusí byť schopný extrahovať tabuľky z viacerých stránok. V takom prípade by ste ho mali použiť na načítanie a uloženie tabuliek po jednej.

5] Sejda PDF Desktop

Sejda PDF Desktop s konvertorom pdf do excelu

Sejda PDF Desktop je tiež viacúčelový softvér. Dokáže optimalizovať alebo komprimovať PDF(compress PDF) , pridávať vodoznak do PDF, odstraňovať obmedzenia z PDF(remove restrictions from PDF) , upravovať PDF dokument atď. Jeho bezplatný plán má však obmedzenia. V bezplatnom pláne je možné vykonať iba 3 úlohy za deň. Limit veľkosti PDF je tiež 50 MB alebo 10 strán(10 pages) .

Na extrahovanie tabuliek PDF môžete použiť jeho nástroj na konverziu PDF do Excelu . (PDF to Excel)Automaticky rozpozná tabuľky na stránkach PDF a umožní vám uložiť tieto tabuľky ako XLSX alebo CSV .

Odkaz na jeho stiahnutie je tu(here) . Po inštalácii použite nástroj PDF do Excelu(Excel) z jeho hlavného rozhrania. Po výbere tohto nástroja použite tlačidlo Vybrať súbory PDF(Choose PDF files) . Do bezplatného plánu je možné pridať iba jeden súbor PDF .(PDF)

Po pridaní PDF sa zobrazia tlačidlá Konvertovať PDF do CSV(Convert PDF to CSV) a Konvertovať PDF do Excelu . (Convert PDF to Excel)Použite tlačidlo a potom môžete výstup uložiť na požadované miesto v počítači.

previesť tabuľku pdf do excelu alebo csv

Jeho nástroj na detekciu tabuliek PDF je dobrý. (PDF)Nemusíte manuálne zisťovať tabuľky. Niekedy však môže obsahovať iný textový obsah ako tabuľku PDF a uložiť ho vo výstupe. Ale celkové výsledky sú dobré.

To je všetko.

Toto sú niektoré dobré nástroje na extrahovanie tabuliek z PDF . Softvér Tabula(Tabula) je efektívnejší ako iné nástroje. Napriek tomu môžete vyskúšať všetky nástroje a zistiť, ktoré pomáhajú.

Podobné znie:(Similar reads:)



About the author

Som inžinier windows,ios,pdf,errors,gadgets s viac ako 10-ročnými skúsenosťami. Pracoval som na mnohých vysokokvalitných Windows aplikáciách a frameworkoch, ako sú OneDrive for Business, Office 365 a ďalšie. Moja nedávna práca zahŕňala vývoj čítačky súborov PDF pre platformu Windows a prácu na tom, aby boli chybové správy zrozumiteľnejšie pre používateľov. Okrem toho sa už niekoľko rokov podieľam na vývoji platformy ios a veľmi dobre poznám jej funkcie a zvláštnosti.



Related posts