Ako extrahovať tabuľky z dokumentov PDF
Tento článok vám ukáže, ako extrahovať tabuľky z dokumentov PDF(extract tables from PDF documents) . Môžete mať veľa súborov PDF , ktoré obsahujú viacero tabuliek, ktoré chcete použiť samostatne. Kopírovanie(Copying) a prilepenie týchto tabuliek nie je dobrou voľbou, pretože nemusí poskytnúť očakávaný výstup, a preto potrebujete ďalšie jednoduché možnosti, ktoré dokážu extrahovať tabuľky zo súboru PDF a uložiť tieto tabuľky ako samostatné súbory.
Väčšina týchto nástrojov na extrakciu tabuliek PDF(PDF table extractor tools) nemôže pomôcť, ak je tabuľka PDF naskenovaná. V takom prípade by ste mali najskôr nastaviť PDF na vyhľadávanie(make the PDF searchable) a potom vyskúšať tieto možnosti.
Extrahujte tabuľky z dokumentov PDF
V tomto príspevku sme pridali 2 bezplatné online služby a 3 bezplatný softvér na extrahovanie tabuliek zo súboru PDF :
- PDF do XLS
- PDFtoExcel.com
- Tabula
- ByteScout PDF Multitool
- Sejda PDF Desktop.
1] PDF do XLS
PDF do XLS je jednou z najlepších možností na extrahovanie tabuliek z PDF . Má dve funkcie, vďaka ktorým je praktický. Môžete načítať tabuľky z 20 dokumentov PDF(20 PDF) spolu. Extrakcia tabuľky PDF(PDF) je tiež automatická. Vygeneruje výstup ako súbor XLSX . Ak má PDF viacero tabuliek, každá tabuľka je uložená samostatne v rôznych hárkoch výstupného súboru XLSX .
Otvorte domovskú stránku(Open the homepage) tejto služby. Potom potiahnite a pustite súbory PDF alebo použite tlačidlo NAHRAŤ SÚBORY(UPLOAD FILES) . Každý odovzdaný súbor PDF(PDF) sa automaticky skonvertuje na súbor vo formáte XLSX. Keď sú výstupné súbory pripravené, môžete si ich stiahnuť jeden po druhom alebo stiahnuť súbor ZIP , ktorý bude obsahovať všetky výstupné súbory.
2] PDFtoExcel.com
Služba PDFtoExcel.com(PDFtoExcel.com) dokáže extrahovať tabuľky z jedného PDF naraz, ale podporuje viacero platforiem na nahrávanie PDF . Na nahrávanie PDF podporuje platformy OneDrive , desktop , Google Drive a Dropbox . Proces konverzie je tiež automatický.
Táto domovská stránka služby je tu(here) . Ak chcete pridať súbor PDF(PDF) , vyberte možnosť nahrávania . Potom automaticky nahrá a skonvertuje PDF do súboru Excel ( XLSX ). Keď je výstup pripravený, dostanete odkaz na stiahnutie na uloženie výstupného súboru obsahujúceho tabuľku (tabuľky) PDF .
Poznámka:(Note: ) Hoci táto služba uvádza, že dokáže extrahovať tabuľky aj z naskenovaných súborov PDF , mne to nefungovalo. Stále to môžete vyskúšať pre naskenované PDF .
3] Tabuľka
Tabula je výkonný softvér, ktorý dokáže automaticky rozpoznať tabuľky nachádzajúce sa v PDF a potom vám umožní uložiť tieto tabuľky ako súbor TSV , JSON alebo CSV . Môžete si vybrať možnosť uložiť samostatné súbory CSV pre každú tabuľku PDF alebo uložiť všetky tabuľky do jedného súboru CSV .
Ak chcete stiahnuť tento extraktor tabuliek PDF s otvoreným zdrojom , (open-source)kliknite sem(click here) . Na spustenie a úspešné používanie tiež vyžaduje Java .(requires Java)
Rozbaľte súbor ZIP , ktorý ste stiahli, a spustite súbor tabula.exe . Otvorí sa stránka vo vašom predvolenom prehliadači. Ak sa stránka neotvorí, pridajte do prehliadača http://localhost:8080 a stlačte Enter .
Teraz uvidíte jeho rozhranie, kde môžete pomocou možnosti Prehľadávať(Browse) pridať súbor PDF . Potom stlačte tlačidlo Importovať(Import) . Po pridaní súboru PDF môžete v jeho rozhraní vidieť stránky PDF .
Použite tlačidlo Autodetect Tables a automaticky zvýrazní všetky tabuľky prítomné v tomto PDF . Tabuľku môžete zvýrazniť aj manuálne výberom konkrétnej tabuľky. Ak chcete, môžete tiež odstrániť vybrané stoly(remove selected tables) podľa vlastného výberu.
To vám pomôže uložiť iba tie tabuľky, ktoré chcete. Keď sú zvýraznené tabuľky PDF , kliknite na tlačidlo (PDF)Zobraziť a exportovať extrahované údaje(Preview & Export Extracted Data) .
Nakoniec použite rozbaľovaciu ponuku dostupnú v hornej časti na výber výstupného formátu a stlačte tlačidlo Exportovať(Export) . Tým sa uložia tabuľky PDF vo vami vybranom súbore výstupného formátu.
4] ByteScout PDF Multitool
Ako už názov napovedá, tento softvér sa dodáva s viacerými nástrojmi. Má nástroje ako konvertovať PDF na viacstranový TIFF(convert PDF to multipage TIFF) , otáčať dokument PDF(rotate PDF document) , robiť PDF nevyhľadateľným(make PDF unsearchable) , optimalizovať PDF(optimize PDF) , pridávať obrázok do PDF(add an image to PDF) a ďalšie. Existuje aj funkcia detektora stolov PDF , čo je celkom úžasné. (PDF)Výhodou tohto nástroja je, že môžete extrahovať tabuľky(extract tables from scanned PDF) aj z naskenovaného PDF. Tabuľky môžete zistiť na viacerých stránkach a potom ich extrahovať ako súbory vo formáte CSV , XLS , XML , TXT alebo JSON . Pred extrakciou vám tiež umožňuje nastaviť rozsah strán(page range)na extrahovanie tabuliek len z určených stránok.
Tento softvér si môžete stiahnuť tu(here) . Je zadarmo len na nekomerčné použitie(free for non-commercial use) . Po inštalácii spustite tento softvér a pomocou možnosti Otvoriť dokument(Open Document) pridajte súbor PDF . Potom kliknite na nástroj Detekcia tabuliek(Detect tables) , ako je zvýraznené na obrázku vyššie. Tento nástroj sa nachádza v kategórii Extrakcia údajov(Data Extraction) .
Otvorí sa okno, v ktorom môžete nastaviť podmienky na detekciu tabuliek. Môžete napríklad nastaviť minimálny počet stĺpcov, riadkov, minimálne zalomenia riadkov medzi tabuľkami, nastaviť režim detekcie tabuľky na ohraničenú alebo bezokrajovú tabuľku atď. Použite možnosti alebo ponechajte predvolené nastavenia.
Potom stlačte tlačidlo Rozpoznať ďalšiu tabuľku(Detect next table) v tomto poli. Identifikuje a vyberie tabuľku na aktuálnej stránke. Týmto spôsobom sa môžete presunúť na inú stránku a zistiť viac tabuliek.
Keď skončíte, použite tlačidlo Pokračovať na extrakciu(Proceed to extraction) a vyberte výstupný formát. Nakoniec môžete použiť voľby na uloženie tabuliek z aktuálnej stránky alebo definovanie rozsahu stránok a uloženie výstupu.
Nástroj poskytuje uspokojivý výstup. Niekedy však môže zistiť iný obsah v PDF a nemusí byť schopný extrahovať tabuľky z viacerých stránok. V takom prípade by ste ho mali použiť na načítanie a uloženie tabuliek po jednej.
5] Sejda PDF Desktop
Sejda PDF Desktop je tiež viacúčelový softvér. Dokáže optimalizovať alebo komprimovať PDF(compress PDF) , pridávať vodoznak do PDF, odstraňovať obmedzenia z PDF(remove restrictions from PDF) , upravovať PDF dokument atď. Jeho bezplatný plán má však obmedzenia. V bezplatnom pláne je možné vykonať iba 3 úlohy za deň. Limit veľkosti PDF je tiež 50 MB alebo 10 strán(10 pages) .
Na extrahovanie tabuliek PDF môžete použiť jeho nástroj na konverziu PDF do Excelu . (PDF to Excel)Automaticky rozpozná tabuľky na stránkach PDF a umožní vám uložiť tieto tabuľky ako XLSX alebo CSV .
Odkaz na jeho stiahnutie je tu(here) . Po inštalácii použite nástroj PDF do Excelu(Excel) z jeho hlavného rozhrania. Po výbere tohto nástroja použite tlačidlo Vybrať súbory PDF(Choose PDF files) . Do bezplatného plánu je možné pridať iba jeden súbor PDF .(PDF)
Po pridaní PDF sa zobrazia tlačidlá Konvertovať PDF do CSV(Convert PDF to CSV) a Konvertovať PDF do Excelu . (Convert PDF to Excel)Použite tlačidlo a potom môžete výstup uložiť na požadované miesto v počítači.
Jeho nástroj na detekciu tabuliek PDF je dobrý. (PDF)Nemusíte manuálne zisťovať tabuľky. Niekedy však môže obsahovať iný textový obsah ako tabuľku PDF a uložiť ho vo výstupe. Ale celkové výsledky sú dobré.
To je všetko.
Toto sú niektoré dobré nástroje na extrahovanie tabuliek z PDF . Softvér Tabula(Tabula) je efektívnejší ako iné nástroje. Napriek tomu môžete vyskúšať všetky nástroje a zistiť, ktoré pomáhajú.
Podobné znie:(Similar reads:)
- Extrahujte prílohy z PDF(Extract attachments from PDF)
- Extrahujte zvýraznený text z PDF(Extract highlighted text from PDF) .
Related posts
Konvertor dokumentov: Prevod súborov DOC, PDF, DOCX, RTF, TXT, HTML
Čo je súbor PPS? Ako previesť PPS do PDF v systéme Windows 11/10?
Text PDF zmizne pri úprave alebo ukladaní súboru v systéme Windows 11/10
Najlepšie bezplatné online nástroje PDF Editor, ktoré sú založené na cloude
Bezplatný online nástroj PDF Editor na úpravu súborov PDF - PDF Áno
Softvér na kompresiu PDF: Komprimujte súbory PDF pomocou online nástrojov PDF Reducer
Ako zlúčiť viacero súborov PDF do jedného súboru PDF
Povoľte režim zobrazenia dvoch strán pre PDF v prehliadači PDF prehliadača Google Chrome
Pridajte, odstráňte alebo upravte hypertextové odkazy v súboroch PDF pomocou editora odkazov PDF
Ako extrahovať a uložiť metadáta PDF v systéme Windows 11/10
Ako extrahovať zvýraznený text z PDF ako textový súbor?
Ako previesť dokument PDF na viacstranový obrázok TIFF v systéme Windows
Najlepší softvér na počítanie slov PDF a online nástroje
Najlepšie bezplatné čítačky hlasov PDF pre Windows 10
Šifrujte súbor PDF pomocou funkcie PDF Page Lock pre Windows PC
Odstráňte obmedzenia PDF pomocou bezplatného softvéru alebo online nástrojov
Porovnajte dokumenty PDF, HTML, PPT atď. Online pomocou týchto bezplatných nástrojov
Adobe Reader nefunguje v systéme Windows 11/10
Úprava PDF pomocou bezplatného softvéru a služieb na úpravu PDF
Stiahnite si príručku Windows Command Reference PDF Guide od spoločnosti Microsoft