Ako extrahovať zvýraznený text z PDF ako textový súbor?

Zvýraznenie textu v dokumente PDF je praktické na označenie dôležitých oblastí, ku ktorým máte neskôr rýchly prístup. Na zvýraznenie PDF môžete použiť Microsoft Edge(Microsoft Edge to highlight PDF)  alebo akýkoľvek iný softvér, ktorý je dodávaný s funkciou zvýrazňovania PDF . Niekedy ste tiež mohli cítiť potrebu mať iba zvýraznený text, aby ste mohli mať súhrn PDF obsahujúci všetok podstatný text. Ak hľadáte spôsoby, ako uložiť iba zvýraznený text z PDF ako súbor TXT , potom môže byť tento príspevok užitočný.

Extrahujte zvýraznený text z PDF

Existuje nejaký bezplatný softvér a služba na extrahovanie zvýrazneného textu zo súboru PDF a jeho uloženie ako textový súbor:

  • PDF Highlight Extractor
  • Čítačka Foxit
  • Sumnotes.net
  • DyAnnotationExtractor.

Pozrime sa na tento softvér PDF Highlight Extractor jeden po druhom.

1] PDF Highlight Extractor

Softvér PDF Highlight Extractor

PDF Highlight Extractor je jednou z najjednoduchších možností na extrahovanie zvýrazneného textu zo súboru PDF . Tento open source extraktor zvýraznenia textu PDF(PDF text highlight extractor) má dve funkcie, ktoré upútajú pozornosť. V softvérovom rozhraní môžete zobraziť ukážku zvýrazneného textu PDF.(preview highlighted text)

Druhou funkciou je, že môžete nastaviť počiatočnú alebo koncovú stránku alebo rozsah strán na extrahovanie textu(set start or end page or page range to extract the text) . Takže namiesto skenovania celého PDF môžete definovať čísla strán, aby ste získali zvýraznený text.

Ďalšou dobrou vlastnosťou je, že máte možnosť uložiť text ako obyčajný text(save text as plain text) alebo súbor Excel(Excel file) .

Na jeho rozhraní pridajte svoj PDF súbor pomocou danej možnosti a potom stlačte tlačidlo Extrahovať(Extract) . Zrušte začiarknutie možnosti Všetky strany(All Pages) , ak chcete nastaviť rozsah strán alebo ho nechať tak, ako je. Po načítaní textu si môžete zobraziť jeho ukážku. Nakoniec stlačením tlačidla Text alebo Excel uložte zvýraznený text.

Tento softvér si môžete stiahnuť tu(here) . Na používanie tohto softvéru je tiež potrebná Java . Nainštalujte si teda Javu(Java) (ak ešte nie) a spustite tento softvér.

2] Foxit Reader

Extrahujte zvýraznený text z PDF

Foxit Reader je jedným z najlepších bezplatných čítačiek PDF . Môžete otvoriť viacero súborov PDF na samostatných kartách, zvýrazniť PDF , pridať poznámku, exportovať komentáre(export comments) , pridať podpisy(add signatures) a ďalšie. Medzi obrovským zoznamom funkcií je aj extrahovanie zvýrazneného textu z PDF . Najlepšie na tejto funkcii je, že spolu s extrahovaným textom ukladá aj čísla strán(saves page numbers along with the extracted text) .

Ak chcete načítať zvýraznený text z PDF , otvorte súbor PDF v jeho rozhraní a prejdite na kartu Komentár . (Comment)Na tejto karte kliknite na možnosť Exportovať(Export) v sekcii Spravovať komentáre . (Manage Comments)Uvidíte možnosť Zvýraznený text(Highlighted Text) . Použite túto možnosť a potom môžete uložiť celý zvýraznený text ako textový súbor.

Tu(Here) je odkaz na stiahnutie tohto softvéru. Počas inštalácie by ste si mali vybrať vlastnú inštaláciu(custom installation) , aby zahŕňala iba požadované súčasti tohto softvéru.

3] Sumnotes.net

Súhrnné poznámky

Sumnotes.net je bezplatná služba, ktorá vám umožňuje anotovať PDF , ako aj extrahovať zvýraznený text. Všetok zvýraznený text je viditeľný samostatne na ľavom bočnom paneli. Pomocou tohto bočného panela môžete tiež odstrániť zvýraznený text, ktorý nepotrebujete,(remove highlighted text that you don’t need) a potom stiahnuť zvyšok zvýrazneného textu.

Pred stiahnutím zvýrazneného textu môžete zahrnúť aj čísla strán a vylúčiť(exclude) zvýraznený text určitej farby(highlighted text of specific color) .

Máte tiež možnosť uložiť zvýraznený text z PDF ako súbor Excel(save highlighted text from PDF as Excel) alebo Word . Vlastnosti sú teda dobré. Môžete sa zaregistrovať s bezplatným plánom a potom získať 50 zvýraznení(extract 50 highlights) alebo anotácií na stiahnutie(per download) , čo je vo väčšine prípadov dostatočné.

Tu(Here) je odkaz na jeho domovskú stránku. Ak chcete extrahovať zvýraznený text z PDF , pridajte PDF z PC alebo Google Drive . Po odovzdaní PDF sú na ľavej strane viditeľné anotácie a zvýraznený text. Použite možnosť Stiahnuť anotácie(Download Annotations) a potom môžete zvýraznený text uložiť do súboru vo formáte TXT , XLSX alebo DOC .

4] DyAnnotationExtractor

Softvér príkazového riadka DyAnnotationExtractor

Softvér DyAnnotationExtractor(DyAnnotationExtractor) vám môže pomôcť extrahovať zvýraznený text a komentáre(comments) z dokumentu PDF. Je to softvér príkazového riadka(command-line) , ale jeho používanie je veľmi jednoduché. Len jeden príkaz načíta text zvýraznený vo vstupnom súbore PDF .

Tento softvér môžete získať pomocou tohto odkazu(this link) . Stiahnite si(Download) jeho súbor ZIP a potom ho rozbaľte. Aby ste uľahčili spustenie príkazu, mali by ste tiež vložiť PDF do rovnakého priečinka, kde ste extrahovali tento softvér. Potom otvorte okno príkazového riadka(Command Prompt) v tomto priečinku. Môžete to urobiť zadaním cmd do poľa s adresou tohto priečinka a stlačením klávesu Enter .

Keď sa otvorí okno CMD , pridajte súbor (CMD)BAT tohto softvéru, vstupný príkaz vrátane cesty vstupného PDF , výstupný príkaz a názov výstupného súboru spolu s príponou '.txt'. Úplný príkaz bude -

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

Vykonajte príkaz. Počkajte(Wait) niekoľko sekúnd a súbor s obyčajným textom bude pripravený, ktorý bude obsahovať všetok zvýraznený text a komentáre získané z tohto PDF . Výstupný súbor sa uloží do rovnakého vstupného priečinka.

Toto sú niektoré možnosti, ktoré môžete použiť na extrahovanie zvýrazneného textu z PDF a potom uložiť výstup ako textový súbor. Dúfam,(Hope) že tieto pomôžu.



About the author

Som inžinier windows,ios,pdf,errors,gadgets s viac ako 10-ročnými skúsenosťami. Pracoval som na mnohých vysokokvalitných Windows aplikáciách a frameworkoch, ako sú OneDrive for Business, Office 365 a ďalšie. Moja nedávna práca zahŕňala vývoj čítačky súborov PDF pre platformu Windows a prácu na tom, aby boli chybové správy zrozumiteľnejšie pre používateľov. Okrem toho sa už niekoľko rokov podieľam na vývoji platformy ios a veľmi dobre poznám jej funkcie a zvláštnosti.



Related posts