Extrahujte text z PDF a obrázkových súborov

Máte dokument PDF , z ktorého by ste chceli extrahovať celý text? A čo obrazové súbory naskenovaného dokumentu, ktorý chcete previesť na upraviteľný text? Toto sú niektoré z najbežnejších problémov, s ktorými som sa stretol na pracovisku pri práci so súbormi.

V tomto článku budem hovoriť o niekoľkých rôznych spôsoboch, ako sa pokúsiť extrahovať text z PDF alebo z obrázka. Výsledky extrakcie sa budú líšiť v závislosti od typu a kvality textu v PDF alebo obrázku. Vaše výsledky sa tiež budú líšiť v závislosti od nástroja, ktorý používate, takže je najlepšie vyskúšať čo najviac možností nižšie, aby ste dosiahli čo najlepšie výsledky.

Extrahujte text z obrázka alebo PDF

Najjednoduchší a najrýchlejší spôsob, ako začať, je vyskúšať online službu na extrakciu textu PDF . Zvyčajne sú zadarmo a môžu vám poskytnúť presne to, čo hľadáte, bez toho, aby ste museli čokoľvek inštalovať do počítača. Tu sú dva, ktoré som použil s veľmi dobrými až vynikajúcimi výsledkami:

Extrahovať PDF

extraktpdf

ExtractPDF je bezplatný nástroj na získavanie obrázkov, textu a písiem zo súboru PDF . Jediným obmedzením je, že maximálna veľkosť súboru PDF je 10 MB. To je trochu málo; takže ak máte väčší súbor, vyskúšajte niektoré z ďalších metód nižšie. Vyberte svoj súbor a potom kliknite na tlačidlo Odoslať súbor(Send file) . Výsledky sú zvyčajne veľmi rýchle a po kliknutí na kartu Text by ste mali vidieť ukážku textu.(Text)

stiahnuť text

Príjemnou výhodou je aj to, že extrahuje obrázky aj zo súboru PDF , pre prípad, že by ste ich potrebovali! Celkovo tento online nástroj funguje skvele, ale stretol som sa s niekoľkými dokumentmi PDF , ktoré mi poskytujú vtipný výstup. Text je extrahovaný v poriadku, ale z nejakého dôvodu bude mať zalomenie riadku po každom slove! Nie je to veľký problém pre krátky súbor PDF , ale určite problém pre súbory s množstvom textu. Ak sa vám to stane, vyskúšajte nasledujúci nástroj.

Online OCR

Online OCR zvyčajne fungovalo pre dokumenty, ktoré neboli správne skonvertované pomocou ExtractPDF , takže je dobré vyskúšať obe služby, aby ste zistili, ktorá z nich poskytuje lepší výstup. Online OCR má tiež niekoľko príjemnejších funkcií, ktoré sa môžu ukázať ako užitočné pre každého, kto má veľký súbor PDF , ktorý potrebuje previesť iba text na niekoľkých stranách a nie celý dokument.

Prvá vec, ktorú chcete urobiť, je pokračovať a vytvoriť si bezplatný účet. Je to trochu nepríjemné, ale ak si nevytvoríte bezplatný účet, skonvertuje vaše PDF iba čiastočne , a nie celý dokument. Namiesto toho, aby ste mohli nahrať iba 5 MB dokument, môžete pomocou účtu nahrať až 100 MB na súbor.

online ocr

Najprv vyberte jazyk a potom vyberte typ výstupných formátov, ktoré chcete pre konvertovaný súbor. Máte niekoľko možností a ak chcete, môžete si vybrať viac ako jednu. V časti Viacstranový dokument(Multipage document) môžete vybrať Čísla strán(Page numbers) a potom vybrať iba strany, ktoré chcete previesť. Potom vyberte súbor a kliknite na Konvertovať(Convert) !

online ocr dokumenty

Po konverzii sa dostanete do sekcie Dokumenty(Documents) (ak ste prihlásený), kde môžete vidieť, koľko voľných stránok vám zostáva a odkazy na stiahnutie konvertovaných súborov. Zdá sa, že máte zadarmo iba 25 stránok denne, takže ak potrebujete viac, budete musieť chvíľu počkať alebo si kúpiť ďalšie stránky.

Online OCR odviedlo vynikajúcu prácu pri konverzii mojich PDF , pretože dokázalo zachovať skutočné rozloženie textu. V mojom teste som vzal dokument programu Word(Word) , ktorý používal odrážky, rôzne veľkosti písma atď., a previedol ho do formátu PDF(PDF) . Potom som ho pomocou Online OCR skonvertoval späť do formátu Word a bol približne na 95 % rovnaký ako originál. To je pre mňa dosť pôsobivé.

Navyše, ak chcete previesť obrázok na text, Online OCR to dokáže rovnako jednoducho ako extrahovanie textu zo súborov PDF .

Online OCR zadarmo

Keďže sme hovorili o OCR z obrázka na text , dovoľte mi spomenúť ďalšiu dobrú webovú stránku, ktorá naozaj dobre funguje na obrázkoch. OCR zadarmo online(Free Online OCR) bolo veľmi dobré a veľmi presné pri extrahovaní textu z mojich testovacích obrázkov. Zo svojho iPhone som urobil pár fotiek stránok kníh, brožúr atď. a bol som prekvapený, ako dobre dokázal previesť text.

zadarmo online ocr

Vyberte súbor a potom kliknite na tlačidlo Nahrať(Upload) . Na ďalšej obrazovke je niekoľko možností a náhľad obrázka. Môžete to orezať, ak nechcete OCR celú vec. Potom stačí kliknúť na tlačidlo OCR a váš skonvertovaný text sa zobrazí pod náhľadom obrázka. Taktiež nemá žiadne obmedzenia, čo je naozaj pekné.

Okrem online služieb existujú dva freeware PDF konvertory, ktoré chcem spomenúť v prípade, že potrebujete softvér bežiaci lokálne na vašom počítači na vykonanie konverzií. S online službami budete vždy potrebovať internetové(Internet) pripojenie a to nemusí byť možné pre každého. Všimol som si však, že kvalita konverzií z freewarových programov bola výrazne horšia ako z webových stránok.

A-PDF Text Extractor

A-PDF Text Extractor je freeware, ktorý robí celkom dobrú prácu pri extrakcii textu zo súborov PDF . Po stiahnutí a inštalácii kliknite na tlačidlo Otvoriť(Open) a vyberte súbor PDF . Potom kliknutím na položku Extrahovať(Extract) text spustite proces.

extraktor apdf

Požiada vás o umiestnenie na uloženie výstupného textového súboru a potom sa začne extrahovať. Môžete tiež kliknúť na tlačidlo Možnosti(Option) , ktoré vám umožní vybrať iba určité stránky na extrahovanie a typ extrakcie. Druhá možnosť je zaujímavá, pretože extrahuje text v rôznych rozloženiach a oplatí sa vyskúšať všetky tri, aby ste zistili, ktoré z nich dáva najlepší výstup.

Pilot PDF2Text

PDF2Text Pilot  robí dobrú prácu pri extrakcii textu. Nemá žiadne možnosti; stačí pridať súbory alebo priečinky, konvertovať a dúfať v to najlepšie. Na niektorých súboroch PDF(PDFs) to fungovalo dobre , ale pri väčšine z nich sa vyskytli mnohé problémy.

pdf2text

Stačí kliknúť na Pridať súbory(Add Files) a potom kliknúť na Konvertovať(Convert) . Po dokončení konverzie kliknite na tlačidlo Prehľadávať(Browse) a otvorte súbor. Váš počet najazdených kilometrov sa bude pri použití tohto programu líšiť, takže neočakávajte veľa.

Tiež stojí za zmienku, že ak ste v podnikovom prostredí alebo ak sa vám z práce dostane do rúk kópia Adobe Acrobat , môžete skutočne dosiahnuť oveľa lepšie výsledky. Acrobat samozrejme nie je zadarmo, ale má možnosti previesť PDF do formátu Word , Excel a HTML . Tiež robí najlepšiu prácu pri zachovaní štruktúry pôvodného dokumentu a konverzii komplikovaného textu.



About the author

Som inžinier windows,ios,pdf,errors,gadgets s viac ako 10-ročnými skúsenosťami. Pracoval som na mnohých vysokokvalitných Windows aplikáciách a frameworkoch, ako sú OneDrive for Business, Office 365 a ďalšie. Moja nedávna práca zahŕňala vývoj čítačky súborov PDF pre platformu Windows a prácu na tom, aby boli chybové správy zrozumiteľnejšie pre používateľov. Okrem toho sa už niekoľko rokov podieľam na vývoji platformy ios a veľmi dobre poznám jej funkcie a zvláštnosti.



Related posts