Extrahujte text z PDF a obrázkových súborov
Máte dokument PDF , z ktorého by ste chceli extrahovať celý text? A čo obrazové súbory naskenovaného dokumentu, ktorý chcete previesť na upraviteľný text? Toto sú niektoré z najbežnejších problémov, s ktorými som sa stretol na pracovisku pri práci so súbormi.
V tomto článku budem hovoriť o niekoľkých rôznych spôsoboch, ako sa pokúsiť extrahovať text z PDF alebo z obrázka. Výsledky extrakcie sa budú líšiť v závislosti od typu a kvality textu v PDF alebo obrázku. Vaše výsledky sa tiež budú líšiť v závislosti od nástroja, ktorý používate, takže je najlepšie vyskúšať čo najviac možností nižšie, aby ste dosiahli čo najlepšie výsledky.
Extrahujte text z obrázka alebo PDF
Najjednoduchší a najrýchlejší spôsob, ako začať, je vyskúšať online službu na extrakciu textu PDF . Zvyčajne sú zadarmo a môžu vám poskytnúť presne to, čo hľadáte, bez toho, aby ste museli čokoľvek inštalovať do počítača. Tu sú dva, ktoré som použil s veľmi dobrými až vynikajúcimi výsledkami:
Extrahovať PDF
ExtractPDF je bezplatný nástroj na získavanie obrázkov, textu a písiem zo súboru PDF . Jediným obmedzením je, že maximálna veľkosť súboru PDF je 10 MB. To je trochu málo; takže ak máte väčší súbor, vyskúšajte niektoré z ďalších metód nižšie. Vyberte svoj súbor a potom kliknite na tlačidlo Odoslať súbor(Send file) . Výsledky sú zvyčajne veľmi rýchle a po kliknutí na kartu Text by ste mali vidieť ukážku textu.(Text)
Príjemnou výhodou je aj to, že extrahuje obrázky aj zo súboru PDF , pre prípad, že by ste ich potrebovali! Celkovo tento online nástroj funguje skvele, ale stretol som sa s niekoľkými dokumentmi PDF , ktoré mi poskytujú vtipný výstup. Text je extrahovaný v poriadku, ale z nejakého dôvodu bude mať zalomenie riadku po každom slove! Nie je to veľký problém pre krátky súbor PDF , ale určite problém pre súbory s množstvom textu. Ak sa vám to stane, vyskúšajte nasledujúci nástroj.
Online OCR
Online OCR zvyčajne fungovalo pre dokumenty, ktoré neboli správne skonvertované pomocou ExtractPDF , takže je dobré vyskúšať obe služby, aby ste zistili, ktorá z nich poskytuje lepší výstup. Online OCR má tiež niekoľko príjemnejších funkcií, ktoré sa môžu ukázať ako užitočné pre každého, kto má veľký súbor PDF , ktorý potrebuje previesť iba text na niekoľkých stranách a nie celý dokument.
Prvá vec, ktorú chcete urobiť, je pokračovať a vytvoriť si bezplatný účet. Je to trochu nepríjemné, ale ak si nevytvoríte bezplatný účet, skonvertuje vaše PDF iba čiastočne , a nie celý dokument. Namiesto toho, aby ste mohli nahrať iba 5 MB dokument, môžete pomocou účtu nahrať až 100 MB na súbor.
Najprv vyberte jazyk a potom vyberte typ výstupných formátov, ktoré chcete pre konvertovaný súbor. Máte niekoľko možností a ak chcete, môžete si vybrať viac ako jednu. V časti Viacstranový dokument(Multipage document) môžete vybrať Čísla strán(Page numbers) a potom vybrať iba strany, ktoré chcete previesť. Potom vyberte súbor a kliknite na Konvertovať(Convert) !
Po konverzii sa dostanete do sekcie Dokumenty(Documents) (ak ste prihlásený), kde môžete vidieť, koľko voľných stránok vám zostáva a odkazy na stiahnutie konvertovaných súborov. Zdá sa, že máte zadarmo iba 25 stránok denne, takže ak potrebujete viac, budete musieť chvíľu počkať alebo si kúpiť ďalšie stránky.
Online OCR odviedlo vynikajúcu prácu pri konverzii mojich PDF , pretože dokázalo zachovať skutočné rozloženie textu. V mojom teste som vzal dokument programu Word(Word) , ktorý používal odrážky, rôzne veľkosti písma atď., a previedol ho do formátu PDF(PDF) . Potom som ho pomocou Online OCR skonvertoval späť do formátu Word a bol približne na 95 % rovnaký ako originál. To je pre mňa dosť pôsobivé.
Navyše, ak chcete previesť obrázok na text, Online OCR to dokáže rovnako jednoducho ako extrahovanie textu zo súborov PDF .
Online OCR zadarmo
Keďže sme hovorili o OCR z obrázka na text , dovoľte mi spomenúť ďalšiu dobrú webovú stránku, ktorá naozaj dobre funguje na obrázkoch. OCR zadarmo online(Free Online OCR) bolo veľmi dobré a veľmi presné pri extrahovaní textu z mojich testovacích obrázkov. Zo svojho iPhone som urobil pár fotiek stránok kníh, brožúr atď. a bol som prekvapený, ako dobre dokázal previesť text.
Vyberte súbor a potom kliknite na tlačidlo Nahrať(Upload) . Na ďalšej obrazovke je niekoľko možností a náhľad obrázka. Môžete to orezať, ak nechcete OCR celú vec. Potom stačí kliknúť na tlačidlo OCR a váš skonvertovaný text sa zobrazí pod náhľadom obrázka. Taktiež nemá žiadne obmedzenia, čo je naozaj pekné.
Okrem online služieb existujú dva freeware PDF konvertory, ktoré chcem spomenúť v prípade, že potrebujete softvér bežiaci lokálne na vašom počítači na vykonanie konverzií. S online službami budete vždy potrebovať internetové(Internet) pripojenie a to nemusí byť možné pre každého. Všimol som si však, že kvalita konverzií z freewarových programov bola výrazne horšia ako z webových stránok.
A-PDF Text Extractor
A-PDF Text Extractor je freeware, ktorý robí celkom dobrú prácu pri extrakcii textu zo súborov PDF . Po stiahnutí a inštalácii kliknite na tlačidlo Otvoriť(Open) a vyberte súbor PDF . Potom kliknutím na položku Extrahovať(Extract) text spustite proces.
Požiada vás o umiestnenie na uloženie výstupného textového súboru a potom sa začne extrahovať. Môžete tiež kliknúť na tlačidlo Možnosti(Option) , ktoré vám umožní vybrať iba určité stránky na extrahovanie a typ extrakcie. Druhá možnosť je zaujímavá, pretože extrahuje text v rôznych rozloženiach a oplatí sa vyskúšať všetky tri, aby ste zistili, ktoré z nich dáva najlepší výstup.
Pilot PDF2Text
PDF2Text Pilot robí dobrú prácu pri extrakcii textu. Nemá žiadne možnosti; stačí pridať súbory alebo priečinky, konvertovať a dúfať v to najlepšie. Na niektorých súboroch PDF(PDFs) to fungovalo dobre , ale pri väčšine z nich sa vyskytli mnohé problémy.
Stačí kliknúť na Pridať súbory(Add Files) a potom kliknúť na Konvertovať(Convert) . Po dokončení konverzie kliknite na tlačidlo Prehľadávať(Browse) a otvorte súbor. Váš počet najazdených kilometrov sa bude pri použití tohto programu líšiť, takže neočakávajte veľa.
Tiež stojí za zmienku, že ak ste v podnikovom prostredí alebo ak sa vám z práce dostane do rúk kópia Adobe Acrobat , môžete skutočne dosiahnuť oveľa lepšie výsledky. Acrobat samozrejme nie je zadarmo, ale má možnosti previesť PDF do formátu Word , Excel a HTML . Tiež robí najlepšiu prácu pri zachovaní štruktúry pôvodného dokumentu a konverzii komplikovaného textu.
Related posts
Ako skombinovať alebo zlúčiť viacero textových súborov
Najlepší bezplatný alternatívny prehliadač PDF k Adobe Reader
Premeňte počítač so systémom Windows na virtuálny počítač pomocou Hyper-V
Ako zmeniť farbu ikony priečinka v systéme Windows
Najlepší bezplatný nástroj na defragmentáciu systému Windows je sám o sebe
Najlepší softvér s otvoreným zdrojom, ktorý by ste mali používať
Prezerajte si obrázky a dokumenty PDF rýchlo cez PRIMA Rapid Image Viewer
HTML kód na obtekanie textu okolo obrázka
Ako skombinovať viacero prezentácií v PowerPointe
3 najlepšie aplikácie na používanie Instagramu na vašom PC
Ako opraviť poškodené alebo poškodené súbory AVI
10 praktických nástrojov, ktoré môžete mať na USB flash disku
Základný bezplatný softvér na stiahnutie pre Windows
Ako zdieľať súbory medzi počítačmi, smartfónmi a tabletmi
Mapujte priečinok na písmeno jednotky v systéme Windows
Najlepšie bezplatné online nástroje PDF Editor, ktoré sú založené na cloude
Rýchle zobrazenie histórie vyhľadávania vo všetkých prehliadačoch v systéme Windows
Bezplatný softvér na úpravu obrázkov a editory pre Windows 11/10
Previesť adresár Windows na zoznam HTML
Rozdeľte alebo rozdeľte obrazovku pracovnej plochy na viacero častí