Ekstra tekst fra PDF og bildefiler
Har du et PDF-dokument som du ønsker å trekke ut teksten ut av? Hva med bildefiler av et skannet dokument som du vil konvertere til redigerbar tekst? Dette er noen av de vanligste problemene jeg har sett på arbeidsplassen når jeg jobber med filer.
I denne artikkelen skal jeg snakke om flere forskjellige måter du kan gjøre om å prøve å trekke ut tekst fra en PDF eller fra et bilde. Utvinningsresultatene dine vil variere avhengig av type og kvalitet på teksten i PDF eller bilde. Også resultatene dine vil variere avhengig av hvilket verktøy du bruker, så det er best å prøve ut så mange av alternativene nedenfor som mulig for å få de beste resultatene..
Trekk ut tekst fra bilde eller PDF
Den enkleste og raskeste måten å starte, er å prøve en online PDF-tekstekstraktertjeneste. Disse er normalt gratis og kan gi deg akkurat det du leter etter uten å måtte installere noe på datamaskinen din. Her er to som jeg har brukt med veldig gode til gode resultater:
ExtractPDF
ExtractPDF er et gratis verktøy for å ta bilder, tekst og skrifter ut av en PDF-fil. Den eneste begrensningen er at maksimal størrelse for PDF-filen er 10 MB. Det er litt lite; så hvis du har en større fil, kan du prøve noen av de andre metodene nedenfor. Velg filen og klikk deretter på Send fil knapp. Resultatene er normalt veldig raske, og du bør se en forhåndsvisning av teksten når du klikker på Tekst-fanen.
Det er også en fin ekstra fordel at den trekker ut bilder ut av PDF-filen også, bare hvis du trenger dem! Samlet fungerer det elektroniske verktøyet bra, men jeg har kjørt inn i et par PDF-dokumenter som gir meg morsom utgang. Teksten er hentet helt fint, men av en eller annen grunn vil det ha en linjeskift etter hvert ord! Ikke et stort problem for en kort PDF-fil, men absolutt et problem for filer med masse tekst. Hvis det skjer med deg, kan du prøve det neste verktøyet.
Online OCR
Online OCR pleier vanligvis å jobbe for dokumentene som ikke konverterte riktig med ExtractPDF, så det er en god idé å prøve begge tjenestene for å se hvilke som gir deg bedre utgang. Online OCR har også noen bedre funksjoner som kan vise seg nyttig for alle med en stor PDF-fil som bare trenger å konvertere tekst på noen få sider i stedet for hele dokumentet.
Det første du vil gjøre er å gå videre og opprett en gratis konto. Det er litt irriterende, men hvis du ikke oppretter den gratis kontoen, vil den bare delvis konvertere PDF-filen din i stedet for hele dokumentet. I tillegg til at du bare kan laste opp bare et 5 MB-dokument, kan du laste opp opptil 100 MB per fil med en konto.
Velg først et språk og velg deretter type utdataformater du vil ha for den konverterte filen. Du har et par alternativer, og du kan velge mer enn én hvis du vil. Under Flerdokumentasjon, du kan velge Sidetall og velg så bare sidene du vil konvertere. Deretter velger du filen og klikker Konvertere!
Etter konvertering blir du sendt til Dokumentseksjonen (hvis du er logget inn) der du kan se hvor mange tilgjengelige gratis sider du har igjen og linker for å laste ned konverterte filer. Det virker som om du bare har 25 sider gratis om dagen, så hvis du trenger mer enn det, må du enten vente litt eller kjøpe flere sider.
Online OCR gjorde en utmerket jobb med å konvertere PDF-ene, fordi den var i stand til å opprettholde selve oppsettet av teksten. I min test tok jeg et Word-dokument som brukte kuler, forskjellige skriftstørrelser, etc og konverterte det til en PDF. Da brukte jeg Online OCR til å konvertere den tilbake til Word-format, og det var omtrent 95% det samme som originalen. Det er ganske imponerende for meg.
I tillegg, hvis du ønsker å konvertere et bilde til tekst, kan Online OCR gjøre det like enkelt som å trekke ut tekst fra PDF-filer.
Gratis Online OCR
Siden snakket om bilde til tekst OCR, la meg nevne en annen god nettside som fungerer veldig bra på bilder. Gratis Online OCR var veldig bra og veldig nøyaktig når du tok ut tekst fra mine testbilder. Jeg tok et par bilder fra min iPhone på sider fra bøker, brosjyrer, etc, og jeg ble overrasket over hvor godt det var å kunne konvertere teksten.
Velg filen og klikk deretter Last opp-knappen. På neste skjerm er det et par alternativer og en forhåndsvisning av bildet. Du kan beskjære det hvis du ikke vil OCR hele greia. Deretter klikker du bare på OCR-knappen, og den konverterte teksten din vises under bildet forhåndsvisning. Det har heller ikke noen begrensninger, noe som er veldig fint.
I tillegg til onlinetjenestene er det to freeware-PDF-omformere som jeg vil nevne hvis du trenger programvare som kjører lokalt på datamaskinen din for å utføre konverteringene. Med onlinetjenester trenger du alltid en Internett-tilkobling, og det kan ikke være mulig for alle. Men jeg la merke til at kvaliteten på konverteringene fra freeware-programmene var vesentlig verre enn nettstedene.
A-PDF Tekst Extractor
A-PDF Text Extractor er freeware som gjør en ganske god jobb med å utvinne tekst fra PDF-filer. Når du laster ned den og installerer den, klikker du Åpne-knappen for å velge PDF-filen. Klikk deretter Utdrag tekst for å starte prosessen.
Det vil spørre deg om et sted å lagre tekstutdatafilen, og det vil begynne å trekke ut. Du kan også klikke på Alternativ knappen, som lar deg velge bare bestemte sider å trekke ut og utvinningstypen. Det andre alternativet er interessant fordi det trekker ut teksten i forskjellige oppsett, og det er verdt å prøve alle tre for å se hvilke som gir deg den beste utgangen.
PDF2Text Pilot
PDF2Text Pilot gjør en ok jobb med å trekke ut tekst. Det har ingen alternativer; du legger bare til filer eller mapper, konverterer og håper på det beste. Det fungerte bra på noen PDF-filer, men for de fleste av dem var det mange problemer.
Bare klikk Legg til filer og klikk deretter Konvertere. Når konverteringen er fullført, klikk på Bla gjennom for å åpne filen. Du kjørelengde vil variere ved hjelp av dette programmet, så forvent ikke mye.
Det er også verdt å nevne at hvis du er i et bedriftsmiljø eller kan få hendene på en kopi av Adobe Acrobat fra jobb, så kan du virkelig få mye bedre resultater. Acrobat er åpenbart ikke gratis, men det har muligheter til å konvertere PDF til Word, Excel og HTML-format. Det gjør også den beste jobben med å opprettholde strukturen i det opprinnelige dokumentet og konvertere komplisert tekst.