Slik konverterer du en PDF-fil til redigerbar tekst ved hjelp av kommandolinjen i Linux
Det er ulike grunner til at du kanskje vil konvertere en PDF-fil til redigerbar tekst. Kanskje du må revidere et gammelt dokument, og alt du har er PDF-versjonen av det. Konvertere PDF-filer i Windows er enkelt, men hva om du bruker Linux?
Ingen bekymringer. Vi viser deg hvordan du enkelt konverterer PDF-filer til redigerbar tekst ved hjelp av et kommandolinjeverktøy kalt pdftotext, som er en del av pakken "poppler-utils". Dette verktøyet kan allerede være installert. For å sjekke om pdftotext er installert på systemet, trykk "Ctrl + Alt + T" for å åpne et terminalvindu. Skriv inn følgende kommando ved spørringen og trykk "Enter".
dpkg-s poppler-utils
MERK: Når vi sier å skrive noe i denne artikkelen, og det er anførselstegn rundt teksten, skriv IKKE anførselstegnene, med mindre vi spesifiserer ellers.
Hvis pdftotext ikke er installert, skriv følgende kommando ved spørringen og trykk "Enter".
sudo apt-get install poppler-utils
Skriv inn passordet ditt når du blir bedt om det, og trykk på "Enter".
Det finnes flere verktøy i poppler-utils-pakken for å konvertere PDF til forskjellige formater, manipulere PDF-filer og utvinne informasjon fra filer.
Følgende er den grunnleggende kommandoen for å konvertere en PDF-fil til en redigerbar tekstfil. Trykk på "Ctrl + Alt + T" for å åpne et Terminal-vindu, skriv inn kommandoen ved spørringen, og trykk "Enter".
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Endre banen til hver fil for å korrespondere med plasseringen og navnet på den opprinnelige PDF-filen, og hvor du vil lagre den resulterende tekstfilen. Endre også filnavnene for å svare til navnene på filene dine.
Tekstfilen er opprettet og kan åpnes akkurat som du ville åpne en annen tekstfil i Linux.
Den konverterte teksten kan ha linjeskift på steder du ikke vil ha. Linjepauser legges inn etter hver linje av tekst i PDF-filen.
Du kan bevare oppsettet til dokumentet ditt (overskrifter, bunntekst, personsøk, etc.) fra den opprinnelige PDF-filen i den konverterte tekstfilen ved hjelp av flagget "Layout".
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Hvis du bare vil konvertere en rekke sider i en PDF-fil, bruk "-f" og "-l" (en liten "L") flagg for å angi de første og siste sidene i det området du vil konvertere.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
For å konvertere en PDF-fil som er beskyttet og kryptert med et eierpassord, bruk "-opw" -flagget (det første tegnet i flagget er en bokstav "O", ikke en null).
pdftotext -opw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Endre "passord" til den som brukes til å beskytte den opprinnelige PDF-filen som konverteres. Pass på at det er enkle anførselstegn, ikke dobbelt, rundt "passord".
Hvis PDF-filen er beskyttet og kryptert med et brukerpassord, bruk "-upw" -flagget i stedet for "-opw" -flagget. Resten av kommandoen er den samme.
Du kan også spesifisere typen av end-of-line-tegn som brukes på den konverterte teksten. Dette er spesielt nyttig hvis du planlegger å få tilgang til filen på et annet operativsystem som Windows eller Mac. For å gjøre dette, bruk "-eol" -flagget (midtkarakteren i flagget er et små bokstaver "O", ikke null) etterfulgt av et mellomrom og typen av sluttlinjetegn du vil bruke (" unix "," dos "eller" mac ").
MERK: Hvis du ikke angir et filnavn for tekstfilen, bruker pdftotext automatisk basen til PDF-filnavnet og legger til ".txt" -utvidelsen. For eksempel vil "file.pdf" konverteres til "file.txt". Hvis tekstfilen er angitt som "-", sendes den konverterte teksten til stdout, noe som betyr at teksten vises i Terminal-vinduet og ikke lagres i en fil.
For å lukke Terminal-vinduet, klikk på "X" -knappen øverst i venstre hjørne.
For mer informasjon om kommandoen pdftotext, skriv "man side pdftotext" ved spørringen i et Terminal-vindu.