Hvordan kan jeg kopiere tekst fra en PDF mens du beholder formatering?

PDF, det allestedsnærværende dokumentformatet, er flott for å dele dokumenter mens du beholder fonter, bilder og det generelle oppsettet på tvers av plattformer. Er det imidlertid en enkel måte å bevare så mye formatering når du kopierer og limer tekst ut av dokumentet?

Dagens Spørsmål & Svar-sesjon kommer til oss med høflighet av SuperUser-en underavdeling av Stack Exchange, en fellesskapsdrevet gruppering av Q & A-nettsteder.

Spørsmålet

SuperUser-leser Colen søker etter en måte å pakke ut tekst fra PDF-filer samtidig som formateringen holdes:

Når jeg kopierer tekst ut av en PDF-fil og inn i en tekstredigerer, kommer den til å mangle på en rekke måter. Formatering som fet og kursiv er tapt; Myke linjeskift i et tekststykke konverteres til hardlinjepauser; bindestreker for å bryte et ord over to linjer blir bevart selv når de ikke burde være det; og enkelt og dobbelt anførselstegn erstattes med? tegn.

Ideelt sett vil jeg kunne kopiere tekst fra en PDF og ha formatering konvertert til HTML-koder, "smarte sitater" konvertert til "og" og linjeskift gjort riktig. Er det noen måte å gjøre dette på?

Er det en rask og enkel måte for Colen (og resten av oss) å få tak i tekst uten å ofre formateringen?

Svaret

SuperUser-bidragsyter Frabjous tilbyr en løsning kombinert med en stor dose forsiktighet:

For det første må du forstå hva en PDF er. PDF-er er utformet for å etterligne en utskrevet side, og de er kun utformet som et utdataformat, ikke et innspillingsformat. en PDF er i utgangspunktet et kart som inneholder den eksakte plasseringen av tegn (individuelle bokstaver eller tegnsetting, etc.) eller bilder. I de fleste tilfeller lagrer en PDF ikke engang informasjon om hvor ett ord slutter, og en annen begynner, mye mindre ting som myke pauser versus harde pauser for avsnittendringer.

(Noen få nyere PDF-filer lagrer litt informasjon om dette, men det er en ny teknologi, og du ville ha det heldig å finne PDF-filer som dette. Selv om du gjorde det, kan PDF-visningsprogrammet ditt kanskje ikke vite det.)

Uansett er det opp til programvaren din for å implementere en slags "kunstig intelligens" for å trekke ut bare fra plasseringene til individuelle tegn, hva er et ord, hva er et avsnitt, og så videre. Ulike programvare skal gjøre dette bedre enn andre, og det kommer også til å stole på hvordan PDF ble laget. I alle fall bør du aldri forvente perfekte resultater. Å ha utdata PDF er ikke det samme som å ha kildedokumentet. Det er langt bedre å prøve å få det hvis du kan.

Standardløsningen for ditt type problem er å bruke Adobe Acrobat Professional (den kostbare, ikke den gratis leseren) for å konvertere PDF til HTML. Selv det kommer ikke til å få perfekte resultater.

Det er gratis programvare som kan brukes til å trekke ut tekst fra PDF-filer med noe av formatering intakt, men igjen, forvent ikke perfekte resultater. Se for eksempel kaliber (som kan konvertere til RTF-format), pdftohtml / pdfreflow eller AbiWord tekstbehandler (med alle import / eksport plugins aktivert). Det finnes også et PDF-importtillegg for OpenOffice.

Men vær så snill å ikke forvente fullkommenhet med noen av disse resultatene. Du går mot kornet her. PDF er bare ikke ment som et redigerbart inngangsformat.

Hvis du har problemer med å bestemme hvilket verktøy du skal begynne med, er Caliber et veritabelt dokument sveitsisk hærkniv. Du kan også bruke den til å konvertere PDF-filer til bruk på eBok-leseren og organisere eBok / dokumentbiblioteket.

Har du noe å legge til forklaringen? Lyde av i kommentarene. Vil du lese flere svar fra andre tech-savvy Stack Exchange-brukere? Sjekk ut hele diskusjonstråden her.