Nemůžu korektně kopírovat text z PDF

cincura

Nemůžu korektně kopírovat text z PDF
« kdy: 05. 05. 2010, 21:13:54 »
Nejde mi korektně kopírovat texty z PDF - ve vybarvovaném poli se objevují nepatřičná písmena či slova, barva přebíhá na sousední sloupce textu aniž by vyčkala na dobarvení prvního sloupce atd. - výsledný přenesený text je nesourodý, nesmyslný. Myslím si, že prapůvod problému je v tom, že jsem si v ubuntu 9.10 při úklidu vymazal několik balíčků, které mi byly nabídnuty jako nepoužívané. To se vzápětí projevilo tím, že nešel otevřít PDF (šel otevřít pouze jako obrázek v gimp). Doufal jsem, že problém odstraní upgrade na 10.04. Nyní se již po přechodu na lynx PDF otevírá bezproblémově, ale je zde výše popisovaný problém s kopírováním textu. Zkusil jsem si nahrát z diskety staré ubuntu 9.04 (ale neinstaloval) přesto problém s kopírováním se nezměnil,a to ani u PDF, ze kterého jsem před tím nešťastným úklidem v pohodě kopíroval texty v prostředí 9.04 nebo 9.10. Jak to elegantně vyřešit? Myslíte, že by pomohlo, kdybych znova z diskety nainstaloval 9.04 a pak jej znovu upgradoval downloadem iz internetu na lynx?       
« Poslední změna: 05. 05. 2010, 23:33:32 od Petr Krčmář »


Re: Nemůžu korektně kopírovat text z PDF
« Odpověď #1 kdy: 05. 05. 2010, 23:36:26 »
To je obecný problém s PDF. Potíž je v tom, že text v tomto formátu může být uložený různým způsobem, z hlediska dokumentu vůbec nemusejí být jednotlivé řádky uloženy za sebou a podobně. Záleží hlavně na tom, jaký program a s jakým nastavením zmíněné PDF generoval.

Příklad za všechny: TeX generuje diakritiku tak, že ji umisťuje vedle písmen a pak si ji dodatečně pozicuje. Takže doopravdy se moje příjmení ukládá jako Krcˇma'rˇ. Ale není to vidět, protože se při zobrazení diakritika posune správně nad písmena. Při kopírování se to ale přenese takto. Čili je to obecný problém a záleží kus od kusu.

cincura

Re: Nemůžu korektně kopírovat text z PDF
« Odpověď #2 kdy: 06. 05. 2010, 10:35:22 »
Díky, také to tak chápu. V tomto případě je to ale jiné v tom, že se špatně kopíruje stejný text z totožného PDF, ze kterého jsem bez problému kopíroval v době před uváděným úklidem v systému a upgrade na lynx. Před chvíli jsem zkusil jiný PC s instalovaným microsoft XP a tentýž PDF, který se špatně kopíruje v lynxu, se v XP kopíruje korektně.   

Jindřich

Re: Nemůžu korektně kopírovat text z PDF
« Odpověď #3 kdy: 06. 05. 2010, 11:43:09 »
to Petr Krčmář: S tím TeXem to takto bylo dřív, když dnes (jako já :-)) pracujete se vstupním souborem v UTF-8 a použijete např. moderní písmo z rodiny TeX Gyre a balíček cmap, tak máte češtinu už kódovanou "normálně", tj. háčky a čárky nejsou zvlášť.

Re: Nemůžu korektně kopírovat text z PDF
« Odpověď #4 kdy: 09. 05. 2010, 19:08:10 »
Pominuli ochranu proti kopírování, pak je chyba na straně PDF prohlížeče povětšinou. Já měl naprosto stejný problém, vyřešily to Google Dokumenty, které jako jediné mi u PDF dovolili dobře kopírovat text...

čili bych doporučil otevírání PDF dokumentů asi takto (když selže ten zcela vlevo, zkusit ten následný):

Vámi preferovaný prohlížeč -> Adobe Acrobat reader -> Google Dokumenty