1
Software / Použití antiword -f s UTF-8
« kdy: 25. 01. 2024, 20:42:09 »
Program antiword, ktorého textový výstup umožňuje pri použití prepínača -f označenie základného formátovania textu (napr. /kurzíva/, *tučný rez*, _podtrhnuté písmo_) funguje len v prípade, ak nie je použité výstupné kódovanie UTF-8 (či už prostredníctvom locales, alebo prepínačom antiwordu -m UTF-8).
V dokumentácii (man antiword) sa takéto obmedzenie nikde neuvádza. Preto pre naše naše texty používam naledovný postup:
čo však spôsobuje problémy so znakmi, ktoré nepokrýva kódovanie cp1250 (a 8859-2 toho pokrýva ešte menej).
Je nejaká možnosť, napríklad nastavením premenných prostredia (LANG, LC_*), či inak, mať funkčný prepínač -f aj pri -m UTF-8?
V dokumentácii (man antiword) sa takéto obmedzenie nikde neuvádza. Preto pre naše naše texty používam naledovný postup:
Kód: [Vybrat]
antiword -f -m cp1250 subor.doc | uconv -f cp1250 -t UTF-8 > subor.txt
čo však spôsobuje problémy so znakmi, ktoré nepokrýva kódovanie cp1250 (a 8859-2 toho pokrýva ešte menej).
Je nejaká možnosť, napríklad nastavením premenných prostredia (LANG, LC_*), či inak, mať funkčný prepínač -f aj pri -m UTF-8?