14
« kdy: 08. 04. 2011, 19:13:20 »
Dostala jsem dnes (český) textový soubor, který nedokážu zkonvertovat do jiného kódování. Příkaz file říká, že je to UTF-8 Unicode text, with very long lines. Když se ale podívám dovnitř, vidím, že znaky s čárkou jsou kódovány "řádně" v UTF-8, zato znaky s háčkem jsou kódované jako spřežky: znak bez háčku a za ním dvojznak, který se např. v less jeví jako Ě<8c>. Browser, emacs a less v UTF-8 terminálu mi ten text ukážou správně, ale když se pokusím ten text nějak uložit, zase jsou tam ty spřežky. recode, iconv ani cstocs si s tím neporadí. Neví někdo, jak takovýhle text převést, třeba do "správného" UTF-8?