Fórum Root.cz
Hlavní témata => Software => Téma založeno: Hanka Skoumalová 08. 04. 2011, 19:13:20
-
Dostala jsem dnes (český) textový soubor, který nedokážu zkonvertovat do jiného kódování. Příkaz file říká, že je to UTF-8 Unicode text, with very long lines. Když se ale podívám dovnitř, vidím, že znaky s čárkou jsou kódovány "řádně" v UTF-8, zato znaky s háčkem jsou kódované jako spřežky: znak bez háčku a za ním dvojznak, který se např. v less jeví jako Ě<8c>. Browser, emacs a less v UTF-8 terminálu mi ten text ukážou správně, ale když se pokusím ten text nějak uložit, zase jsou tam ty spřežky. recode, iconv ani cstocs si s tím neporadí. Neví někdo, jak takovýhle text převést, třeba do "správného" UTF-8?
-
Unicode má dva způsoby, jak zapsat znaky s diakritikou. Běžně se v češtině používají kombinované znaky (á), ale lze to zapsat i odděleně (a a za tím znak čárky). Háčky jsou zde zapsané právě tak a proto ani iconv při převádění nic nezmění, protože to UTF-8 je. Abyste z těch znaků dostala kombinované, je potřeba provést takzvanou Unicode normalizaci do formy NFC, např. pomocí tohoto jednoduchého programu v Pythonu (http://chulkilee.pe.kr/devnotes/2010/02/normalizing-utf-8-nfd-to-nfc/)
-
Díky, to je ono.
-
Ahoj,
je to presne ta firma, co posiela kde kou upomienky vid:
http://basnici.sk/gtc.html
http://hraj-to.sk/vop.html
Je to firma online investment group.
Cize pohodicka neboj sa.
-
majo: Ano, pravni analyza s prekodovanim jiste pomuze.
-
Ahoj,
je to presne ta firma, co posiela kde kou upomienky vid:
http://basnici.sk/gtc.html
http://hraj-to.sk/vop.html
Je to firma online investment group.
Cize pohodicka neboj sa.
vyfič
-
Ahoj,
je to presne ta firma, co posiela kde kou upomienky vid:
http://basnici.sk/gtc.html
http://hraj-to.sk/vop.html
Je to firma online investment group.
Cize pohodicka neboj sa.
vyfič
Očividně omylem poslal příspěvek do jiné diskuse (doufám, že vám aspoň dojde, do jaké) a vy, namísto toho, abyste se nad tím zamysleli, mu to omlátíte o hlavu.