Né že by to až tak vadilo při čtení na Kindlu (člověk holt ťuká víc), ale zajímalo by mne jak to odstranit. Zkoušel jsem se podívat do dokumentu (Inspect) a slova jsou v samostatném p tagu a někdy mezi div class mbp_pagebrake (to pak je text na té samostatné stránce).
Jako že v dokumentu je
{p}a b c d e</p> a Kindle to zobrazí ve čtyřech řádcích? To se mi nechce věřit. Každopádně bych si zkusil to MOBI zkonvertovat do HTML (OEB, tuším, tomu Calibre říká) a podíval se, co v tom vyleze.
Taky by mne zajímalo, jak se zbavit čísel stránek uprostřed textu.
Tohle je zcela jednoznačný důsledek principu GIGO: je potřeba používat takové zdroje knih, kde ty knihy prošly aspoň nějakou základní korekturou a OCR artefakty jako "zapomenutá" čísla stránek v nich nejsou. Pravděpodobně by stačilo udělat OCR znovu, dnes už si OCR programy s odstraňováním hlaviček a patiček stránek vědí rady. Samozřejmě, na přelomu letopočtu, to ještě neuměly, a většina PDB vznikala právě v té době. (Ale mezi námi, PDB je dost odpadní formát pro knihy, i když si odmyslíme obvykle nulovou korekturu - ona třeba taková kurzíva je v mnoha knihách docela důležitá a stojí za to ji v e-booku zachovat).