Dobrý den, rád bych se poradil či zeptal kde hledat informace o efektivním postupu řešení úlohy filtrování duplicitních slovních spojení, celých vět atp. ze vstup. textu. Nejsem v této oblasti příliš zběhlý a napoprvé mě napadlo "jen", že by to mohlo vést na nějaký kompresní algoritmus jako např. LZW (Lempel-Ziv-Welch), ale nejsem si jistý. Také mne napadlo, že bych mohl napřed ke všem slovům nechat spočítat nějaký hash kód, ale ani zde nevím, jaký postup zvolit, aby byly všechny hash kódy pokud možno unikátní (aby dvě či více různých slov neměla stejnou hash hodnotu). Díky hash kódům by pak mohlo být hledání shodných slov rychlejší. Předem díky za pomoc.