Kontrola pravopisu

linqvist

Kontrola pravopisu
« kdy: 27. 03. 2016, 09:28:16 »
Na jakém principu funguje kontrola pravopisu (nemyslím jen triviální spellchecker, ale i kontrolu například shody)? Vzhledem k tomu, jak lidi na fórech píšou, by se určitě hodila nějaká služba (webová nebo třeba plugin do Wordu), ať už jako open source projekt nebo třeba diplomka.


JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #1 kdy: 27. 03. 2016, 09:46:54 »
Konkretne pro cestinu funguje kontrola gramatiky dost blbe - cestina je prilis flexibilni ve srovnani napriklad s anglictinou. Kdysi jsem nekde cetl, ze nejaka univerzita vyviji kontrolu gramatiky zalozenou na principu opacnem, nez byva zvykem. Tedy ne tak, ze se nadefinuji pravidla, co se smi, ale pravidla, co se nesmi, tusim formou dlouheho seznamu typickych chyb.

zboj

  • *****
  • 1 507
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #2 kdy: 27. 03. 2016, 12:35:56 »
Konkretne pro cestinu funguje kontrola gramatiky dost blbe - cestina je prilis flexibilni ve srovnani napriklad s anglictinou. Kdysi jsem nekde cetl, ze nejaka univerzita vyviji kontrolu gramatiky zalozenou na principu opacnem, nez byva zvykem. Tedy ne tak, ze se nadefinuji pravidla, co se smi, ale pravidla, co se nesmi, tusim formou dlouheho seznamu typickych chyb.
V jakém smyslu flexibilní?

Ten grammar checker s negativními pravidly vyvíjejí na ÚTKL (FF ÚK).

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #3 kdy: 27. 03. 2016, 13:33:21 »
V jakém smyslu flexibilní?

No ceskou vetu lze ze stejnych slov poskladat casto i nekolika ruznymi zpusoby, aniz by ztratila smysl, eventuelne se smysl lehce zmeni. Cestina ma velmi volny slovosled a z toho aby se pak chudak grammar checker po....., kdyz ani nevi, co ma pokladat za predmet, co za prisudek atd.

Panum z ÚTKL tu fusku nezavidim, tohle je uloha snad i na umelou inteligeci a to o dost chytrejsi, nez Tay.

zboj

  • *****
  • 1 507
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #4 kdy: 27. 03. 2016, 13:40:26 »
V jakém smyslu flexibilní?

No ceskou vetu lze ze stejnych slov poskladat casto i nekolika ruznymi zpusoby, aniz by ztratila smysl, eventuelne se smysl lehce zmeni. Cestina ma velmi volny slovosled a z toho aby se pak chudak grammar checker po....., kdyz ani nevi, co ma pokladat za predmet, co za prisudek atd.

Panum z ÚTKL tu fusku nezavidim, tohle je uloha snad i na umelou inteligeci a to o dost chytrejsi, nez Tay.
Ono to je trochu složitější, čeština má zase bohatou morfologii. Víceznačnost existuje ve velmi podobné míře ve všech jazycích, angličtina má třeba zase desetitisíce slov, jež můzou být podstatné jméno i sloveso, případně i něco jiného (Time flies like an arrow vs. Fruit flies like a banana). Tím i obtížnost parsingu je při použití stejné metody zhruba stejná.

Na umělou inteligenci to je určitě, protože je nutné rozlišit kontext (pragmatický význam věty).


Jann

Re:Kontrola pravopisu
« Odpověď #5 kdy: 27. 03. 2016, 14:32:52 »
Cestina ma velmi volny slovosled a z toho aby se pak chudak grammar checker po....., kdyz ani nevi, co ma pokladat za predmet, co za prisudek atd.

To právě narozdíl třeba od angličtiny není v češtině dáno postavením slova ve větě, ale jeho pádem.

zboj

  • *****
  • 1 507
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #6 kdy: 27. 03. 2016, 14:39:08 »
Cestina ma velmi volny slovosled a z toho aby se pak chudak grammar checker po....., kdyz ani nevi, co ma pokladat za predmet, co za prisudek atd.

To právě narozdíl třeba od angličtiny není v češtině dáno postavením slova ve větě, ale jeho pádem.
Správně, a pak jsou ještě jazyky s volným slovosledem bez pádů, tam teprve začíná legrace.

zboj

  • *****
  • 1 507
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #7 kdy: 31. 03. 2016, 13:01:28 »
Na jakém principu funguje kontrola pravopisu (nemyslím jen triviální spellchecker, ale i kontrolu například shody)? Vzhledem k tomu, jak lidi na fórech píšou, by se určitě hodila nějaká služba (webová nebo třeba plugin do Wordu), ať už jako open source projekt nebo třeba diplomka.

Některé chyby jdou odhalit jednoduše, například stupidní "kdyby jsme" apod. jde rozpoznat jako pattern. Podobně to, čemu se v němčině říká "debilův apostrof" (Deppenapostroph), tedy například "co's říkal, ty's tam byl", se dá poznat na úrovni analýzy patternů. Nicméně většina pravopisných chyb je chybami jen kvůli kontextu, např. mě/mně se rozhoduje na valenci slovesa, na němž zájmeno závisí. Tvary zájmena "jenž" lze také správně určit (resp. rozpoznat jako chybné) jen hlubší analýzou. Přechodníky se naštěstí už moc nepoužívají, nicméně výběr tvaru (maje/majíc/majíce) závisí na rodu a čísle podmětu, který může být ve větě dost daleko od přechodníku. Moderní grammar checkery používají analýzu textu pomocí abdukce, protože jen tak se dá analyzovat kontext přesahující hranice věty (viz např. na Wikipedii Abductive logic programming).

Kiwi

Re:Kontrola pravopisu
« Odpověď #8 kdy: 31. 03. 2016, 14:42:00 »
Přechodníky se naštěstí už moc nepoužívají,
Proč naštěstí? Lepší jeden přechodník než hromada keců místo něj. A to, že se v nich dělají chyby, jen dokazuje, že lidi by je rádi používali. Jinak by chyby nebyly, protože by je nikdo nepoužíval. Vymýcení přechodníků mají na svědomí především akademici, kteří, vymyslevše jakási pravidla k jejich psaní (umělá – je doloženo, že koncovky alternovaly v závislosti na době a místu), tvrdě na nich bazírovali, čímž případné uživatele odradili.

zboj

  • *****
  • 1 507
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #9 kdy: 31. 03. 2016, 14:49:32 »
Přechodníky se naštěstí už moc nepoužívají,
Proč naštěstí? Lepší jeden přechodník než hromada keců místo něj. A to, že se v nich dělají chyby, jen dokazuje, že lidi by je rádi používali. Jinak by chyby nebyly, protože by je nikdo nepoužíval. Vymýcení přechodníků mají na svědomí především akademici, kteří, vymyslevše jakási pravidla k jejich psaní (umělá – je doloženo, že koncovky alternovaly v závislosti na době a místu), tvrdě na nich bazírovali, čímž případné uživatele odradili.
A jsme u toho, správně je "vymyslivše" :) Jinak je pravda, že v různých nářečích se tvoří různě, například na východní Moravě podobně jako ve slovenštině. Nicméně spisovná čeština má svá pravidla a je jedno, jestli je vymyslel Jungmann nebo praotec Čech ;)

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #10 kdy: 31. 03. 2016, 15:10:16 »
Praotec Cech ovsem asi nemluvil cesky. Pameti na kamennych deskach po sobe nezanechal, takze se asi nedozvime, jak mluvil.

zboj

  • *****
  • 1 507
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #11 kdy: 31. 03. 2016, 15:24:43 »
Praotec Cech ovsem asi nemluvil cesky. Pameti na kamennych deskach po sobe nezanechal, takze se asi nedozvime, jak mluvil.
To byla nadsázka, nemluvil nijak, když nikdy nežil. Kdyby byl býval existoval, mluvil by nějakým slovanským nářečím, z nějž vznikla moderní čeština.

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #12 kdy: 31. 03. 2016, 15:30:40 »
Praotec Cech ovsem asi nemluvil cesky. Pameti na kamennych deskach po sobe nezanechal, takze se asi nedozvime, jak mluvil.
To byla nadsázka, nemluvil nijak, když nikdy nežil.

Jiste. Nicmene jak vis, ze nezil? Rada legend ma zaklad ve skutecnosti. Jezis, Virakoca a dalsi, ti vichni mozna kdysi byli skutecnymi lidmi. Akorat nam z te doby chybi dokumentarni filmy, tak to nemuzeme potvrdit.

pavlix

  • ****
  • 253
    • Zobrazit profil
Re:Kontrola pravopisu
« Odpověď #13 kdy: 01. 04. 2016, 10:56:16 »
To byla nadsázka, nemluvil nijak, když nikdy nežil.

Jiste. Nicmene jak vis, ze nezil? Rada legend ma zaklad ve skutecnosti. Jezis, Virakoca a dalsi, ti vichni mozna kdysi byli skutecnymi lidmi. Akorat nam z te doby chybi dokumentarni filmy, tak to nemuzeme potvrdit.
[/quote]

Třeba jich žilo deset. Jiná věc je, že je to pro naše účely stejné jako kdyby nežil žádný. Podobné je to u toho Ježíše. Možná žil. Možná jich žilo padesát. Možná žili tři Ježíšové, dva Kristové a deset Křtitelů. To ale nemění nic na tom, že jejich příběhy psali lidé, kteří se s nimi ani teoreticky nemohli potkat, takže je celkem jedno kolik osob bylo předlohou výsledným fiktivním postavám.

JardaP .

  • *****
  • 11 064
    • Zobrazit profil
    • E-mail
Re:Kontrola pravopisu
« Odpověď #14 kdy: 01. 04. 2016, 11:11:35 »
Ano, to je mozne. To je vse proto, ze jeste nezavedli obcanske prukazy a centralni evidenci obyvatelstva. A i z tohoto duvodu nelze prohlasit, ze praotec Cech nikdy nezil.