Zobrazit příspěvky

Tato sekce Vám umožňuje zobrazit všechny příspěvky tohoto uživatele. Prosím uvědomte si, že můžete vidět příspěvky pouze z oblastí Vám přístupných.


Příspěvky - Kada

Stran: [1] 2
1
Hardware / Re:Brutální záseky a zpomalení s BT soundbarem
« kdy: 02. 12. 2024, 23:17:59 »
Nerozumim, ze to tady jeste nenapsal. Pod Linuxem je to bezny problem, WiFi 2.4Ghz je ruseno Bluetooth audio, zalezi na konkretnim hardware a driveru. A neni to historicky problem, neni to vyreseno napriklad ani v Asahi pro silicon Macy, na starych Macbook Air (intel) to v Linuxu nefungovalo nikdy, v MacOS pritom bez problemu.

Co mi prijde divne, ze to nefunguje ani na 5GHz. Tady tipuju, ze 5GHz WiFi ma stejny essid, pripadne chybu mereni :). Zkusil bych opravdu dobre proverit, ze to na 5GHz nefunguje, zejmena mit jiny, samostatny, essid pro 5GHz sit.

P.S. OP se z nejakeho duvodu zmenil z "Vietnamka" na "mikesnovu"  ::)

2
Server / Re:Obnova OPNsense z obrazu
« kdy: 07. 08. 2024, 17:12:50 »
no chybami se člověk učí. Samozřejmě že jsem se o obnovu pokoušel pod sudo.
Kdyz ctu ten prikaz:
Kód: [Vybrat]
gunzip -c SSD_image.gz | dd of=/dev/sdd nemuze byt chyba v tom, ze pises
Kód: [Vybrat]
sudo gunzip -c SSD_image.gz | dd of=/dev/sdd misto funkcniho
Kód: [Vybrat]
gunzip -c SSD_image.gz | sudo dd of=/dev/sdd ?

3
Bazar / Prodám Canon Powershot A720 IS
« kdy: 02. 08. 2024, 13:19:47 »
Prodám Canon Powershot A720 IS + příslušenství (obal, "stativ", originální SD karta 16MB)

Specifikace: https://www.megapixel.cz/canon-powershot-a720-is#section-parameters

Je podporovan CHDK: https://chdk.fandom.com/wiki/A720IS

Něco nabídněte, leží mi tu už léta, ceny k videni zde, Ideálně osobní předání v Brně.

4
Bazar / Re:Prodám VoIP sadu LinkSys PAP2T + Gigaset AL140
« kdy: 01. 08. 2024, 20:44:46 »
Zamluveno

5
Bazar / Prodám VoIP sadu LinkSys PAP2T + Gigaset AL140
« kdy: 01. 08. 2024, 16:56:06 »
- VoIP krabička LinkSys PAP2T
- bezdrátový telefon Gigaset AL140
Použiváno s Odorik, bez jakýchkoliv problémů.

Něco nabídněte, leží mi tu už léta... Ideálně osobní předání v Brně.

6
Bazar / Prodám sluchátka Speedlink Medusa 5.1 Home SL-8796
« kdy: 01. 08. 2024, 16:35:57 »
Sluchátka speedlink Medusa 5.1 Home model SL-8796 s externím zesilovačem. Možnost elektronického přepínání mezi dvěma 5.1 výstupy.

https://www.speedlink.com/en/Medusa-5.1-Home/SL-8796

Umělá kůže na mostu se drolí, náušníky změnily po letech barvu z černé, viz foto.

Spousta redukčních kabelů, praktická originální krabice, návod.

Něco nabídněte, leží mi tu už léta... Ideálně osobní předání v Brně.

7
Server / Re:Zavolání webhooku po vytočení čísla
« kdy: 29. 11. 2023, 20:58:04 »
Chapu to tak, ze na strane volaneho. Tzn OP chce mit nekde sluzbu, kam zavola, zada "heslo" vytukanim na keypadu a tim spusti nejaky skript.

Na Linuxu by asi slo pouzit vgetty.

8
Vývoj / Re:Jak abecedně setřídit hodně velkých souborů?
« kdy: 30. 10. 2023, 15:16:57 »
Jinak pokud by bylo potreba neco jako databaze, tak urcite v 2. postu zminena RocksDB (nemam zkusenost) nebo LMDB, Python binding (mam zkusenost a doporucuju).

V podstatě ano, ale raději bych volil postup nejdříve rozdělit podle prvního písmene do jednotlivých souborů (a la bucketsort) a až pak `sort` na jednotlivé soubory (plus následně rozpad na menší, když jsou "kbelíky" nad limit).
Muze byt, ale nez bych to napsal, tak to ten sort setridi, 800G neni zas tolik, zalezi, kolik je k dispozici RAM.

9
Vývoj / Re:Jak abecedně setřídit hodně velkých souborů?
« kdy: 30. 10. 2023, 10:32:16 »
Pracoval jsem kdysi s textovym korpusem kolem 1.5T (zhruba cely cesky internet v te dobe). Z techto textu se pocitaly nejake zakladni veci jako histogramy slov/n-gramu (zaznam <slovo/n-gram> <pocet vyskytu>). Moje zkusenost je, pokud to chcete zpracovavat pouze na 1 stroji, neni nic rychlejsiho nez `sort` z prikazove radky s patricnymi parametry.

Pro dany problem bych postupoval na 2 kroky:
1. setridil obsah vsech souboru do jednoho velkeho, neco jako
Kód: [Vybrat]
find ./ -type f -exec cat {} \; | pv | LC_ALL=C sort -S 32G --parallel=16 -T /rychly/docasny/adresar >all_in_one.txt
`pv` je program pipeview, aby bylo videt, kdy se nacte vstup, lze nahradit `head -n 10000` pro otestovani. 32G je RAM, 16 pocet jader
Protoze se data nevlezou do pameti, sort bude odkladat mezivysledky do adresare -T. Doporucuju neco, kde je dostatek mista :), minimalne na cela vstupni data.

2. nejakym jednoduchym skriptem z velkeho souboru udelal pozadovanou adresarovou strukturu.


10
Software / Re:Google Tabulky - odeslání emailem
« kdy: 15. 09. 2023, 11:18:52 »

11
...
poměrně značné množství článků
...
To jsme se moc od "velkém množství českého textu" neposunuli. Kolik to je, 10k, 10M, 10G clanku?

Řazení výsledků... ta logika už může být poměrně komplikovaná, protože počet shod v příslušném článku nemusí nutně znamenat, že se jedná o nejrelevantnější výsledek. Dalo by se do toho zařadit s určitou váhou i četnost zobrazení takových článků za např. poslední tři měsíce apod.
Textova relevance je trochu slozitejsi obor nez "pocet shod". Asi bych nedoporucil to vymyslet/programovat, ale nechal to na pouzitem vyhledavaci, Elasticsearch napriklad pouziva variantu BM25.

Pokud mate dalsi atributy (jako treba cetnost zobrazeni clanku), tim lepe. Musite nicmene vymyslet formuli, jak z vektoru atributu, vcetne textove relevance, vydestilujete radici kriterium. Typicky postup je:
dotaz->vyhledavaci stroj vrati N matchujicich dokumentu->pretrideni N dokumentu->vyber top K, ktere se zobrazi.
Velke vyhledavace pouzivaji na onu formuli strojove uceni, da se nicmene zacit i s z prstu vycucanym vzorcem typu:
("textove score"+(log("pocet zobrazeni"))

Nerozumím až tak návrhu "Zvazil bych vygenerovani embdedingu z dokumentu/dotazu pomoci jazykoveho modelu a pouziti podobnostniho hledani."
1. Predpocitate embedding pro dokumenty pomoci jazykoveho modelu, aka cerne skrinky, ktera z textu v cestine vyrobi vektor cisel pevne delky (napriklad 1024 8bit cisel).
2. Pomoci stejneho modelu spocitate embedding/vektor dotazu
3. Podobnostnim vyhledavanim vyhledate dokumenty nejpodobnejsi vektoru dotazu. Podobnosti se typicky mysli kosinova podobnost.

Pro pocitani vektoru, mate-li nekonecne zdroje a spoustu casu, lze pouzit OpenAI embedings jako sluzbu. Na vlastnim HW pro cestinu napriklad Small-E-Czech.
Jako podobnostni databazi muzu doporucit Faiss. Ale i dnesni nektere relacni databaze umi podobnostni hledani.

Nicmene, kdyz odhlednu od toho, co pisu, doporucil bych vyzkouset zminovany PostgreSQL/Elasticsearch se slovnikem typu ispell. Pokud to bude stacit, konec pribehu. Pokud ne, viz vyse :).

12
Stalo by za to trochu rozvest:
- "velkém množství českého textu" -- kolik zhruba dokumentu, jak jsou velke?
- jake dotazy se budou hledat? (kraticke 2-3 slovne dotazy vs cele dlouhe vety o desitkach slov)
- jakym zpusobem se maji vysledky radit? (pouze podle textove relevance/shody s dotazem, nebo i neceho dalsiho)

Reseni zalozene na lemmatizaci/ispelech pocitaji s indexovanim dokumentu pres slova. Kvalita hledani pro kratke dotazy nebyva dobra, zejmena pro to, ze lemmata/ohackovani nejsou jednoznacne a pokud generujete vsechny varianty, vybublaji zcela nerelevantni dokumenty.

Zvazil bych vygenerovani embdedingu z dokumentu/dotazu pomoci jazykoveho modelu a pouziti podobnostniho hledani. Nevyhoda je vyrazne vyssi narok na zdroje (CPU/GPU/RAM).

13
Odkladiště / Re:Vlastní instalace ChatGPT
« kdy: 25. 08. 2023, 14:53:51 »
Nez se vydas do Alzy:
- zkus zminovane gpt4all (staci stroj s 16GB RAM, i bez Nvida grafiky);
- specificky pro Llama 2 je tu llama-gpt (teoreticky staci 8GB RAM);
- pokud chces generovat "ideologicky zavadne veci" (porno, hate speech, ...), musis model dotrenovat (mozna te tu nekdo nasmeruje na model, ktery to umi rovnou, ja o zadnem verejnem nevim, u nekterych lze castecne obejit promptem);
- pokud bys chtel modelu jen dodat vlastni dokumenty, LlamaIndex, na CPU nedoporucuju, protoze procesis cele dokumenty.

14
Software / Re:Rekurzivní porovnání adresáře v MC
« kdy: 29. 05. 2023, 21:34:48 »
AFAIK nelze. Teoreticky by mozna slo premluvit diff, aby pracoval s panely v mc. Pokud netreba nutne terminal, mozna by stacil meld.

15
Hardware / Re:Hledám síťovou laserovou tiskárnu se skenerem
« kdy: 21. 03. 2023, 21:12:00 »
Brother DCP-L2532DW , 2 roky bez problemu, v Linuxu (Ubuntu 20.04, 22.04) tisk i scanner bez ovladacu, MacOS taktez. Oboustranny tisk, "kopirka", pouzivam pres WiFi.

Stran: [1] 2