Redigování citlivých dat z JPEG

Jigdo

  • *****
  • 506
    • Zobrazit profil
Redigování citlivých dat z JPEG
« kdy: 19. 02. 2024, 13:45:21 »
Poradi nekdo jakovy software a jak redigovat citlive data z obrazku ktere jsou v JPEG formatu?

Hledam nejaky navod, ale nic jsem nenasel.

Google neco nabizi komercne
https://cloud.google.com/sensitive-data-protection/docs/redacting-sensitive-data-images

darktable nebo GIMP neco takoveho umi?


Re:Redigování citlivých dat z JPEG
« Odpověď #1 kdy: 19. 02. 2024, 13:52:16 »
A o co má jít ? Textová metadata nebo součást obrazu? Vyžaduje to "ai"?

petersveter

Re:Redigování citlivých dat z JPEG
« Odpověď #2 kdy: 19. 02. 2024, 14:02:23 »
Tak treba tam pouzit OCR a vytiahnut z toho text, aplikovat logiku na detekciu toh oco je citlive a co nie je(email napriklad alebo telefonne cislo) a nasledne potom najst dany retazec na obrazku podla koordinatov a proste zaciernit.

Samozrejme sa to neda pouzit na ne-textove informacie. Tam jedine manualne alebo natrenovat nejaky model.

Jigdo

  • *****
  • 506
    • Zobrazit profil
Re:Redigování citlivých dat z JPEG
« Odpověď #3 kdy: 19. 02. 2024, 14:07:13 »
Je to Scan documentu a potrebuji z neho "redigovat" adresu, jmeno ze zahlavi toho dopisu.

RDa

  • *****
  • 2 732
    • Zobrazit profil
    • E-mail
Re:Redigování citlivých dat z JPEG
« Odpověď #4 kdy: 19. 02. 2024, 14:54:30 »
Pokud je to jednorazovka tak gimp nebo jinej grafickej editor a nakreslit tam nepruhledny cerny obdelnik, pak to ulozit.

Je dobre to delat v jpeg souboru, pac pri editaci PDF by se ti mohlo stat ze nakreslis vektorovej obdelnik, pod kterym porad zustava puvodni obraz.


Re:Redigování citlivých dat z JPEG
« Odpověď #5 kdy: 19. 02. 2024, 15:16:10 »
Píšete o redigování, tedy úpravě textu, citlivých dat z obrázku. Když si to přeložím na něco smysluplného, umí to každý grafický editor  – Gimp, Affinity Photo Editor, dokonce i Malování. Prostě označíte obdélník s textem, který chcete změnit, vymažete ho či vyplníte bílou barvou, a pak tam napíšete text, který tam chcete mít.

Pokud chcete něco jiného, tak napište přesně, co chcete (a pokud možno bez použití cizích slov, kterým nerozumíte).

Re:Redigování citlivých dat z JPEG
« Odpověď #6 kdy: 25. 02. 2024, 03:54:24 »
Ahoj,

Na uvodnim dotazu jsem nepochopil, o co presne jde. Ale po upresneni to asi i chapu. Mas tedy JPG obrazek a potrebujes jej na urcite oblasti rozostrit, konkretne na oblasti, kde jsou napsane citlive udaje (rucnim pismem, nebo na stroji ci v PC, to je jedno). Jedna se o jeden obrazek, par obrazkou, nebo desitky-stovky-tisice obrazku ? V pripade jednoho ci par obrazku rucne v grafickem editoru (v Linuxu Gimp, Xnview nebo ve Windows malovani) - muzes olast precmarat stetcem ci prestikat sprejem, nebo prelozit obdelnikem libovolne barvy, nebo uplne nejlepe rucne rozostrit (anglicky blur tusim).

Pokud by se jednalo o velke mnozstvi obrazku - od desitek po tisice, nebo dokonce miliony, museli by jsme znat presnou specifikaci sady souboru a na zaklade toho poradit. Automaticke meneni neceho u cele sady obrazku, to jde jeste jakztaz pri stejnych rozmerech axb a pri zmene stale stejne urcite oblasti (obdelnik o urcitych souradnicich, vzdy stejny). Automaticky hledat a rozostrit nejaky obekt (napr. podpis), to chce znalou AI a nevim, jak na to.

JPG je ztratova konverze a tedy nove ulozeny obrazek neni uplne identicky s puvodnim a to po cele plose. Nastavuje se kvalita v cislech, 100 je neco jako 100 % nevyssi kvalita, tedy nulove straty, ale o poznani mensi komprese. Kvalitu pouzivam 80-85, nekdy 90. Pri kvalite 85 je puvodni-nova fotka temer stejna, ale na shemata a grafy se JPG vubec nehodi.

A nikdy needituj PDF soubory, vzdy obycejne obrazky JPG. U PDF nevis, co v ulozenem souboru zustane, nejaka citliva data.

Krome rozmeru, barevne hloubky a casu vytvoreni ci zmeny ma JPG (JPEG) obrazek, napr. fotka metadata, ve kterych mohou byt i citlive informace (typ pristroje, ktery to vyfotil, geograficke souradnice a cas, doba expozice, blesk a dalsi, vc. jmena autora). Puvodcne jsem myslel, ze chces odstranit tyto data. Podle mych zkusenosti (snad spravnych) pro odstraneni metadat (EXIF) staci konverze JPG to PNG to JPG. Pripominam, JPG je ztratova konverze, voli se kvalita. A vysledny JPG muze byt vetsi, nez puvodni. Pokud je puvodni zdroj s nizkou kvalitou, u vysledneho JPG nema cenu volit kvalitu velkou. Nove JPG se s puvodnim nebude nikdy shodovat na 100 %.

Hash obrazku se meni vzdy (dle prakticke zkusenosti, teoreticky nevim), i pri nepatrne zmene se zmeni kompletne.

Zopper

  • *****
  • 786
    • Zobrazit profil
Re:Redigování citlivých dat z JPEG
« Odpověď #7 kdy: 25. 02. 2024, 07:56:33 »
Podle mych zkusenosti (snad spravnych) pro odstraneni metadat (EXIF) staci konverze JPG to PNG to JPG.

Na to nespolehat, PNG uz nejakou standardizaci exif dat dostal (https://ftp-osl.osuosl.org/pub/libpng/documents/pngext-1.5.0.html#C.eXIf) a pry i predtim si nektere programy ukladaly nestandardizovana data. Na odstraneni jsou programy i online sluzby, mozna to umi i gimp a spol.

Hash obrazku se meni vzdy (dle prakticke zkusenosti, teoreticky nevim), i pri nepatrne zmene se zmeni kompletne.
I teoreticky. Ucel beznych hashu je detekovat i jednobitovou zmenu a idealne i s jednobitovou zmenou vstupu zmenit kazdy bit hashe s 50% pravdepodobnosti.

Karmelos

  • *****
  • 1 063
    • Zobrazit profil
    • E-mail
Re:Redigování citlivých dat z JPEG
« Odpověď #8 kdy: 25. 02. 2024, 13:28:17 »
Multiplatformní XnView umí odstranit exif/meta data i hromadně...
Gréta je nejlepší.

Re:Redigování citlivých dat z JPEG
« Odpověď #9 kdy: 25. 02. 2024, 14:55:03 »
Já používám řádkovou utilitu exiv2, která je v balíčku v Debianu.

Kód: [Vybrat]
$ exiv2 rm *

Gtor

Re:Redigování citlivých dat z JPEG
« Odpověď #10 kdy: 25. 02. 2024, 18:19:19 »
Jan Ťulák

Mas pravdu, smazani EXIF konvertem obrazku JPG - PNG - JPG bych na to smazani EXIFu uplne nespolehal. A nemusim volit veprostred format PNG, plati to i pro jine formaty. Teda nevim, jestli je mozne ulozit metadata u BMP, musel bych to prozkoumat. Pokud jde o maly obrazek, jez se vejde ve velikosti 100 % na plochu, je mozne vyfotit obrazovku - region obrazku, a ulozit jako novy obrazek. Tim se metadata take smazou. EXIF jde smazat i pomoci XnView a exiv2 jak bylo navrhnuto (je to jistota ?). Do PDF bych citliva data neukladal vubec.

Jiz byl pripad, kdy pachatel nekam posilal fotku prez TOR, na fotce vsak byly v EXIFu souradnice GPS. A na fotce je i v EXIFu cas vyfoceni. Cas vyfoceni je jiny udaj, nez vytvoreni nebo zmena nebo posledni otevreni souboru fotky a neda se zmenit prez touch.

S tou zmenou hashe - i kdyz zmenim soubor o jediny bit (v obrazku s 24-bitovou hloubkou 16 777 216 barev zmenim na jednom pixelu jednu ze slozek RGB o jedine cislo), hash noveho souboru bude velmi odlisny. A to se bavime o BMP. U obrazku s kompresi (PNG) zmena  jedne barvy u jednoho pixelu znamena vetsi zmenu ve vyslednem obrazku.

Hash sha256sum je cislo v 16-soustave dlouhe z 64 cislic. To je 16^64 resp. 2^256 moznosti - okolo 1.15792*10^77 moznosti. Priblizne tolik je atomu v okruhu nekolika miliard svetelnych let. Obrazek s barevnou hloubkou 24 bit a rozliseni 1024x768 vsak ma celkem 2^(24*1024*768) resp. 2^18874368. To je nesrovnatelne vice. Rozdilnych obrazku se stejnym rozlisenim a stejnym hashem, stejnou barevnou houbkou tak existuje 2^18874112.

Teoreticky existuje mnoho jinych obrazku se stejnym hashem. Ale prakticky je neni mozne nijak najit ci vytvorit. Hrubou silou je to nesmysl. Google uz se vsak tusim podarilo vytvorit dva rozdilne PDF soubory se stenym hashem (velmi drahy a vypocetne narocny experiment). A tedy stale podle hashe je mozne kontrolovat pravost souboru, sance na selhani kontroly je minimalni.

Puvodni dotaz byl na zamazani citlivych udaju na obrazku (oblicej, podpis, nejake cislo, adresa). Na to staci rozostreni, stetec, guma nebo vyrez obdelniku a plechovka v Gimpu nebo malovani ve Windows.