Extrakce individuální hlasové stopy z videa

Jigdo

  • *****
  • 506
    • Zobrazit profil
Re:Extrakce individuální hlasové stopy z videa
« Odpověď #15 kdy: 23. 06. 2023, 14:47:03 »
Nemáš šanci.
Žádný takový software není. Máš to nahraný jako mono, a možná třeba i jako stereo, ale prostě je to mix.
Ale určitě to umí NSA apod. společnosti.
Na AI bych nespoléhal, alespoň tak že by to dala bez nějaké přípravy a učení konkrétních vzorků.

GitHub ma nekolik projektu, ale bude to casove narocne :(
https://github.com/topics/speaker-diarization

Zkusim kontakt na Eddu, treba bude vedet ;)



Re:Extrakce individuální hlasové stopy z videa
« Odpověď #16 kdy: 23. 06. 2023, 16:15:19 »
Koukal jsem na tu appku pro oddělení vokálů. Je to moises, což je v podstatě frontend pro https://github.com/deezer/spleeter . Zvládá rozdělit tracky nástojů, i třeba kytara či klávesy vytažené z písničky nebyly úplně špatné.

Ovšem dva hlasy přes sebe je dle mého názoru ještě náročnější. Ale všechno je to jenom o natrénování toho modelu, asi není důvod, aby to nefungovalo.

Re:Extrakce individuální hlasové stopy z videa
« Odpověď #17 kdy: 24. 06. 2023, 20:17:20 »
Za Kovidu jsem nahrával přednášky a workshopy. Pak jsem to upravoval, abych to zveřejnil.
Protože byly mezi mluvčími dost velké rozdíly v kvalitě (hlasitost, šum, ...) tak jsem to ještě upravoval.

Přehodil jsem si audiostopu do Audacity, prohnal to pár čištěními a v některých případech jsem to procházel, ručně vybíral a upravoval úseky některých mluvčích.
Naštěstí nemluvili přes sebe.

Na takovou 2 hodinovou přednášku to s postprocesingem zabralo klidně i další 4 hodiny práce, a to jsem řešil jen to nejnutnější. (Není se co divit, že raději učím na živo.)


Re:Extrakce individuální hlasové stopy z videa
« Odpověď #18 kdy: 14. 07. 2023, 11:11:40 »
Myslím, že nemáš šanci (kromě AI, která by to mohla umět .  někdy), 12 lidí, nahráno sice na stereo, ale tak jak ty lidi byly fláknuti na místa.

Něco popsal WIFT. To oddělení spoléhá na to, že jde o stereo mixovanou/mástrovanou hudební klip, kde obvykle hlas je  na obou kanálech identický, zatímco instrumenty aranžovány (způsoby: fázový posun mezi kanály, časové zpoždění, poměr hlasitostí kanálů) pro dosažení desired vyznění hudby.

S těmi uvedenými způsoby si softy celkem běžně poradí. Je to vlastně primitivní  lineární kombinování, když tam jsou složky ve fázi (mono hlas duplikovaný do dvou kanálů)v tom nejjednoduším případě, kdy tam třeba ty parametry jsou konstantní.

"AI" (machine learning, není problém ji natrénovat na vstup:výstup, kdy se ji předhodí hotové treky a rozpracované stopy přes mixem) si myslím, že už něco takového je možné, akorát asi ne pro smrtelníky

Jigdo

  • *****
  • 506
    • Zobrazit profil
Re:Extrakce individuální hlasové stopy z videa
« Odpověď #19 kdy: 15. 07. 2023, 16:15:50 »
Z duvodu nedostatku casu, jsem to odlozil na vedlejsi kolej.
Az bude vice casu/horsi pocasi pokusim se k tomu vratit.