Extrakce individuální hlasové stopy z videa

Jigdo · « **Odpověď #15 kdy:** 23. 06. 2023, 14:47:03 »

Citace: honzako 21. 06. 2023, 00:44:59

Nemáš šanci.
Žádný takový software není. Máš to nahraný jako mono, a možná třeba i jako stereo, ale prostě je to mix.
Ale určitě to umí NSA apod. společnosti.
Na AI bych nespoléhal, alespoň tak že by to dala bez nějaké přípravy a učení konkrétních vzorků.

GitHub ma nekolik projektu, ale bude to casove narocne

https://github.com/topics/speaker-diarization

Zkusim kontakt na Eddu, treba bude vedet

Reklama

redustin · « **Odpověď #16 kdy:** 23. 06. 2023, 16:15:19 »

Koukal jsem na tu appku pro oddělení vokálů. Je to moises, což je v podstatě frontend pro https://github.com/deezer/spleeter . Zvládá rozdělit tracky nástojů, i třeba kytara či klávesy vytažené z písničky nebyly úplně špatné.

Ovšem dva hlasy přes sebe je dle mého názoru ještě náročnější. Ale všechno je to jenom o natrénování toho modelu, asi není důvod, aby to nefungovalo.

Mintaka · « **Odpověď #17 kdy:** 24. 06. 2023, 20:17:20 »

Za Kovidu jsem nahrával přednášky a workshopy. Pak jsem to upravoval, abych to zveřejnil.
Protože byly mezi mluvčími dost velké rozdíly v kvalitě (hlasitost, šum, ...) tak jsem to ještě upravoval.

Přehodil jsem si audiostopu do Audacity, prohnal to pár čištěními a v některých případech jsem to procházel, ručně vybíral a upravoval úseky některých mluvčích.
Naštěstí nemluvili přes sebe.

Na takovou 2 hodinovou přednášku to s postprocesingem zabralo klidně i další 4 hodiny práce, a to jsem řešil jen to nejnutnější. (Není se co divit, že raději učím na živo.)

Vietnanka · « **Odpověď #18 kdy:** 14. 07. 2023, 11:11:40 »

Myslím, že nemáš šanci (kromě AI, která by to mohla umět . někdy), 12 lidí, nahráno sice na stereo, ale tak jak ty lidi byly fláknuti na místa.

Něco popsal WIFT. To oddělení spoléhá na to, že jde o stereo mixovanou/mástrovanou hudební klip, kde obvykle hlas je na obou kanálech identický, zatímco instrumenty aranžovány (způsoby: fázový posun mezi kanály, časové zpoždění, poměr hlasitostí kanálů) pro dosažení desired vyznění hudby.

S těmi uvedenými způsoby si softy celkem běžně poradí. Je to vlastně primitivní lineární kombinování, když tam jsou složky ve fázi (mono hlas duplikovaný do dvou kanálů)v tom nejjednoduším případě, kdy tam třeba ty parametry jsou konstantní.

"AI" (machine learning, není problém ji natrénovat na vstup:výstup, kdy se ji předhodí hotové treky a rozpracované stopy přes mixem) si myslím, že už něco takového je možné, akorát asi ne pro smrtelníky

Jigdo · « **Odpověď #19 kdy:** 15. 07. 2023, 16:15:50 »

Z duvodu nedostatku casu, jsem to odlozil na vedlejsi kolej.
Az bude vice casu/horsi pocasi pokusim se k tomu vratit.

Reklama

Extrakce individuální hlasové stopy z videa

Jigdo

Re:Extrakce individuální hlasové stopy z videa

Reklama

redustin

Re:Extrakce individuální hlasové stopy z videa

Mintaka

Re:Extrakce individuální hlasové stopy z videa

Vietnanka

Re:Extrakce individuální hlasové stopy z videa

Jigdo

Re:Extrakce individuální hlasové stopy z videa

Reklama