Extrakce individuální hlasové stopy z videa

Jigdo

  • *****
  • 506
    • Zobrazit profil
Extrakce individuální hlasové stopy z videa
« kdy: 20. 06. 2023, 16:47:07 »
Napada nekoho jak by se dalo z video nahravky (mp4 kontejner/AAC LC - 256 kb/s - 2 channels - 48.0 kHz), ve kterem je 12 ucastniku,
kteri v prubehu necele minuty mluvi vsichni najednou vytahnout "jen" zvukova stopa jendoho z ucastniku toho videa?

Jestli to teda neni otazka pro namorni vysetrovaci sluzbu...

Asi prvni step bude vytazeni te audio nahravky z mp4, coz treba MP4Box zvladne, ale cim a jestli potom pujde vytahnout audio stopu specifickeho ucastnika?....
« Poslední změna: 20. 06. 2023, 16:56:31 od Petr Krčmář »


jjrsk

  • *****
  • 568
    • Zobrazit profil
Re:Extrakce individualni hlasove stopy z videa
« Odpověď #1 kdy: 20. 06. 2023, 16:56:39 »
Kachna praskla ze to de https://oxfordwaveresearch.com/products/cleaver/ Predpokladam, ze takovych veci bude vic.

Re:Extrakce individuální hlasové stopy z videa
« Odpověď #2 kdy: 20. 06. 2023, 22:42:54 »
Mno, rozhodně bych se divil i ušima, kdyby na to byl nějaký „free softík“. To je imho skoro úloha pro AI, tuhle jsem zaznamenal zprávu, že Beatles budou mít skladbu dělanou s pomocí AI ve smyslu, že měli nějakou starou nedodělanou skladbu z kazety a byl tam zpěv a kytara, AI řekli, co je zpěv a co je kytara a „teď z toho vyhoď tu kytaru“ - a bylo. Čili velice podobná úloha: tohle je jeden speaker, tohle druhý, tohle x-tý a vyseparuj mi čtvrtého.
Imho nic pro takové to domácí editování. Ale rád bych se pletl, protože to by se mi taky moc líbilo :).

Re:Extrakce individuální hlasové stopy z videa
« Odpověď #3 kdy: 21. 06. 2023, 00:44:59 »
Nemáš šanci.
Žádný takový software není. Máš to nahraný jako mono, a možná třeba i jako stereo, ale prostě je to mix.
Ale určitě to umí NSA apod. společnosti.
Na AI bych nespoléhal, alespoň tak že by to dala bez nějaké přípravy a učení konkrétních vzorků.

Až to budeš příště chtít oddělit tak mu dej klopový mikrofon a zaznamenej si to jako samostatnou stopu. Pro tu skupinu 12 lidí (samostatných 12 audio stop, ale to by chtělo i nějaké ruchové mikrofony apod.) to vyjde na cca. 50-70 tis. vč. rekordérů v amatérském provedení.

jjrsk

  • *****
  • 568
    • Zobrazit profil
Re:Extrakce individuální hlasové stopy z videa
« Odpověď #4 kdy: 21. 06. 2023, 07:36:25 »
Chjo ... pro tu blabolis nesmysly, kdyz sem hned v prnim postu odkazal na soft, ktery je primo pro to urcen ...

A takovych jsou desitky.

Navic je to pormerne primitivni uloha i kdyby si to dotycny chtel delat sam, jen musi trochu neco vedet o zachazeni se zvukem. Uplne bez problemu se to da udelat rucne, specielne pokud toho zaznamu je jen minuta.  Odfiltrovat ze zvukovyho zaznamu nezadany komponenty umi kazdy soft pro praci se zvukem. Jen to bude pracny, a tudiz pri prepoctu na penize drahy.




Re:Extrakce individuální hlasové stopy z videa
« Odpověď #5 kdy: 21. 06. 2023, 08:25:00 »
... hned v prnim postu odkazal na soft, ktery je primo pro to urcen ...

Možná jsem to blbě pochopil, ale není ten soft určený "pouze" k rozsekání vstupního audia na jednotlivé hlasy? Nepochopil jsem, jak řeší současné mluvení více účastníků. V paperu zmiňují "The most challenging problem we have encountered is that of over-talking between speakers", ale v obrázcích nikde žádný takový případ nebyl.

Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky. Ale rozdělení současně mluvících hlasů mi nepřijde úplně jednoduché...

Re:Extrakce individuální hlasové stopy z videa
« Odpověď #6 kdy: 21. 06. 2023, 08:55:46 »
Citace
Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky.

Asi je to trošku off-topics, ale co to je za aplikaci?

alex6bbc

  • *****
  • 1 677
    • Zobrazit profil
    • E-mail
Re:Extrakce individuální hlasové stopy z videa
« Odpověď #7 kdy: 21. 06. 2023, 08:58:44 »
tipnul bych, ze fourier a wevelety by mohly vytahnout pozadovane frekvence.

Re:Extrakce individuální hlasové stopy z videa
« Odpověď #8 kdy: 21. 06. 2023, 17:02:13 »
Asi je to trošku off-topics, ale co to je za aplikaci?

Název přesně nevím, ale určitě některá z https://videoconverter.wondershare.com/vocal-remover/vocal-remover-app.html

_Jenda

  • *****
  • 1 606
    • Zobrazit profil
    • https://jenda.hrach.eu/
    • E-mail
Re:Extrakce individuální hlasové stopy z videa
« Odpověď #9 kdy: 21. 06. 2023, 17:42:52 »
Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky.
Tohle se prý dělá jednoduše s využitím stereo kanálů, protože u hudby bývá zpěvák stejně intenzivně v obou kanálech, zatímco nástroje jsou asymetricky. Takže „stačí“ vytáhnout to co je v obou kanálech stejné a to co je rozdílné. Případně hudba bude mít jinou frekvenční signaturu než slovo.

Oproti tomu více mluvících lidí přes sebe bude mnohem větší oříšek.

Re:Extrakce individuální hlasové stopy z videa
« Odpověď #10 kdy: 22. 06. 2023, 20:25:57 »
Tohle se prý dělá jednoduše s využitím stereo kanálů, protože u hudby bývá zpěvák stejně intenzivně v obou kanálech, zatímco nástroje jsou asymetricky. Takže „stačí“ vytáhnout to co je v obou kanálech stejné a to co je rozdílné.
Software, který popisujete, je matematicky úplně primitivní. Vezmete kanál A a necháte ho tak, jak je. Vezmete kanál B a převrátíte ho kolem středové osy. Pak ty kanály "sečtete" (prolnete). Výsledkem je rozdíl ve zvuku mezi oběma kanály, takže přesně jak říkáte: hlas z toho zmizí a zůstane hudba, akorát to dostane takový trochu „surround“ efekt. Takže takových aplikací budou mraky (sám jsem si v dřevních dobách DOSu a Turbo Pascalu takovou udělal) a jsou velice nenáročné na výpočet, protože nic složitého nepočítají.

Potíž tohohle principu je, že obráceně to nejde - nejde z toho zvuku touto cestou vytáhnout to, co je pro oba kanály společné.

A samozřejmě to nelze použít na situaci původního tazatele v tomhle vlákně. To chce prostě docela neprimitivní soft na analýzu obsahu zvuku a identifikaci jednotlivých částí, ještě tak nejjednodušší je to na frekvenční bázi, takže s tím jde poměrně úspěšně dělat např. takové věci jako odstranění šumu z nahrávky z gramofonové desky, odstranění různých relativně konstantních zvuků pozadí (ideálně za situace, že v tom zvuku je samostatně kousek toho, co chcete vyházet, aby si to mělo na čem navzorkovat, co za zvuk požadujete vyhodit). Ale hlasy se mezi to nepočítají, protože to už je ze všech úhlů pohledu poměrně komplikovaný zvuk a ten software, co tu na něj odkazuje jjrsk, bych třeba osobně moc rád viděl v akci, protože bych se docela těšil na to, jak mi z výsledku spadne brada :).

Re:Extrakce individuální hlasové stopy z videa
« Odpověď #11 kdy: 23. 06. 2023, 10:11:46 »
Oddělování "zpěvu a hudby" je aktuálně in v DJingu.
Serato, Pioneer DJ i Denon DJ zavádí takzvané Steams (Drums, Vocal, Instrumental).
A funguje to docela dobře, teda hlavně na taneční muziku. Staré české hity a i rokové to už dává s chybama - úplně se to netrefí do "ořezu". Pak DJ může mixovat např. basovou složku jedné skladby se zpěvem (vokály) z jiné skladby.
Bohužel toto nelze použít na požadavek autora.

Re:Extrakce individuální hlasové stopy z videa
« Odpověď #12 kdy: 23. 06. 2023, 12:39:44 »
Toto bude potíž, oddělit od sebe hlasy. Doteď jsem nezaznamenal, že by se to někomu povedlo..
Hlas od zbytku hudby už docela dobře jde - hledejte technologii "spleeter", jsou i online separátory.

Jigdo

  • *****
  • 506
    • Zobrazit profil
Re:Extrakce individuální hlasové stopy z videa
« Odpověď #13 kdy: 23. 06. 2023, 14:19:39 »
Takze jsem to audio oddelil od videa s MP4Box a vysledny *_track2.aac narval do Audacity (zapnul Multi-view/Waveform a Spectrogram) a vypada to ze je to Stereo ....

Zapomnel jsem poznamenat ze se take nejedna o mluvene slovo ale zpev (a to dedi ....)