Extrakce individuální hlasové stopy z videa

Jigdo · « **kdy:** 20. 06. 2023, 16:47:07 »

Napada nekoho jak by se dalo z video nahravky (mp4 kontejner/AAC LC - 256 kb/s - 2 channels - 48.0 kHz), ve kterem je 12 ucastniku,
kteri v prubehu necele minuty mluvi vsichni najednou vytahnout "jen" zvukova stopa jendoho z ucastniku toho videa?

Jestli to teda neni otazka pro namorni vysetrovaci sluzbu...

Asi prvni step bude vytazeni te audio nahravky z mp4, coz treba MP4Box zvladne, ale cim a jestli potom pujde vytahnout audio stopu specifickeho ucastnika?....

Reklama

jjrsk · « **Odpověď #1 kdy:** 20. 06. 2023, 16:56:39 »

Kachna praskla ze to de https://oxfordwaveresearch.com/products/cleaver/ Predpokladam, ze takovych veci bude vic.

𝑾𝑰𝑭𝑻 · « **Odpověď #2 kdy:** 20. 06. 2023, 22:42:54 »

Mno, rozhodně bych se divil i ušima, kdyby na to byl nějaký „free softík“. To je imho skoro úloha pro AI, tuhle jsem zaznamenal zprávu, že Beatles budou mít skladbu dělanou s pomocí AI ve smyslu, že měli nějakou starou nedodělanou skladbu z kazety a byl tam zpěv a kytara, AI řekli, co je zpěv a co je kytara a „teď z toho vyhoď tu kytaru“ - a bylo. Čili velice podobná úloha: tohle je jeden speaker, tohle druhý, tohle x-tý a vyseparuj mi čtvrtého.
Imho nic pro takové to domácí editování. Ale rád bych se pletl, protože to by se mi taky moc líbilo

.

honzako · « **Odpověď #3 kdy:** 21. 06. 2023, 00:44:59 »

Nemáš šanci.
Žádný takový software není. Máš to nahraný jako mono, a možná třeba i jako stereo, ale prostě je to mix.
Ale určitě to umí NSA apod. společnosti.
Na AI bych nespoléhal, alespoň tak že by to dala bez nějaké přípravy a učení konkrétních vzorků.

Až to budeš příště chtít oddělit tak mu dej klopový mikrofon a zaznamenej si to jako samostatnou stopu. Pro tu skupinu 12 lidí (samostatných 12 audio stop, ale to by chtělo i nějaké ruchové mikrofony apod.) to vyjde na cca. 50-70 tis. vč. rekordérů v amatérském provedení.

jjrsk · « **Odpověď #4 kdy:** 21. 06. 2023, 07:36:25 »

Chjo ... pro tu blabolis nesmysly, kdyz sem hned v prnim postu odkazal na soft, ktery je primo pro to urcen ...

A takovych jsou desitky.

Navic je to pormerne primitivni uloha i kdyby si to dotycny chtel delat sam, jen musi trochu neco vedet o zachazeni se zvukem. Uplne bez problemu se to da udelat rucne, specielne pokud toho zaznamu je jen minuta. Odfiltrovat ze zvukovyho zaznamu nezadany komponenty umi kazdy soft pro praci se zvukem. Jen to bude pracny, a tudiz pri prepoctu na penize drahy.

Reklama

redustin · « **Odpověď #5 kdy:** 21. 06. 2023, 08:25:00 »

Citace: jjrsk 21. 06. 2023, 07:36:25

... hned v prnim postu odkazal na soft, ktery je primo pro to urcen ...

Možná jsem to blbě pochopil, ale není ten soft určený "pouze" k rozsekání vstupního audia na jednotlivé hlasy? Nepochopil jsem, jak řeší současné mluvení více účastníků. V paperu zmiňují "The most challenging problem we have encountered is that of over-talking between speakers", ale v obrázcích nikde žádný takový případ nebyl.

Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky. Ale rozdělení současně mluvících hlasů mi nepřijde úplně jednoduché...

pkdvorak · « **Odpověď #6 kdy:** 21. 06. 2023, 08:55:46 »

Citace

Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky.

Asi je to trošku off-topics, ale co to je za aplikaci?

alex6bbc · « **Odpověď #7 kdy:** 21. 06. 2023, 08:58:44 »

tipnul bych, ze fourier a wevelety by mohly vytahnout pozadovane frekvence.

redustin · « **Odpověď #8 kdy:** 21. 06. 2023, 17:02:13 »

Citace: pkdvorak 21. 06. 2023, 08:55:46

Asi je to trošku off-topics, ale co to je za aplikaci?

Název přesně nevím, ale určitě některá z https://videoconverter.wondershare.com/vocal-remover/vocal-remover-app.html

_Jenda · « **Odpověď #9 kdy:** 21. 06. 2023, 17:42:52 »

Citace: redustin 21. 06. 2023, 08:25:00

Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky.

Tohle se prý dělá jednoduše s využitím stereo kanálů, protože u hudby bývá zpěvák stejně intenzivně v obou kanálech, zatímco nástroje jsou asymetricky. Takže „stačí“ vytáhnout to co je v obou kanálech stejné a to co je rozdílné. Případně hudba bude mít jinou frekvenční signaturu než slovo.

Oproti tomu více mluvících lidí přes sebe bude mnohem větší oříšek.

𝑾𝑰𝑭𝑻 · « **Odpověď #10 kdy:** 22. 06. 2023, 20:25:57 »

Citace: _Jenda 21. 06. 2023, 17:42:52

Tohle se prý dělá jednoduše s využitím stereo kanálů, protože u hudby bývá zpěvák stejně intenzivně v obou kanálech, zatímco nástroje jsou asymetricky. Takže „stačí“ vytáhnout to co je v obou kanálech stejné a to co je rozdílné.

Software, který popisujete, je matematicky úplně primitivní. Vezmete kanál A a necháte ho tak, jak je. Vezmete kanál B a převrátíte ho kolem středové osy. Pak ty kanály "sečtete" (prolnete). Výsledkem je rozdíl ve zvuku mezi oběma kanály, takže přesně jak říkáte: hlas z toho zmizí a zůstane hudba, akorát to dostane takový trochu „surround“ efekt. Takže takových aplikací budou mraky (sám jsem si v dřevních dobách DOSu a Turbo Pascalu takovou udělal) a jsou velice nenáročné na výpočet, protože nic složitého nepočítají.

Potíž tohohle principu je, že obráceně to nejde - nejde z toho zvuku touto cestou vytáhnout to, co je pro oba kanály společné.

A samozřejmě to nelze použít na situaci původního tazatele v tomhle vlákně. To chce prostě docela neprimitivní soft na analýzu obsahu zvuku a identifikaci jednotlivých částí, ještě tak nejjednodušší je to na frekvenční bázi, takže s tím jde poměrně úspěšně dělat např. takové věci jako odstranění šumu z nahrávky z gramofonové desky, odstranění různých relativně konstantních zvuků pozadí (ideálně za situace, že v tom zvuku je samostatně kousek toho, co chcete vyházet, aby si to mělo na čem navzorkovat, co za zvuk požadujete vyhodit). Ale hlasy se mezi to nepočítají, protože to už je ze všech úhlů pohledu poměrně komplikovaný zvuk a ten software, co tu na něj odkazuje jjrsk, bych třeba osobně moc rád viděl v akci, protože bych se docela těšil na to, jak mi z výsledku spadne brada

.

Michal ... · « **Odpověď #11 kdy:** 23. 06. 2023, 10:11:46 »

Oddělování "zpěvu a hudby" je aktuálně in v DJingu.
Serato, Pioneer DJ i Denon DJ zavádí takzvané Steams (Drums, Vocal, Instrumental).
A funguje to docela dobře, teda hlavně na taneční muziku. Staré české hity a i rokové to už dává s chybama - úplně se to netrefí do "ořezu". Pak DJ může mixovat např. basovou složku jedné skladby se zpěvem (vokály) z jiné skladby.
Bohužel toto nelze použít na požadavek autora.

Ondřej dj-bobr Úlehla · « **Odpověď #12 kdy:** 23. 06. 2023, 12:39:44 »

Toto bude potíž, oddělit od sebe hlasy. Doteď jsem nezaznamenal, že by se to někomu povedlo..
Hlas od zbytku hudby už docela dobře jde - hledejte technologii "spleeter", jsou i online separátory.

Jigdo · « **Odpověď #13 kdy:** 23. 06. 2023, 14:19:39 »

Takze jsem to audio oddelil od videa s MP4Box a vysledny *_track2.aac narval do Audacity (zapnul Multi-view/Waveform a Spectrogram) a vypada to ze je to Stereo ....

Zapomnel jsem poznamenat ze se take nejedna o mluvene slovo ale zpev (a to dedi ....)

Jigdo · « **Odpověď #14 kdy:** 23. 06. 2023, 14:38:08 »

Prvnich 45minut delaji zadarmo 90% uspesnost

https://www.rev.com/blog/transcription-blog/what-is-speaker-diarization

https://www.rev.com/checkout/automated-transcription-files

Extrakce individuální hlasové stopy z videa

Jigdo

Extrakce individuální hlasové stopy z videa

Reklama

jjrsk

Re:Extrakce individualni hlasove stopy z videa

𝑾𝑰𝑭𝑻

Re:Extrakce individuální hlasové stopy z videa

honzako

Re:Extrakce individuální hlasové stopy z videa

jjrsk

Re:Extrakce individuální hlasové stopy z videa

Reklama

redustin

Re:Extrakce individuální hlasové stopy z videa

pkdvorak

Re:Extrakce individuální hlasové stopy z videa

alex6bbc

Re:Extrakce individuální hlasové stopy z videa

redustin

Re:Extrakce individuální hlasové stopy z videa

_Jenda

Re:Extrakce individuální hlasové stopy z videa

𝑾𝑰𝑭𝑻

Re:Extrakce individuální hlasové stopy z videa

Michal ...

Re:Extrakce individuální hlasové stopy z videa

Ondřej dj-bobr Úlehla

Re:Extrakce individuální hlasové stopy z videa

Jigdo

Re:Extrakce individuální hlasové stopy z videa

Jigdo

Re:Extrakce individuální hlasové stopy z videa