Fórum Root.cz
Hlavní témata => Software => Téma založeno: Jigdo 20. 06. 2023, 16:47:07
-
Napada nekoho jak by se dalo z video nahravky (mp4 kontejner/AAC LC - 256 kb/s - 2 channels - 48.0 kHz), ve kterem je 12 ucastniku,
kteri v prubehu necele minuty mluvi vsichni najednou vytahnout "jen" zvukova stopa jendoho z ucastniku toho videa?
Jestli to teda neni otazka pro namorni vysetrovaci sluzbu...
Asi prvni step bude vytazeni te audio nahravky z mp4, coz treba MP4Box zvladne, ale cim a jestli potom pujde vytahnout audio stopu specifickeho ucastnika?....
-
Kachna praskla ze to de https://oxfordwaveresearch.com/products/cleaver/ Predpokladam, ze takovych veci bude vic.
-
Mno, rozhodně bych se divil i ušima, kdyby na to byl nějaký „free softík“. To je imho skoro úloha pro AI, tuhle jsem zaznamenal zprávu, že Beatles budou mít skladbu dělanou s pomocí AI (https://www.bbc.com/news/entertainment-arts-65881813) ve smyslu, že měli nějakou starou nedodělanou skladbu z kazety a byl tam zpěv a kytara, AI řekli, co je zpěv a co je kytara a „teď z toho vyhoď tu kytaru“ - a bylo. Čili velice podobná úloha: tohle je jeden speaker, tohle druhý, tohle x-tý a vyseparuj mi čtvrtého.
Imho nic pro takové to domácí editování. Ale rád bych se pletl, protože to by se mi taky moc líbilo :).
-
Nemáš šanci.
Žádný takový software není. Máš to nahraný jako mono, a možná třeba i jako stereo, ale prostě je to mix.
Ale určitě to umí NSA apod. společnosti.
Na AI bych nespoléhal, alespoň tak že by to dala bez nějaké přípravy a učení konkrétních vzorků.
Až to budeš příště chtít oddělit tak mu dej klopový mikrofon a zaznamenej si to jako samostatnou stopu. Pro tu skupinu 12 lidí (samostatných 12 audio stop, ale to by chtělo i nějaké ruchové mikrofony apod.) to vyjde na cca. 50-70 tis. vč. rekordérů v amatérském provedení.
-
Chjo ... pro tu blabolis nesmysly, kdyz sem hned v prnim postu odkazal na soft, ktery je primo pro to urcen ...
A takovych jsou desitky.
Navic je to pormerne primitivni uloha i kdyby si to dotycny chtel delat sam, jen musi trochu neco vedet o zachazeni se zvukem. Uplne bez problemu se to da udelat rucne, specielne pokud toho zaznamu je jen minuta. Odfiltrovat ze zvukovyho zaznamu nezadany komponenty umi kazdy soft pro praci se zvukem. Jen to bude pracny, a tudiz pri prepoctu na penize drahy.
-
... hned v prnim postu odkazal na soft, ktery je primo pro to urcen ...
Možná jsem to blbě pochopil, ale není ten soft určený "pouze" k rozsekání vstupního audia na jednotlivé hlasy? Nepochopil jsem, jak řeší současné mluvení více účastníků. V paperu zmiňují "The most challenging problem we have encountered is that of over-talking between speakers", ale v obrázcích nikde žádný takový případ nebyl.
Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky. Ale rozdělení současně mluvících hlasů mi nepřijde úplně jednoduché...
-
Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky.
Asi je to trošku off-topics, ale co to je za aplikaci?
-
tipnul bych, ze fourier a wevelety by mohly vytahnout pozadovane frekvence.
-
Asi je to trošku off-topics, ale co to je za aplikaci?
Název přesně nevím, ale určitě některá z https://videoconverter.wondershare.com/vocal-remover/vocal-remover-app.html
-
Rozhodně to nějak půjde, žena běžně používá mobilní appku na velice kvalitní rozdělení hudebního podkladu a zpěvu z písničky.
Tohle se prý dělá jednoduše s využitím stereo kanálů, protože u hudby bývá zpěvák stejně intenzivně v obou kanálech, zatímco nástroje jsou asymetricky. Takže „stačí“ vytáhnout to co je v obou kanálech stejné a to co je rozdílné. Případně hudba bude mít jinou frekvenční signaturu než slovo.
Oproti tomu více mluvících lidí přes sebe bude mnohem větší oříšek.
-
Tohle se prý dělá jednoduše s využitím stereo kanálů, protože u hudby bývá zpěvák stejně intenzivně v obou kanálech, zatímco nástroje jsou asymetricky. Takže „stačí“ vytáhnout to co je v obou kanálech stejné a to co je rozdílné.
Software, který popisujete, je matematicky úplně primitivní. Vezmete kanál A a necháte ho tak, jak je. Vezmete kanál B a převrátíte ho kolem středové osy. Pak ty kanály "sečtete" (prolnete). Výsledkem je rozdíl ve zvuku mezi oběma kanály, takže přesně jak říkáte: hlas z toho zmizí a zůstane hudba, akorát to dostane takový trochu „surround“ efekt. Takže takových aplikací budou mraky (sám jsem si v dřevních dobách DOSu a Turbo Pascalu takovou udělal) a jsou velice nenáročné na výpočet, protože nic složitého nepočítají.
Potíž tohohle principu je, že obráceně to nejde - nejde z toho zvuku touto cestou vytáhnout to, co je pro oba kanály společné.
A samozřejmě to nelze použít na situaci původního tazatele v tomhle vlákně. To chce prostě docela neprimitivní soft na analýzu obsahu zvuku a identifikaci jednotlivých částí, ještě tak nejjednodušší je to na frekvenční bázi, takže s tím jde poměrně úspěšně dělat např. takové věci jako odstranění šumu z nahrávky z gramofonové desky, odstranění různých relativně konstantních zvuků pozadí (ideálně za situace, že v tom zvuku je samostatně kousek toho, co chcete vyházet, aby si to mělo na čem navzorkovat, co za zvuk požadujete vyhodit). Ale hlasy se mezi to nepočítají, protože to už je ze všech úhlů pohledu poměrně komplikovaný zvuk a ten software, co tu na něj odkazuje jjrsk, bych třeba osobně moc rád viděl v akci, protože bych se docela těšil na to, jak mi z výsledku spadne brada :).
-
Oddělování "zpěvu a hudby" je aktuálně in v DJingu.
Serato, Pioneer DJ i Denon DJ zavádí takzvané Steams (Drums, Vocal, Instrumental).
A funguje to docela dobře, teda hlavně na taneční muziku. Staré české hity a i rokové to už dává s chybama - úplně se to netrefí do "ořezu". Pak DJ může mixovat např. basovou složku jedné skladby se zpěvem (vokály) z jiné skladby.
Bohužel toto nelze použít na požadavek autora.
-
Toto bude potíž, oddělit od sebe hlasy. Doteď jsem nezaznamenal, že by se to někomu povedlo..
Hlas od zbytku hudby už docela dobře jde - hledejte technologii "spleeter", jsou i online separátory.
-
Takze jsem to audio oddelil od videa s MP4Box a vysledny *_track2.aac narval do Audacity (zapnul Multi-view/Waveform a Spectrogram) a vypada to ze je to Stereo ....
Zapomnel jsem poznamenat ze se take nejedna o mluvene slovo ale zpev (a to dedi ....)
-
Prvnich 45minut delaji zadarmo 90% uspesnost
https://www.rev.com/blog/transcription-blog/what-is-speaker-diarization
https://www.rev.com/checkout/automated-transcription-files
-
Nemáš šanci.
Žádný takový software není. Máš to nahraný jako mono, a možná třeba i jako stereo, ale prostě je to mix.
Ale určitě to umí NSA apod. společnosti.
Na AI bych nespoléhal, alespoň tak že by to dala bez nějaké přípravy a učení konkrétních vzorků.
GitHub ma nekolik projektu, ale bude to casove narocne :(
https://github.com/topics/speaker-diarization
Zkusim kontakt na Eddu, treba bude vedet ;)
-
Koukal jsem na tu appku pro oddělení vokálů. Je to moises, což je v podstatě frontend pro https://github.com/deezer/spleeter . Zvládá rozdělit tracky nástojů, i třeba kytara či klávesy vytažené z písničky nebyly úplně špatné.
Ovšem dva hlasy přes sebe je dle mého názoru ještě náročnější. Ale všechno je to jenom o natrénování toho modelu, asi není důvod, aby to nefungovalo.
-
Za Kovidu jsem nahrával přednášky a workshopy. Pak jsem to upravoval, abych to zveřejnil.
Protože byly mezi mluvčími dost velké rozdíly v kvalitě (hlasitost, šum, ...) tak jsem to ještě upravoval.
Přehodil jsem si audiostopu do Audacity, prohnal to pár čištěními a v některých případech jsem to procházel, ručně vybíral a upravoval úseky některých mluvčích.
Naštěstí nemluvili přes sebe.
Na takovou 2 hodinovou přednášku to s postprocesingem zabralo klidně i další 4 hodiny práce, a to jsem řešil jen to nejnutnější. (Není se co divit, že raději učím na živo.)
-
Myslím, že nemáš šanci (kromě AI, která by to mohla umět . někdy), 12 lidí, nahráno sice na stereo, ale tak jak ty lidi byly fláknuti na místa.
Něco popsal WIFT. To oddělení spoléhá na to, že jde o stereo mixovanou/mástrovanou hudební klip, kde obvykle hlas je na obou kanálech identický, zatímco instrumenty aranžovány (způsoby: fázový posun mezi kanály, časové zpoždění, poměr hlasitostí kanálů) pro dosažení desired vyznění hudby.
S těmi uvedenými způsoby si softy celkem běžně poradí. Je to vlastně primitivní lineární kombinování, když tam jsou složky ve fázi (mono hlas duplikovaný do dvou kanálů)v tom nejjednoduším případě, kdy tam třeba ty parametry jsou konstantní.
"AI" (machine learning, není problém ji natrénovat na vstup:výstup, kdy se ji předhodí hotové treky a rozpracované stopy přes mixem) si myslím, že už něco takového je možné, akorát asi ne pro smrtelníky
-
Z duvodu nedostatku casu, jsem to odlozil na vedlejsi kolej.
Az bude vice casu/horsi pocasi pokusim se k tomu vratit.