Myslím, že nemáš šanci (kromě AI, která by to mohla umět . někdy), 12 lidí, nahráno sice na stereo, ale tak jak ty lidi byly fláknuti na místa.
Něco popsal WIFT. To oddělení spoléhá na to, že jde o stereo mixovanou/mástrovanou hudební klip, kde obvykle hlas je na obou kanálech identický, zatímco instrumenty aranžovány (způsoby: fázový posun mezi kanály, časové zpoždění, poměr hlasitostí kanálů) pro dosažení desired vyznění hudby.
S těmi uvedenými způsoby si softy celkem běžně poradí. Je to vlastně primitivní lineární kombinování, když tam jsou složky ve fázi (mono hlas duplikovaný do dvou kanálů)v tom nejjednoduším případě, kdy tam třeba ty parametry jsou konstantní.
"AI" (machine learning, není problém ji natrénovat na vstup:výstup, kdy se ji předhodí hotové treky a rozpracované stopy přes mixem) si myslím, že už něco takového je možné, akorát asi ne pro smrtelníky