Avant de définir le problème du temps de calcul et de la puissance requise, il faut déjà mettre en équation. Et je pense que là est le problème. En effet, comment distinguer une voix d'un instrument ? Nous arrivons à le faire car nous avions appris à nous voir adressé des mots, mais dès que le chant est réduit à une voyelle prolongée, cela se rapproche des instruments, et réciproquement, un synthétiseur avec formants tend vers la voix (au moins dans le principe). Et il faut faire la part des choses... non pas sous la forme OUI/NON (ce qui présente déjà une difficulté), mais sous la forme d'un aiguillage d'une voix d'un côté et de(s) instrument(s) de l'autre.
Naïvement, je me pose la question de la capacité des réseaux neuronaux, mais 1/ la qualité dépend de l'apprentissage, 2/ le problème est plus complexe que de reconnaitre des caractères (choix d'une lettre parmi 26), car il faut trouver un % de voix / % instrument afin de filtrer au juste niveau.
ET le 3/ implémenter le tout sur une puce... mais commençons par la mise en équation.
NB: Les chanteurs qui chantent juste verront leur partiels coïncider avec les instruments, donc, même partiels par partiel, cela ne sera pas une question OUI/NON.
NB: Pour pas mal d'usages, on ne découvre pas le CD dont on souhaite enlever la voix juste avant de devoir jouer avec. Lorsque j'ai lancé une conversion AAC->MP3 pour mon autoriadio, cela ne m'a pas dérangé que cela prenne une partie de la nuit (pour la bibliothèque entière). Là, si on prend quelques heures pour traiter correctement un titre, cela offrira déjà un bon service.
NB : on trouve des tuto où il suffirait de faire la différence droite-gauche, mais évidemment, cela impose un panoramique neutre pour la voix et décentré pour le reste, une absence de distorsion impactant la voix, etc.