module inscription newsletter haut de page forum mobile

Ateliers et Formations

Recherche logiciel IA "deepfake" très spécifique

Discussion dans 'IA - les nouveaux outils audiovisuels' créé par Lock2, 11 Mars 2026.

Tags:
  1. Lock2

    Points Repaire:
    1 200
    Recos reçues:
    2
    Messages:
    190
    Appréciations:
    +0 / 1 / -0
    Bonjour,

    Ce que je vais demander, je ne sais même pas si ça existe: J'ai besoin d'un LOGICIEL (et non-pas d'une IA qui travail en ligne) orienté IA sur un plan "créatif/artistique visuel".

    L'idée: je me suis fais filmer sous différents angles sur des séquences entre 10 à 15 secondes chacune où je simule à chaque fois la même chose. C'est à dire qu'on me voit (quelques soient les types d'angles) debout entrain de surélever légèrement mes deux avant bras avec les mains ouvertes, et où je fais mine d'imiter des chœurs avec ma bouche, le tout avec un mouvement de la tête qui "regarde vers le ciel" dans l'idée; bien que le tout a été filmé dans le salon d'un appartement.

    Pour les besoin du passage d'un mix que j'ai fait il y un bout de temps, je vais avoir nécessité d'avoir recours à l'IA pour que dans les 1:35 de temps de chœurs dans la totalité du mixage, je puisse ressembler à n'importe quelles ethnies (ou "races" si vous préférez) que peut constituer notre humanité. Mais attention sur ce point, je ne veux pas du "Deepfake de base" même si c'est réaliste (et ça doit l'être d'ailleurs !) car je ne souhaite pas seulement changer la couleur de peau de mon visage et tout ce qui est relatif à la chaire, de cheveux et de type de visage qui doit changer, mais également la façon dont je suis habillé.


    Par exemple j'aimerai pouvoir transférer quelques unes de mes vidéos pour en faire une vidéo définitive (video to video quoi) où au rendu je puisse par exemple ressembler en tout point à un hindou d'Indes, tant au niveau du type de visage que de l'accoutrement. Pour faire la transition entre les deux qu'importe que ce soit à coups de prompt ou d'une image illustratrice d'un indien d'Indes tant que le résultat est réaliste. Il faut savoir que je devrais répéter autant de fois la même opération pour représenter un maximum d'ethnies dans le monde; le tout pour mener à bien tout un montage video à faire sur ce mix qui doit comporter au cumule - et pour rappel - tout de même 1 minute et 35 secondes d'IA concernant mon apparence.

    Je tiens à trouver cela sous forme d'une licence payante (j'imagine... vue l'ampleur du truc) par le biais d'un logiciel compatible Windows 11, et non pas comme je le disais plus haut sous forme de plateformes sur des sites d'IA (sauf si c'est gratuit dans ce cas de figure).

    Peut-être que faire un tel pseudo-deepfake en mode video vers video, avec un rendu probant et réaliste et en plus par le biais d'un véritable software PC, c'est peut-être un peu trop demandé, mais dans le cas où un tel logiciel pouvant subvenir à mes besoins existerait pour de vrai, j'ai rien contre pour connaître son nom au moins, voir me donner aussi quelques précisions.


    PS: Pour les curieux, le contexte de mon projet est le suivant:

    J'ai fait un "edit/mix" d'une chanson célèbre d'Eros Ramazzotti nommé «Musica è» plus connue dans sa version en duet avec Andrea Bocelli (celle que j'ai utilisé) et qui fait pas loin de 10min !

    J'en ai fait une version qui tient en 06:24 avec des cuts et jonctions au petit poil du cul, c'est à dire inaudible et tant mieux.

    Les chœurs en forme de «ohh ohhhhh oh ohhhhhhhhhh ohhhh oh oh» est un loops qui monte en intensité dans les chœurs sans voix d'Eros et Andrea à ce moment là.

    Le faite de vouloir voir toutes les ethnies "globale" représentant l'humanité sur cette partie de 1:35 dans le montage final, est en lien direct avec le reste:

    C'est-à-dire le sens des paroles de cette chanson composée et écrite par Eros Ramazzotti qui se veut comme un hymne UNIVERSEL à la musique.


    Merci par avance et au plaisir de vous lire :)
     
  2. Pierre_F

    So

    Points Repaire:
    7 575
    Recos reçues:
    29
    Messages:
    598
    Appréciations:
    +76 / 289 / -0
    En fait cela ressemble beaucoup à du morphing ta demande ...
    A mon avis :

    Morphing artistique / cinéma ComfyUI + Flux / Stable Diffusion
    Morphing visage Picsi AI / InsightFace
    Morphing simple Pixelfox / Pixelcut
    Transformation visage FaceApp
     
    • Je recommande ! Je recommande ! x 1
  3. giroudf

    So

    Points Repaire:
    15 400
    Recos reçues:
    559
    Messages:
    20 164
    Appréciations:
    +885 / 4 003 / -37
    je crois que tu peux oublier la version "petit programme sur mon PC", parce que ce genre de boulot demande une puissance de calcul non negligeable, surtout si tu veux le faire dans une résolution acceptable.
    il faut une excellent carte Nvidia (une 5090 dans l'ideal), pas mal de RAM et un processeur recent.
    Ensuite il n'y a pas d'interface simple, il faut passer par un truc comme COMFYUI, qui est une énorme usine a gaz.

    Par contre, il existe des tripotées de sites qui proposent ca, et tout offrent en general quelques minutes gratuites, donc c'est pas un problème.

    Si tu veux absolument aller en local, il y a bien ca, limité a du 1280x720


    ou Beeble studio qui s'installe en local, mais c'est pas gratuit. Par contre c'est facile a utiliser.

    A ta place j'essaierai Kling
    Il y a pas mal de site de vidéo IA qui coutent pas cher (entre 20 et 50 euros par mois) et ce serait bien malheureux si tu y arrive pas en 1 mois.
    L'interet c'est que tu peux generer des résolution jusqu'a 4K, et que le rendu est bien meilleur (pour autant que ton prompt et tes sources soient bonnes)

    La bonne méthode pour faire ca , c'est de filmer en bonne qualité la personne a transformer , en train de faire les gestes requis. Il faut que ca soit propre (fond uni si possible ) en evitant les flous de mouvement si il y a des mouvements rapides (plus de lumière et un shutter un peu plus élevé).

    Ensuite , on prend le premiere image de cette video et on va dans une IA pour generer la photo transformée. Ca permet de trouver assez rapidement ce qu'on veut (costume, couleur peau, décors).
    Pour générer des images en local, il y a stable-diffusion en version A1111 qui est très simple a installer (2 ou 3 clicks), mais ca ne dispense pas d'avoir une machine de course.
    Perso je tourne avec une 3090, et il ne faut que quelques secondes pour génerer une image.

    Ensuite on va dans le soft de video IA, on utilise l'image pour donner la transformation a faire et la video pour le mouvement, Il ya des subtilité comme donner l'image de fin plutot que de début, ou donner une image de début et de fin , tout depend si on doit etre raccord avec la video précédente et suivante.
    Pour le prompt, il suffit juste de décrire l'image de départ et le mouvement a faire.
     
    #3 giroudf, 11 Mars 2026
    Dernière édition: 11 Mars 2026
    • Merci Merci x 1
    • J'aime J'aime x 1
  4. giroudf

    So

    Points Repaire:
    15 400
    Recos reçues:
    559
    Messages:
    20 164
    Appréciations:
    +885 / 4 003 / -37
    on sera curieux de voir le résultat
     
  5. Lock2

    Points Repaire:
    1 200
    Recos reçues:
    2
    Messages:
    190
    Appréciations:
    +0 / 1 / -0
    Bonjour guroudf,

    "COMFYUI", mise à part Pierre_F qui en a fait également mention (mais plus dans le détail), j'en ai déjà entendu parlé en postant strictement le même pavé en guise de publication ici, mais cette fois-ci sur un site/forum de gaming. Un membre m'a fait un copier/coller de toutes les manips qu'il faut faire pour obtenir un visuel concret sur Windows et en faire usage. Sans pour autant avoir vu à quoi ça ressemble, rien que le coté «usine à gaz» (pour te citer) ne serait-ce qu'en rapport avec l'objet de l'instal au cumule de cet outil m'a donné tellement mal au crâne que j'ai choisi de renoncer à cette idée. Et à juste titre me semble-t'il à la vue de ce que tu en dis à par rapport à ma faible expérience surtout qu'en il s'agit de mettre en place "un logiciel" (en guillemets) en passant par une myriade de manipulation principalement orienté codage avant échéance.
    Bref, on oublie cette solution, pour moi en tout cas.

    Avant de poursuivre, il serait bon que je fasse part de ma config histoire que tu ai meilleur visibilité pour la suite de cet échange:

    Je suis sur une tour moyenne (mais bien ventilé) Lenovo: Legion. Niveau proc je ne pense pas dire de bêtises en disant qu'on doit être dans le bon: Intel i7 de dernière ou avant-dernière génération. Pour la carte graphique: Nvidia RTX 4080 SUPER. Ram: 32Go DDR5. Le tout sur Windows 11 à jour avec comme seul moyen de stockage qui ne me sert qu'à "travailler" (ou plutôt assouvir ma passion) et à faire de la sauvegarde: 1TO SSD bien dans le speed. Et voilà.


    Ça va être long mais je vais commenter chaque proposition que tu m'as apporté:

    Pour commencer - et par ordre chronologique - j'aimerai aborder l'outil (où le nom n'est pas explicite pour un non-anglophone comme moi) dans la vidéo tuto que tu as gentiment partagé. Celle où tu confirme qu'en sorti la limite imposée est de 1280x720. Sur ce dernier aspect cela ne me dérange guère dans la mesure où je connais un ami sympa qui possède une licence de Topaz Video pour obtenir un upscal de chaque petites séquences vers du 1920x1080; définition qui sera d'ailleurs mon choix en sorti concernant l'ensemble du montage vidéo et non-pas seulement que pour la partie IA.
    J'ai deux (voir trois) problèmes concernant cet outil.

    Premièrement, visuellement parlant rien ne m'indique que c'est complètement gratuit, même si ça doit être évoqué en anglais dans la vidéo. Mais tu l'auras compris, l'anglais et moi À L'ORAL ça fait deux.

    Deuxièmement, et après avoir visionné la vidéo YouTube deux fois, il n'y a qu'un seul (court) passage qui correspond parfaitement à ce que je recherche, mais avec un grand "Mais" tout de même. Ça se situe de 0:27 à 0:31.
    On peut y voir effectivement dans l'ensemble de la fenêtre de l'outil, à gauche, une image FIXE (d'où mon "Mais") représentent deux acteurs entrains de simuler une scène de combat d'art-maritaux, et effectivement sur la partie de droite on peut constater - et le tout en mouvement - les acteurs source en image fixe - être complètement transformés de la tête au pieds.
    Mais justement, le problème sur cette partie de ce tuto vidéo c'est qu'il ne s'agit pas de "video to video". Cette partie fait vraisemblablement pensé à ton dernier paragraphe d'ailleurs. Et tu serais peut-être tenté de me rétorquer un truc du genre: "Quelle importance, si le résultat recherché est le même". Et d'ailleurs sur le principe je n'ai aucun problème avec ça.

    Sauf que - et sauf erreur de ma part - mettre une image fixe en début ou fin de la séquence (qu'importe) + l'usage d'un prompt à qui il va falloir faire comprendre que les lèvres des différentes ethnies représentés doivent scrupuleusement faire mine de faire des «ohh ohhhhh oh ohhhhhhhhhh ohhhh oh oh» et le tout avec un tempo bien donné; et bien je pense pouvoir affirmer sans trop me tromper que n'importe quels prompt ne sera pas en mesure de comprendre un truc pareil.

    D'où dans mon cas la nécessité absolu de faire du video to video, que je n'ai pas vu dans le tuto YouTube. Il y a bien une option nommé «Continue video» à gauche de l'arborescence de cet outil et peu être potentiellement du video to video. Mais je ne peux en avoir aucune certitude vue que celui qui fait le tuto ne test à aucun moment cette fonction. Aurais-tu une info là-dessus tout en me confirmant oui ou non de la gratuité de cette outil stp ?


    Concernant Beeble Studio, comme tu le laisse sous-entendre c'est pas donné du tout en effet. Le tarif/mois le moins cher est de 60$ ou 42$ par mois si on compte raquer pour un an !

    Après visite sur le site, oui ça a l'air simple d'utilisation même en anglais. Par contre j'ai un gros doute sur mon idée de "morphing" complète (pour reprendre l'expression de Pierre_F) dans la mesure où dans la section «SwitchX» du site - qui est bien du video to video - consiste plus à remplacer un fond sur le quel on est filmé de A à Z mais sans aucun exemple de montré un sujet (une personne) là aussi transformé de A à Z.
    Du coup, vue qu'avec Beeble Studio je suis pas sûr d'obtenir précisément ce que je veux + le tarif salé pour une version («Indie») forcément incomplète du soft à par rapport à d'autres offres plus chers encore; je pense que je vais oublier celui-ci.

    Concernant l'IA en ligne «Kling» que tu me propose, en effet sur le papier le rapport qualité/prix sur un mois apparaît intéressant. Et oui au passage je serais en mesure de traiter toutes mes mini-séquences en l'espace d'un mois, sous condition qu'elles soient toutes filmés au préalable avant de faire chauffer la CB ;)

    Mais là aussi je suis face à un problème de taille. Après inscription gratuite sur Kling, sauf erreur de ma part, ils n'ont pas l'air de faire du "full" video to video. Voir: n'a pas l'air de géré les vidéos tout court (en tout cas en version essai), puisque j'ai pu avoir la possibilité d'accéder - sur mon iPhone je précise quand-même - à ma "photothèque" (application dans laquelle j'ai pas mal de vidéos courtes au formats mp4 et mov) et "Fichier", mais je ne pouvais transférer que des images/photos. Étrange...
    Aurais-tu une explication stp ?

    En tout cas merci par avance pour ta grande contribution et tes sages conseils, ici-même comme sur l'ensemble du forum où tu ai à la fois tout aussi très actif qu'efficace :)


    En toute sincérité.

    PS: Si à la suite de ta réponse, rien ne semblerait être à ma portée pour me transformer complètement, je partirais dans ce cas de figure sur un plan B à coup de Deepfake plus conventionnel: changement total et réaliste du visage et des cheveux.
    Plus d'explication là-dessus en fonction de ta réponse.
     
  6. giroudf

    So

    Points Repaire:
    15 400
    Recos reçues:
    559
    Messages:
    20 164
    Appréciations:
    +885 / 4 003 / -37
    l'interface de kling est un peu confuse parce qu'elle couvre plusieurs secteurs.
    Du coup il faut choisir le bon.
    Si tu cherches l'inspiration et quelques trucs, je ne peux que te conseiller d'aller voir la chaine de TAO PROMPTS, qui explore quasi tous les moteurs de générération video, pour toutes sortes d'usages , dont le tiens.
    En théorie, KLING devrait facilement suivre tous les mouvements de visage, donc si ta video contient les informations, tu devrait pouvoir passer d'un indien a turban a un coreen a chapeau sans probleme, avec chaque fois le meme visage (aux traits ethniques particuliers près).
    C'est sure que l'usage de l'anglais est un plus dans ce domaine, mais tu il y a des outils de traduction, donc tu dois pouvoir écrire tes prompts en francais et les faire traduire avec une bonne précision.
     
  7. giroudf

    So

    Points Repaire:
    15 400
    Recos reçues:
    559
    Messages:
    20 164
    Appréciations:
    +885 / 4 003 / -37
    dans Kling, tu arrives sur une page d'accueil ou il faut cliquer sur "Create now" puis tu arrives dans une page avec un menu vertical a gauche .
    si dans le menu vertical tu cliques sur "Omni" , tu obtiens un menu horizontal en bas,
    ou tu peux cliquer le + pour ajouter une image ou une video, en ayant pris soin de selectionner "video generation".

    upload_2026-3-13_21-57-55.png

    une autre methode est de cliquer dans le menu vertical sur "generate" qui te donne d'autres options de creation. Dans ce cas tu selectionnes Video generation en haut, ou tu peux ajouter une image de depart et de fin, et ajouter la video de mouvement dans "motion control"
    upload_2026-3-13_22-2-50.png
     
  8. giroudf

    So

    Points Repaire:
    15 400
    Recos reçues:
    559
    Messages:
    20 164
    Appréciations:
    +885 / 4 003 / -37
    faut bien aussi comprendre que ce genre d'outil n'est qu'un outil.
    C'est toi qui fait le boulot, donc il faut creer tous les éléments et si tu veux faire un morphing entre les differents personnages, il faut creer aussi les segments de video en question en utilisant la derniere image du clip precedent et la premiere image du clip suivant avec un prompt du genre "short transformation of a character to another" en specifiant une durée de video assez courte (1 sec ?).
    Docn si tu veux que ca soit fluide, il faut decouper la video originale de reference de mouvement en segments correspondant a "personnage1( 4 sec) ", "transition de p1 a p2 (1 sec )" , "personnage2 (4 sec)" , "transition de p2 a p3 (1 sec)" ......etc,...
    Pour chaque segment, il faudra avoir l'image de départ et l'image de fin, donc créer les séquences personnages avant les transitions.
    Pour creer les sequences personnages, il faudra au moins la premiere image definissant le personnage complet. (on peut creer des images dans kling).
     
    • Merci Merci x 1
  9. Lock2

    Points Repaire:
    1 200
    Recos reçues:
    2
    Messages:
    190
    Appréciations:
    +0 / 1 / -0
    Le pépin dès que je me connecte en mode "essai" je n'ai rien de se que tu présentes sur ta capture d'écran sur Kling et rien sur la page d'accueil intitulé «Created Now». Je suppose qu'il faut déjà régler à l'avance (à l'aveugle) avant de pouvoir obtenir l'arborescence et les fonctions proposés sur ta capture d'écran.

    Pour ma part une fois connecté pour faire un essai avant de passer à la caisse, j'ai le droit ça:

    IMG_0326.png

    (Capture d'écran prise par le biais d'un portable)
    Erreur de ma part ? Une étape que j'aurais loupé ? Ou est-ce que comme j'ai l'air de le pensé (peut-être à tord...) il faut déjà payer pour testé pleinement la fonction qui m'intéresse ici ?

    Bien le merci d'avance pour le suivi et bonne soirée.
     
  10. giroudf

    So

    Points Repaire:
    15 400
    Recos reçues:
    559
    Messages:
    20 164
    Appréciations:
    +885 / 4 003 / -37
    photo de depart (une coréenne)
    upload_2026-3-13_22-37-28.png

    prompt : an indian princess in ethnic costume

    resultat (une indienne)
    upload_2026-3-13_22-39-22.png

    La meme chose avec "a black africanprincess in ethnic costume"

    upload_2026-3-13_22-46-40.png

    Dans le prompt, tu choisis de specifier l'arrière plan (neutre si possible), ce qui te permet de le specifier plus tard dans la video.

    [​IMG]
     
    • Je recommande ! Je recommande ! x 1
    • J'aime J'aime x 1
  11. Pierre_F

    So

    Points Repaire:
    7 575
    Recos reçues:
    29
    Messages:
    598
    Appréciations:
    +76 / 289 / -0
  12. giroudf

    So

    Points Repaire:
    15 400
    Recos reçues:
    559
    Messages:
    20 164
    Appréciations:
    +885 / 4 003 / -37
    tu es sure que tu es sur klingai.com ? et pas sur un autre site ?

    De toute facon, commence par le commencement.
    Tourne ta video de mouvement sur fond uni, avec le bon zoom (si on veut voir la bouche, faut quand meme pas filmer de trop loin).
    Ensuite decoupe tout ca en séquence pour chaque personage , sans oublier les séquence de transition.
    chaque séquence tu l'appelle P1(asia), p2(africa), p3(nordic) etc...
    et chaque transition tu l'appelle P1-P2 , P2-P3 etc...
    tu commences par génerer toutes les images de personnage a partir de la premiere image de chaque sequence de personnage. (l'asiatique, l'african, le nordic, l'indonésien etc...)
    puis tu géneres chaque sequence a partir de la photo crée comme premiere image (pour donner le style) et la video correspondant (pour le mouvement)
    Quand tu as toues tes séquences, tu pourra creer les sequences de transition en prenant la derniere image d'une sequence et la premiere image de la sequence suivante.
    Apres tu colles tout ca ensemble et voila
     
    #12 giroudf, 13 Mars 2026, à 22:51
    Dernière édition: 13 Mars 2026, à 23:07
    • Je recommande ! Je recommande ! x 1
  13. nestaphe

    So

    Points Repaire:
    13 225
    Recos reçues:
    281
    Messages:
    2 205
    Appréciations:
    +228 / 1 698 / -7
    L'une vitrifiée, l'autre en plastoc ! :mdr: Vivement l'arrière plan... :D

    Guroudf ? Gouroudf... :D Non, ici, c'est juste @giroudf.

    Je le serai aussi.
     
  14. giroudf

    So

    Points Repaire:
    15 400
    Recos reçues:
    559
    Messages:
    20 164
    Appréciations:
    +885 / 4 003 / -37
    il est evident que le look plastique est la conséquence d'un prompt approximatif, voir feignant.
    Comme je l'ai dit, l'IA n'est ici qu'un outil, le résultat ne dépend que de ton effort, aussi bien dans la precision que la qualité. J'aurais pu affiner le prompt avec des mots comme "realistic skin"
    Ca peut entre autre justifier de choisir une IA plutot qu'une autre, chaque modèle ayant ses spécificité.
    Mais la c'est comme choisir un bon vin, il faut etre connaisseur.

    Voila par exemple avec "realistic skin", toujours pas convaincant.
    Peut-etre en jouant sur la lumiere. Quoique en video, pas sure qu'on ait le temps de voir.
    Mais la faut aller sur Beeble.
    upload_2026-3-13_23-16-19.png
     
    • J'aime J'aime x 1
  15. nestaphe

    So

    Points Repaire:
    13 225
    Recos reçues:
    281
    Messages:
    2 205
    Appréciations:
    +228 / 1 698 / -7
    Non, c'est comme bien des choses en ce monde, il suffit de goûter, et ta comparaison prête à confusion.
    Les "connaisseurs" en IA sont tous des débutants. Ceux qui se présentent comme connaisseurs... Hum... j'arrête là.
     
    #15 nestaphe, 13 Mars 2026, à 23:42
    Dernière édition: 14 Mars 2026, à 00:03
    • J'aime J'aime x 1
Chargement...

Partager cette page