Whisper AI

Alors, pour commencer je vais vous expliquer pourquoi j’ai eu besoin d’une intelligence artificielle aussi spécifique que Whisper AI.

C’est une intelligence artificielle développée par Open AI connu de tous pour ChatGPT.

Dans mon travail j’avais une problématique, j’avais besoin de retranscrire des fichiers audio assez long. La tâche était longue et ennuyeuse.

J’ai donc cherché une solution pour palier au problème, mais je n’ai pas trouvé immédiatement.

J’ai cherché du côté des logiciels pouvant faire des sous-titres comme premier pro.

Le résultat était très mauvais et il y avait plus de choses à jeter qu’à garder.

Par la suite j’ai commencé à me dire est ce qu’il n’y a pas une IA qui pourrait faire la même chose, sachant que l’IA pourrait comprendre les phrases au lieu de me lancer un charabia comme un logiciel classique.

J’ai trouvé Whisper AI.

Alors, vous pouvez utiliser le CPU ou le GPU de votre machine pour lancer Whisper, à noter que le CPU est vraiment très lent.

Pour le lancer avec un GPU il vous faut impérativement une carte NVIDIA. J’ai fait des recherches pour les cartes AMD je n’ai rien trouvé.

Pour l’installation de whisper je ne vais pas vous vendre du rêve je me suis servi d’un autre TUTO, mais parmi tous ceux que j’ai regardé celui-ci est le plus compréhensible malgré qu’il soit en Anglais.

Alors, il y a deux tutoriels de cette personne, mais dans celui-ci il a créé un script facilitant vachement la tâche.Je ne sais pas quand vous regarderez le TUTO, donc si la vidéo n’est plus disponible la commande à lancer dans powershell est la suivante :

iex (irm whisper.tc.ht)

Si le script n’est plus disponible je vous le met ici :

whisper.ps1 Télécharger

refreshenv.ps1 Télécharger

Après l’installation du fichier la commande pour lancer la transcription de l’audio est la suivante :

whisper nomdufichier.mp3

Lancer la commande avec le CMD

Pour éviter de vous embêter à taper la commande, j’ai créé une app en python avec une interface graphique.

Télécharger

Le .exe pour lancer l’application se trouve dans le dossier dist.

Vous pouvez retrouver le projet sur GITHUB

GitHub

Par défaut mon script est basé sur le français et il vous donnera seulement un fichier txt.

Vous pouvez modifier dans le script la sortie que vous souhaitez, la langue et également la destination du fichier.

A la fin du script le fichier txt de la transcription audio se trouve dans les téléchargements.

De même dans mon script je n’ai pas spécifié la taille de l’IA donc par défaut il utilise la médium.

Laisser un commentaire Annuler la réponse