Impact de l'intelligence artificielle dans la vidéo: applications, opportunités, emploi
L’intelligence artificielle commence à automatiser la chaîne de production vidéo sans que cela ne fasse les gros titres de la presse tech.
Le transcript automatique des textes d’une vidéo fait partie des applications de l’intelligence artificielle dont les performances ont fortement augmenté au cours des 5 dernières années. Vous pouvez le constater sur Youtube avec l’option de sous-titrage automatique qui nous aide parfois à comprendre ce qui se dit dans une vidéo en anglais.
Cette transcription est loin d’être exempte de défaut, mais elle « fait le job ».
Elle fait tellement le job que certains utilisent les logiciels de transcript pour créer des articles, diffusés ensuite sur le site web de l’éditeur, à partir du transcript de vidéos.
Mais c’est la partie émergée de l’iceberg.
Des systèmes permettent de filmer automatiquement des compétitions sportives
Détection automatique de scènes avec des algorithmes d'IA
Des systèmes qui combinent caméras intelligentes et logiciels de détections des « scènes », permettent de non seulement de filmer les actions de compétitions sportives, en suivant automatiquement l’endroit du terrain où se déroule l’action, mais aussi de détecter les highlights du match (les moments-clés) et de monter automatiquement soit l’entièreté du match, soit un best off des actions les plus importantes.
En France, l’entreprise Get Live propose ce type de service pour la retransmission des matchs de certaines ligues sportives en s’appuyant sur des logiciels d’IA fabriqués par l’israélien Pixellot, des caméras intelligentes et surtout des modèles de Deep learning mis au point par GetLive, l’équipe de Getlive, elle-même car pour chaque sport, une phase d’entrainement qui nécessite 1000 heures de vidéos de matchs est nécessaire, les actions propres à chaque sport devant être détectées par les modèles d’IA de façon sensiblement différente.
Pour l’instant ce type de système est destiné à produire les vidéos de matchs dont la production avec des méthodes classiques manuelles ne serait pas viable du point de vue économique et non à remplacer les professionnels qui effectuent les tâches équivalentes de façon manuelle.
Et, ce pour deux raisons : non seulement, pour le moment la qualité du rendu bien qu’honnête, n’est pas à la hauteur de ce que produisent les humains, mais aussi parce que techniquement là où les matchs les plus rentables du point de vue commercial sont filmés avec 30 ou 40 caméras, les matchs filmés/montés avec des systèmes hybrides à base d’IA, fonctionnent avec quelques caméras uniquement. Les angles, les gros plans, les moments clés ne sont pas aussi bien détectés et mis en valeur par les systèmes d’IA que par les systèmes humains. En outre, le recours à l’intelligence artificielle n’est pas toujours justifié par des considérations économiques : compte-tenu du montant des droits de retransmission des matches de certaines ligues, sont tellement élevés, que les économies permises par l’IA est marginal et ne fait donc pas de système du point de vue financier.
La viabilité économique des systèmes d'automatisation
Cette problématique d’arbitrage est d’ailleurs très révélatrice de la pertinence de l’usage de l’IA en général.
- L’IA permet-elle d’automatiser un process donné ?
- Si oui, à quel coût ?
- Pour quel niveau de qualité ? ou quelle concession sur le niveau de qualité ?
- Avec quelle espérance d’économie ou de gain marginal de chiffre d’affaires ?
- Compte-tenu du coût, de la qualité, de l’espérance de gain ou d’économie, le recours à l’IA est-il justifié ?
Speech to text: transcription automatique du contenu des émissions
D’autres algorithmes d’IA, permettent, chez France TV, par exemple de transcrire les textes de certaines émissions, avec plus ou moins de difficultés et plus ou moins de performances : les propos des émissions de débats animés dont les participants s’invectivent, se coupent la parole et utilisent un langue très libre s’affranchissant parfois des règles de la langue française, sont plus difficiles à retranscrire que ceux des interviews consensuelles d’un invité principale, composés de séquences avec des questions d’un journaliste, qui parle distinctement et des réponses de l’invité qui répond avec un langage châtié, structuré et le cas échéant, même des éléments de langage.
En fonction des différents cas de figures, France TV utilise des algorithmes disponibles sur le marché (pour retranscrire les émissions au langage châtié) ou développe ses propres modèles en interne (pour la retranscription des émissions dans lesquelles les intervenants s’expriment de façon familière ou peu structurée car elles mettent en échec les logiciels de retranscription du marché). On peut imaginer que pour créer ces modèles spécifiques, les équipes de France TV essaie de recourir au transfert learning (la réutilisation de briques de NLP déjà disponibles sur le marché, en open source ou pas, afin de ne pas repartir de zéro et de réinventer la roue).
France Télévision a également testé des technologies de transcription qui ne sont pas encore mures : l’intégration de sous-titres dans une autre langue que la langue d’origine de l’émission produit des résultats encore trop aléatoires pour qu’elle puisse être utilisé par un media professionnel (par exemple, le sous-titrage en russe d’une émission en Français).
Néanmoins, cette famille d’algorithmes évolue tellement rapidement actuellement qu’il est imaginable de parvenir à des résultats de qualité d’ici quelques années. Et de là, on peut imaginer de créer de nouveaux produits : une émission dans une langue donnée qui deviendrait accessible dans 100 pays différents. Mais on peut anticiper l’arrivée sur le marché français de programmes de l’autre bout de la planète : société de production russes, chinoises, sud coréennes, indiennes, libanaises…
Séquençage automatique d'émissions
D’autres algorithmes permettent de séquencer certains programmes de façon automatique, toujours dans l’objectif de permettent de localiser les séquences à l’intérieur de programmes donnés.
D’autres algorithmes d’IA permettent d’enrichir avec des métadonnées les rush vidéo des banques de vidéos des différentes unités de France TV. Les métadonnées sont des données souvent intégrées directement dans le fichier d’une vidéo : par exemple, les vidéos que nous prenons avec nos téléphones portables intègrent, par exemple, les coordonnées GPS, l’appareil qui a tourné la vidéo, le débit, la résolution… on peut ajouter aux métadonnées des sortes tags pour décrire les thématiques, les scènes, les personnes qui apparaissent dans la vidéo, des notes, le nom des ayants droits, le(s) producteur(s), l’éditeur….
Lorsque le patrimoine d’une entreprise d’audiovisuelle est composé de dizaines de milliers de vidéo (les actifs ou assets), l’indexation sur base de ces méta données permet d’identifier en un temps record les vidéos déjà disponibles pour réaliser une émission à condition que quelqu’un ait le temps de réaliser ce travail d’indexation de façon précise auparavant… quelqu’un ou quelque chose… car le temps nécessaire à l’indexation manuelle, là encore ne fait pas de sens du point de vue économique, voir est impossible dans des délais acceptables. Et c’est là que la contribution des algorithmes d’IA peut s’avérer, non seulement pertinente, mais également capitale, car sans ces algorithmes d’IA, l’indexation ne serait jamais réalisée.
L'indexation vidéo multimodale
Si l’on entre un peu plus profondément dans la problématique de l’indexation, on découvre qu’il existe des types d’indexation très spécifiques à la vidéo.
On parle d’indexation d’algorithmes d’indexation multimodale capable de détecter des sons, d’identifier des visages, de qualifier des scènes et évidemment de retranscrire les propos tenus. Cette approche dont les premiers travaux de recherche remontent à une vingtaine d’année s’est progressivement structurée et a gagné en performance.
Les algorithmes d'intelligence artificielle générative
C’est d’ailleurs, probablement l’amélioration des performances des algorithmes d’indexation automatique qui a permis d’indexer de façon automatique des centaines de milliers de vidéo au GAFAM et de mettre au point une nouvelle classe d’algorithmes : des algorithmes d’intelligence artificielle génératives, ceux qui génèrent des vidéos à partir de prompts utilisateur (la description par l’utilisateur de ce qu’il souhaite qui figure dans la vidéo). Google, Facebook (avec Make a vidéo).
Ces algorithmes sont entraînés à partir de l’analyse du contenu de dizaines/centaines de milliers de vidéos scrapées sur internet la plupart du temps et sont capables de générer de vidéos originales (simples et un peu naïves actuellement). En fait contrairement à ce que l’on peut penser les algorithmes d’IA générative actuels créent des vidéos uniques en fonction des paramètres (les mots-clés des prompts) et n’assemblent pas les morceaux de contenus qu’ils ont trouvé ici et là et qui correspondraient à la demande de l’utilisateur. Ils créent des productions à partir d’une interprétation algorithmique de la demande de l’internaute et en fonction de ce qu’ils ont compris des scènes indexées dans les vidéos d’entraînement.
Les algorithmes de génération automatique d'environnements en 3D
Facebook a même exploré une autre discipline proche : son algo « Build a bot » est un algorithme d’intelligence artificielle qui génère des mondes virtuels (en 3D). De là à imaginer des films d’animations, dans un premier temps, courts et avec des séquences simples, il n’y a qu’un pas. On peut imaginer que ce type d’algorithmes puissent être utilisé pour générer des vidéos tutorielles sur des sujets simples ou des vidéos publicitaires comme c’est le cas de GPT-3, le générateur de texte d’Open AI qui est capable de générer des accroches publicitaires textuelles pour Google Ads ou Facebook Ads.
La génération automatique de vidéos publicitaires
D’ailleurs, Tik Tok ads, plateforme publicitaire qui n’accepte que des publicitaires vidéos est l’un des pionniers du genre : il propose déjà un générateur de vidéos publicitaires (de faible qualité, actuellement) qui propose des vidéo « originales » à partir de textes et d’images chargé par le gestionnaire de campagne. Toutefois, peu d’annonceurs l’utilise actuellement, en raison de la faible qualité de ses productions.
Il est probable qu’il faille regarder du côté d’Open AI dont les algorithmes GPT-3 sorti fin 2019 et Dall-e sorti en 2021, ont commencé à révolutionner respectivement la génération de textes automatique et d’images. La prochaine étape logique serait qu’Open AI grâce à ses gigantesques moyens.
Automatisation de la distribution de vidéo
Côté distribution, des logiciels simples du point de vue technique, automatisent la distribution sur les différentes plateformes grand public (Youtube, Vimeo, TikTok, Linkedin…)
Toujours, côté grand public, de nombreux logiciels d’édition vidéo intègrent des versions plus ou moins avancées des différents dispositifs suscités, qui sont donc de plus en plus accessibles au plus grand nombre.
Impact global de l'intelligence artificielle sur l'industrie de la vidéo
Cet article a pris le parti de repartir d’applications réelles de l’IA par soucis de précision pour éviter les biais des articles de prospective généraux sur l’impact de l’IA, qui induisent des malentendus l’IA omnipotente, l’IA destructive d’emploi, l’IA maléfique… L’approche de cet article vise à coller au plus près à la réalité, mais gagne à être complétée par une vision d’hélicoptère et prospective.
L'abaissement des barrières à l'entrée
Dans ce cadre, on peut constater que l’apparition de ces nouveaux usages et de ces nouveaux outils va nécessiter l’acquisition de compétences à un triple niveau
- L’apprentissage des tous nouveaux outils qui n’existaient pas il y a 10 ans
- La mise à niveau sur l’usage des outils classiques (logiciels de montage, d’éditions vidéo qui intègrent désormais des modules d’IA)
- La compréhension des usages rendus possibles par ces nouvelles technologies qui sont loin d’avoir tous été identifiés
- La réorganisation de process de production en intégrant humain et outils d’automatisation/ d’augmentation reposant sur l’IA
Mais surtout, on peut donc imaginer qu’un scénario bien connu se rejoue dans le domaine de la vidéo : un abaissement de la barrière à l’entrée.
Il y a 20 ans pour créer un site web d’ecommerce de bonne facture, le recours aux agences web et une foultitude de spécialistes, pas toujours disponibles, pas toujours compétents, était indispensable.
Aujourd’hui, n’importe quel utilisateur avancé, peut créer un site web d’ecommerce sérieux, avec CRM intégré, des fonctions de retargeting publicitaire, des fonctions d’email automation en un mois en intégrant Wix, Segment, Facebook Ads et Mailchimp Le même système aurait coûté 200 000€ en 2005 ans et 100 000€ en 2015. Evidemment, ces outils ne garantissent pas le succès d’un site d’ecommerce, mais abaissent la barrière à l’entrée : un étudiant en école de commerce ou un salarié peut dans le cadre d’un « side-project », créer un site d’ecommerce opérationnel avec un budget dérisoire.
Il y a 20 ans faire développer une application métier pour automatiser la gestion des demandes de sinistre de clients d’une société d’assurance nécessitait une équipe informatique, que les gens du « métier » rédigent laborieusement un cahier de spécifications extrêmement précis, des mois de développements et de tests et évidemment un budget de dizaines ou de centaines de milliers d’euros. Aujourd’hui, n’importe quel agent d’assurance un peu motivé pour créer un système proche du couteux système décrit ci-dessus à partir de Notion ou d’Airtable en une semaine ou deux.
De la même façon, dans le domaine de la vidéo, on assiste à un mouvement similaire.
Créer une chaîne de télévision devient de moins en moins coûteux et difficile techniquement grâce à la conjugaison de différents éléments
- Des téléphones ou appareils grand public dont les performances techniques se sont largement accrues
- Corollaire de cela, des non spécialistes qui ont désormais l’occasion d’apprendre par eux-mêmes les techniques de production audiovisuelles jadis apanage des débutants qui avaient la chance de décrocher un stage dans une entreprise qui avait les moyens d’investir dans les outils professionnels
- Des gains de productivité permis par les algorithmes d’automatisation et les matériels « smarts »
- L’accès démocratisé à la distribution via les grands ou petits réseaux (Youtube, Facebook, Tik Tok, référencement vidéo..)
Tout cela était annoncé de longue date, par certains prospectivistes dans le domaine de la vidéo comme dans bien d’autres domaines.
Ce qui a changé, c’est que cela est devenu la réalité dans le domaine de la vidéo, alors que les changements annoncés de longue ne représentent que des potentiels dans d’autres secteurs.
Les opportunités et les risques
On peut donc anticiper des gagnants, des perdants, des disparitions et de nouveaux entrants.
Les gagnants
- Les professionnels en fonction qui adoptent les nouveaux outils
- Les entreprises pionnières ou non qui adoptent ces nouveaux outils et les transforment en opportunités économiques
Les perdants
- Les professionnels qui s’accrochent à leur façon de faire actuelle en pariant sur le fait qu’ils s’en sortiront d’ici la retraite dans 10 ans, sans avoir besoin de faire l’effort de s’adapter
Les disparitions
- Certains métiers parce qu’ils n’auront plus de sens au vu de l’évolution du contexte technologico-économique (à l’instar de ce qui s’est passé pour d’une grande partie de la profession des « vrais » journalistes, parce que le business model de la presse a été cassé par le digital)
- Les entreprises positionnées au mauvais endroit de la chaîne de valeur
- Les entreprises qui ne parviendront pas à adapter leurs coûts
Les nouveaux entrants
- Des start-ups « calmes » proposant des services qui n’étaient pas possible avec l’apparition de ces nouveaux algorithmes ou matériels augmentés par l’IA
- Des start-ups dopées aux levées de fonds et sans business model solide qui vont perturber le marché autant grâce à une techno ou façon de faire potentiellement révolutionnaire que parce qu’elles seront surcapitalisées
- Des freelances qui offriront à prix cassés des services aujourd’hui proposés par des sociétés, en assemblant une demi douzaines de briques open source ou propriétaires
- Des diffuseurs étrangers qui vont exporter des business models éprouvés sur leur marché et pénétrer le marché français via les canaux digitaux et grâce à une traduction automatique de leurs programmes