L’intelligence artificielle au service de l’audiovisuel

IATV : quatre lettres pour désigner le laboratoire commun établi entre France Télévisions et Télécom SudParis, qui a été renouvelé pour une période de trois ans en juin 2023. Titus Zaharia, Professeur à Télécom SudParis revient sur les apports de l’intelligence artificielle aux processus de création, de production et de distribution de contenus audiovisuels.

Une recherche partenariale orientée vers les services

L’activité de France Télévision recèle un véritable trésor de problématiques passionnantes pour les chercheurs de Télécom SudParis, en particulier dans la perspective de la mise en œuvre de l’intelligence artificielle. Les deux entités se sont associées dans le passé à diverses reprises, notamment dans le cadre d’appels à projets du Fonds unique interministériel (FUI) ou du plan des investissements d’avenir (PIA). Ces collaborations ont débouché sur un laboratoire commun dont la première version remonte à 2019.

L’avantage de ce mode de partenariat est de créer un cadre pérenne pour l’élaboration de nouvelles méthodes, qui est au cœur du travail de la recherche, alliée à une volonté de transfert et de valorisation. Le renouvellement du laboratoire s’inscrit dans le contexte actuel d’essor généralisé de l’intelligence artificielle (IA), qui rend d’autant plus précieuses les compétences de Télécom SudParis pour traiter les problématiques métiers de France Télévision.

Les objectifs du laboratoire ont été définis dans un contrat de collaboration et l’avancement des travaux de recherche fait l’objet d’un suivi régulier réalisé lors de réunions hebdomadaires. Cela n’exclut pas la possibilité de faire évoluer ce cadre avec la souplesse requise par ce type de recherche appliquée.

« Globalement, du côté de Télécom SudParis, le laboratoire commun mobilise une équipe de 5 personnes, parmi lesquelles des ingénieurs de recherche, un thésard, plus des fonctions support » précise Titus Zaharia. Chez France Télévision, les résultats des recherches sont industrialisés par le Département DAIA, en vue d’intégrer de nouveaux microservices aux différentes plateformes du groupe.

Des applications nombreuses

Les recherches exploratoires menées à Télécom SudParis, en particulier dans le cadre de thèses de doctorat, permettent d’ouvrir de nouveaux chantiers. Les pistes de travail s’ouvrent ainsi à l’IA générative, thématique foisonnante popularisée par Chat GPT, entre autres transformers. Ces outils apportent de nouvelles techniques très puissantes pour l’indexation de contenus audiovisuels, en prenant en compte leur caractère intrinsèquement multimodal. En effet, les vidéos sont des données complexes, à la fois en volume et portée sémantique, composées d’images, de sons, de sous-titres dont l’analyse conjointe apporte de précieuses informations.

« Nos travaux visent par exemple à fournir des méthodes de détection automatique des points d’un programme audiovisuel où il serait possible d’intégrer de la publicité. Cela sous-entend d’effectuer une analyse multimédia intégrant de nombreuses contraintes telles que le respect de la bande son et des plans, où de l’intensité dramatique, afin de limiter les désagréments causés au téléspectateur par l’insertion d’une plage de publicité », explique le chercheur.

Un autre cas d’usage concerne le choix optimal de l’image illustrant un épisode d’une série sur les plate-formes vidéo destinées au grand public. L’automatisation de ce choix nécessite d’intégrer des critères de qualité d’image, de popularité, etc.

Les recherches effectuées chez Télecom SudParis visent également à faciliter l’activité des documentalistes chargés de décrire le contenu des vidéos : types de plans, de mouvements, ou de scènes, ou encore identifications d’objets, de personnages et d’actions. L’IA permet de détecter automatique-ment ces différentes caractéristiques, apportant ainsi un appréciable gain de productivité aux professionnels de l’audiovisuel. Même chose pour le vidéo captioning, ou sous-titrage vidéo, qui consiste à ajouter des légendes textuelles, exprimées en langage naturel, à une vidéo, en prenant en compte conjointement données image et transcription de la parole.

La mise en œuvre de tous ces services passe par différentes étapes de validation, avant leur mise en ligne. En particulier, la prise en compte des
« corner cases » (cas limites ou cas particuliers) est très importante pour s’assurer que les développements se comportent correctement dans toutes les situations. Un autre point crucial est l’optimisation des ressources de calcul requises pour l’exécution des algorithmes d’apprentissage, réputés gourmands.

Face aux géants du numérique, la prise en compte personnalisée de ces critères de performances permet à Télécom SudParis de faire la différence et de tirer son épingle sur des sujets convenablement ciblés. Or, la mise en service de solutions opérationnelles adaptées à l’univers de France Télévision et à ses métiers, renferme de nombreux défis. De quoi alimenter IATV pour longtemps.

Contact :

Titus ZAHARIA
Professeur, Directeur de département Dpt ARTEMIS Advanced Research and Techniques for Multidimensional Imaging Systems
Titus.zaharia (at) telecom-sudparis.eu

© Télécom SudParis – Siret : 180 092 025 00055 – APE : 8542Z