Entretien avec Claude Mussou de l’INAthèque

«Les MIP sont reconduits l’an prochain avec pour thème le sport»

Dans cet entretien que la responsable de l’INAthèque a accordé au Culture Media Lab, elle revient sur les MIP, les Modules Pédagogiques Innovants que l’INA a mis en place avec l’Université Paris Nanterre. Tirant parti des expériences menées depuis plusieurs années par les étudiants au contact des outils et archives de l’institution, l’INA ouvrira bientôt son propre Lab.

Pouvez-vous vous présenter, ainsi que l’INAthèque ?

Je suis Claude Mussou. Je suis responsable de l’INAthèque. L’INAthèque est le service de l’INA qui met en accès pour des usages de recherche les collections de l’INA, et ce, sur tout le périmètre des collections à savoir la radio, la télé, le Web. Cela couvre quasiment toute l’existence de chacun des médias : la radio depuis les années 30, la télévision depuis les années 50, puis le Web depuis le début des années 2000. Par leur nature, mais aussi en nombre et en masse, c’est une somme de contenus extrêmement importante qui permet des analyses longitudinales sur le traitement médiatique d’événements ou de faits sociaux. Nous accompagnons les chercheurs et étudiants dans leur exploitation scientifique, en proposant, en sus de l’accès, une diversité d’outils. Ce que l’on organise avec le laboratoire DICEN-IdF et notamment les chercheurs du Culture Media Lab s’inscrit dans cette dynamique-là, d’accompagnement et de développement de nouvelles pratiques de recherche fondées sur les outils et possibilités offertes par les technologies numériques.

Il existe une collaboration entre l’Université Paris Nanterre et l’INAthèque autour des MIP, les Modules Pédagogiques Innovants de l’EUR ArTEc. Est-ce que vous pouvez nous expliquer en quoi consistent ces MIP ?

Les MIP sont des modules pédagogiques qui s’incarnent dans des Data Sprints, un travail mené dans une dynamique collaborative et contraint dans l’espace et le temps. L’ambition, autour d’une thématique identifiée, est de constituer un corpus de données à partir de nos collections radio, TV et Web. Ce sont des documentalistes de l’INA qui construisent ces jeux de données qui sont ensuite extraites des bases de données de l’INA, en fonction de la thématique choisie avec les enseignants de Paris-Nanterre (les imaginaires de l’informatique, le corps, la construction européenne …). Les étudiants, répartis en groupes, analysent ces données et leur appliquent un certain nombre de traitements orientés humanités numériques. Ils exploitent des outils de fouilles, des outils de visualisation qui permettent de donner à voir plus clairement des saillances, voire des manques dans ces jeux de données massifs. Des ingénieurs chercheurs de l’INA appliquent également à certains de ces corpus et en amont de l’événement, des traitements de fouille, visualisation ou transcription qu’ils ont développés. Et puis, dans un temps réduit (une semaine), les groupes s’organisent pour faire « parler » ces jeux de données à partir des traitements qu’ils ont appliqués pendant la durée du sprint. Ils produisent enfin des analyses et un rendu le dernier jour du sprint. Nous en sommes à notre troisième année de partenariat. Cette année, en lien avec la Présidence française de l’Union Européenne et en collaboration avec les porteurs d’un projet ANR sur les représentations médiatiques de l’Europe, la thématique portait justement sur l’Europe.

Comment est née cette collaboration ?

Ce projet a germé quand j’étais responsable des archives du Web à l’INA. Marta Severo, qui codirige le DICEN-IdF, est une des premières chercheuses à s’être intéressée aux archives Web de l’INA. C’est effectivement notre vocation à l’lNAthèque de promouvoir les usages scientifiques, mais aussi d’accompagner les enseignants-chercheurs dans leurs pratiques pédagogiques. C’est de cette rencontre et de nos discussions qu’est née l’idée de proposer aux étudiants ce module.

Dans le cadre de ce partenariat, quels sont les archives et les outils que l’INAthèque met à disposition ?

En termes d’archives, il s’agit du périmètre complet de la radio, de la télévision, et du Web, et ce, depuis l’origine de chacun des médias donc 22 millions d’heures de radio-TV, 60 millions de notices documentaires, 118 milliards d’URL Web archivées, presque 3 milliards de publications de comptes de réseaux sociaux. Les outils, quant à eux, sont ceux historiques de constitution de corpus, d’analyse statistique qui offrent la possibilité de construire sa propre base de données à partir de la globalité des collections, ce sont aussi des outils de navigation dans des flux audio-vidéo, des outils d’annotation… Dans le cadre du MIP, nous avons inauguré une approche un peu LAB, avec la possibilité d’explorer et d’expérimenter des outils qui n’étaient pas encore proposés en situation d’accompagnement des pratiques scientifiques SHS à l’INAthèque. Je pense par exemple à des outils de fouille très spécifiques comme ceux développés par David Doukhan à l’INA, qui permettent de distinguer la parole hommes/femmes, ou la parole et la musique dans des flux audios, des outils, aussi, qui permettent de faire la recherche d’images et de reconnaître ou constituer des corpus d’images similaires, comme l’outil Snoop co-développé par l’INRIA et l’INA. Je pense aussi à des outils qui produisent des transcriptions pour permettre une approche d’analyse textométrique de gros corpus…

Forts de cette collaboration autour de pratiques pédagogiques innovantes avec les enseignants de Paris-Nanterre, notre ambition est désormais de proposer une palette de services et d’outils au sein d’un LAB qui permettra d’accompagner de nouvelles pratiques, de les instrumenter avec de nouveaux outils d’exploration de données massives.

Pourquoi travailler avec l’université de Nanterre et ses étudiants et étudiantes ?

L’INA est partenaire de la COMUE Université Paris Lumière, il y a donc évidemment une proximité institutionnelle. Et puis, c’est inscrit dans notre ADN, de travailler pour la recherche et d’accompagner les pratiques pédagogiques. Les approches pédagogiques et de recherche de Mme Severo sont très innovantes et, en ce sens, cette collaboration est très dynamisante pour l’INAthèque.

Que se passe-t-il quand les étudiants rencontrent vos données et comment ont-ils transformé les parties de corpus sélectionnés dans vos collections ?

Le résultat, et tout le processus, depuis la constitution de jeux de données jusqu’à leur analyse est vraiment très, très innovant avec une dimension expérimentale et exploratoire très stimulante. Et puis, c’est foisonnant, très animé, donc forcément un peu en rupture avec des pratiques habituelles de bibliothèques. L’INAthèque est installée en Rez-de-jardin de la BNF, un lieu en général très silencieux et calme. Ça change, en un sens, mais pour le mieux ! Les étudiants ont tous à peu près une approche quanti-quali : ils partent du quantitatif et de l’analyse des données comme matière et ensuite, ils développent un volet plus qualitatif. C’est extrêmement dynamique et joyeux.

 

Pouvez-vous nous raconter un moment fort de réalisations survenu ces dernières années avec les MIP ?

Nous restituons le travail des étudiants sur un carnet de recherche de la plateforme hypothèse (https://inatheque.hypotheses.org/25145). L’année dernière, nous avions accompagné un travail sur le corps dans les collections de l’INA, et c’était très riche. Je me souviens d’un travail sur les stéréotypes de genre dans les publicités de parfums à travers le temps, habilement mené, appuyé notamment par un outil de détection de la parole et de la musique. Le groupe avait identifié qu’à leurs débuts, les publicités – les publicités sont présentes dans les collections depuis le début de leur diffusion à la télévision française en 1968 – sur les parfums étaient abondamment enrichies de textes parlés. Et puis, progressivement, les textes parlés avaient cédé leur place à la musique. Le tout avait été mis en perspective par le groupe avec une analyse de l’évolution du regard genré dans les publicités de parfums. Je me souviens aussi du travail sur l’analyse des représentations des flux migratoires en Europe par des bateaux de migrants, avec un focus sur des ruptures temporelles tout à fait intéressantes.

Les MIP sont reconduits pour l’an prochain. Quel thème est prévu et qu’en attendez-vous ?

Les MIP sont en effet reconduits pour l’an prochain sur le thème du sport, en lien avec les JO Paris 2024. Ce sera sans doute un tournant, car ce sera l’année du lancement de notre LAB et d’une palette de nouveaux services. Ce que nous avions expérimenté dans le cadre des MIP va maintenant être formalisé, au-delà des publics d’étudiants d’ArTec et de Paris Nanterre. Le prochain DataSprint coïncidera avec le lancement de cette offre de nouveaux services au sein d’un Lab à l’INA thèque. Ce sera une belle opportunité de mettre en lumière une nouvelle fois le dynamisme de cette initiative et les travaux des étudiants.

Mots-clés

Les dernières actus

17309476_10210269892277105_1856658790907238209_n_be8fbf82-9bc9-40b8-b695-d4f86d28a917
Autour de Trajectoires d'implication - Entretien avec Robin de Mourat
Dans cet entretien que Robin De Mourat a accordé au Culture Media Lab, il décrit la genèse et les enjeux du projet Trajectoires d'implication.
PIETROBRUNO PHOTOGRAPH -1(1) (2)
Entretien avec Sheenagh Pietrobruno
«La miniature est un motif incontournable dans la diffusion vidéo et le partage des contenus du patrimoine culturel»
5808531
Entretien avec Antoine Courtin
«L’hackathon est une méthode de travail très intéressante pour mener des projets étudiants autour de la data»
photo cv n rieucau
Inventaire Condorcet : entretien avec Nicolas Rieucau
«La particularité de notre démarche est d’accorder une grande importance au support d’écriture, au support matériel, et en particulier aux filigranes pour des raisons de datation ou d’identification.»