Réunion

Les commentaires sont clos.

Reproducibilité de la recherche en traitement du signal

Date : 22-09-2021
Lieu : Distanciel

Thèmes scientifiques :
  • A - Méthodes et modèles en traitement de signal

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.


S'inscrire à la réunion.

Inscriptions

35 personnes membres du GdR ISIS, et 42 personnes non membres du GdR, sont inscrits à cette réunion.

Capacité de la salle : 0 personnes.

Annonce

Séminaire "Reproducibilité de la recherche en traitement du signal"

  • 22 Septembre 2021 9:00 - 12:30 : https://ec-nantes.zoom.us/j/96169555852 (Code secret : Pw@JAhH1)
  • 20 Octobre 2021 14:00 - 17:30 : https://ec-nantes.zoom.us/j/99175543775 (Code secret : qPrT%65N)

Orateurs

  • Cythia Liem, Assistant professor, TU Delft, Pays-Bas, https://www.cynthialiem.com
  • Alexandre Gramfort, Directeur de recherche, INRIA, France, https://alexandre.gramfort.net
  • Brian McFee, Assistant professor, université de New York, États-Unis, https://brianmcfee.net
  • Annamaria Mesaros, Assistant professor, université de Tampere, Finlande, https://www.cs.tut.fi/~mesaros

Organisation

Demi-journée 1 : 22 Septembre 2021 (video)

  1. Benoit Fuentes: Wonterfact, A powerful tool to design any tensor factorization model.
  2. Guillaume Gautier: DPPy, Sampling Determinantal Point Processes with Python.
  3. Genis Plaja, Pedro Ramoneda Franco: Mirdata, dataset loaders for reproducible research on Music Information Retrieval.
  4. Dalia Senvaityte: an experiment management system for researching deep learning audio source separation
  5. Nicolas Turpault: Lessons learned from organizing Dcase task on domestic sound recognition.
  • 11:30 Discussion en salon virtuel autour des contributions des doctorants
  • 12:30 Clôture

Demi-journée 2 : 20 Octobre 2021

Organisateurs

  • Mathieu Lagrange, chargé de recherche CNRS, LS2N, UMR 6004
  • Vincent Lostanlen, chargé de recherche CNRS, LS2N, UMR 6004
  • Slim Essid, Professeur, LTCI, Télécom ParisTech

Présentation

Le processus d'expérimentation scientifique repose, pour une part croissante, sur les sciences de l'information. En particulier, les outils du traitement du signal et des images (TSI) ont joué une place essentielle dans nombre de découvertes récentes en physique : la détection des ondes gravitationnelles et l'observation des trous noirs par exemple. Par ailleurs, les progrès récents de certaines technologies numériques, telles que la neuro-imagerie fonctionnelle et la classification de sons, reposent sur un socle logiciel de plus en plus sophistiqué.

Or, chacune de ces applications du TSI n'est pas le résultat d'un seul algorithme, mais du travail conjoint d'une sous-communauté de recherche spécialisée. Qu'il s'agisse d'astrophysique ou de bio-acoustique, le processus d'innovation reste sensiblement le même : la communauté se dote de bases de données massives, de métriques de performance, et d'un environnement logiciel commun. Partant, différents groupes de recherche ?uvrent pour améliorer peu à peu l'état de l'art. Par exemple, l'essor renouvelé des réseaux de neurones profonds au cours de la décennie 2010--2020 à été rendu possible grâce à de nouvelles bases (e.g., ImageNet, AudioSet), "challenges" (e.g., ILSVRC, DCASE), et bibliothèques de calcul (e.g., TensorFlow, PyTorch).

Dans ce contexte, la reproducibilité des expérimentations revêt une importance cruciale. D'abord, quand on aborde un problème nouveau, il est utile de se référer à un système de base dont les propriétés théoriques sont bien comprises : ce système de base doit être librement accessible à toutes et tous. Ensuite, c'est en reproduisant des résultats classiques en traitement du signal (et, plus généralement, en sciences de l'information) que nos étudiant-e-s peuvent s'exercer au bonnes pratiques de l'expérimentation. Enfin, le développement logiciel en communauté plutôt qu'en ``silo'' permet, à moindre cout, d'identifier plus vite les bogues, de tenir à jour la documentation, et d'ajouter de nouvelles fonctionnalités en fonction de la demande.

Néanmoins, l'exigence de reproducibilité de la recherche va au-delà d'une simple liste de bonnes pratiques, telles que le contrôle de version ou le recours à des tests unitaires. Dans son travail sur les "systèmes d'information intègres" (trustworthy information systems), Cynthia Liem a notamment montré que les meilleurs réseaux de neurones pour la classification de musique sont loin d'avoir une "oreille musicale" : bien plutôt, ces modèles s'attachent à des détails imperceptibles dans les enregistrements sonores tout en restant insensibles à des transformations qui, pourtant, sont musicalement signifiantes.

La reproducibilité d'une expérience est d'autant plus délicate quand l'acquisition de données est couteuse, comme en neurosciences par exemple. Afin d'accélérer l'adoption de données ouvertes, il est donc important d'intégrer des routines logicielles de chargement et de mise en forme de ces données aux outils de transformation et d'apprentissage statistique. C'est ce qu'a proposé Alexandre Gramfort avec les bibliothèques scikit-learn ainsi qu'avec le projet "Rapid Analytics and Model Prototyping" (RAMP).

Par ailleurs, la recherche en traitement du signal opère souvent sur des données fortement structurées : c'est notamment le cas d'une partition musicale ou d'une progression d'accords. Pour garantir la reproducibilité des expériences, il faut que cette structure riche soit préservée dans les prédictions de la machine et qu'elle soit interprétable par l'humain. Le travail de Brian McFee sur le format "JSON-Annotated Music Specification" (JAMS) traduit ce souci de structuration et d'intéropérabilité logicielle.

Enfin, la définition de métriques d'évaluation pertinentes demande une attention particulière. En effet, c'est à partir de ces métriques que la communauté scientifique concernée décide de ses futures orientations et évalue la pertinence de ses propositions. Annamaria Mesaros, qui notamment organise le challenge "Detection and Classification of Acoustic Scenes and Events" (DCASE) depuis 2016, possède une longue expérience de ces questions d'évaluation et d'éditorialisation de la recherche appliquée. Elle a notamment développé la bibliothèque logiciel sed_eval qui est aujourd'hui le standard de facto pour évaluer les performances d'un détecteur d'évènements sonores.

English version

The process of scientific experimentation is increasingly based on information science. In particular, signal and image processing (SIP) tools have played an essential role in many recent discoveries in physics: the detection of gravitational waves and the observation of black holes, for example. In addition, recent advances in certain digital technologies, such as functional neuroimaging and sound classification, are based on increasingly sophisticated software codebases. However, each of these SIP applications is not the result of a single algorithm, but of the joint work of a specialized research sub-community. Whether in astrophysics or acoustics, the innovation process remains essentially the same: first, the community develops massive databases, performance metrics, and a common software environment. Then, individual research groups compete to improve the state of the art. For example, the renewed growth of deep neural networks during the decade 2010?2020 was made possible thanks to new databases (eg, ImageNet, AudioSet), official ``challenges'' (eg, ILSVRC, DCASE), and numerical libraries (eg, TensorFlow, PyTorch).

In this context, the reproducibility of the experiments bears a crucial importance. First, when addressing a new problem, it is useful to begin with a simple-minded approach whose theoretical properties are well understood. Such a baseline should be made freely accessible. Secondly, students gain a hands-on experience by inspecting and re-implementing well-established methods in signal processing; and, more generally, in information science. Finally, developing software in open-source communities rather than in vertical organizations (silos) has advantages per se: quicker bug reporting and troubleshooting, up-to-date documentation, and schedule feature requests.

However, the need for research reproducibility goes beyond a simple list of good practices such as version control or the use of unit tests. In her work on "trustworthy information systems" (TIS), Cynthia Liem has shown that state-of-the-art deep neural networks for music classification are far from having a "musical ear": rather, these models tend to exaggerate some imperceptible aspects of music while lacking sensitivity to musically meaningful transformations.

The high cost of data acquisition, in the field of neuroscience for example, jeopardizes the reproducibility of numerical experiments. Therefore, in order to boost the adoption of open data, it is necessary to integrate software routines for loading and formatting data alongside transformation and statistical learning tools. This is what Alexandre Gramfort proposed with the scikit-learn libraries as well as with the Rapid Analytics and Model Prototyping (RAMP) project.

In addition, signal processing research often operates on highly structured data: such is the case, for example, of a musical score or a chord progression. To guarantee the reproducibility of music information retrieval systems, this rich structure should be preserved in machine predictions and remain interpretable by humans.The work of Brian McFee on the JSON-Annotated Music Specification (JAMS) format reflects this concern for structuring and software interoperability.

Lastly, the definition of relevant evaluation metrics requires special attention. Indeed, it is on the basis of these metrics that the scientific community concerned decides on its future directions and assesses the relevance of its proposals. Annamaria Mesaros, who in particular has been organizing theDetection and Classification of Acoustic Scenes and Events (DCASE) challenge since 2016, has a long experience of these questions of evaluation and editorialization of applied research. In particular, she maintains the sed_eval software library which is now the de facto standard for evaluating the performance of a sound event detector.Sampling Determinantal Point Processes with Python