Publication en ligne des thèses de Télécom SudParis

Retrouvez sur theses.fr l'ensemble des thèses soutenues par les docteurs de Télécom SudParis, membre de la Comue Université Paris-Saclay.

Publication en ligne des thèses de Télécom SudParis

Soutenances de thèses à venir

  • Ivan GORYNIN « Estimation bayésienne dans les modèles de Markov partiellement observés »
    le 13 décembre 2017 à 10:30
    A03 - Télécom SudParis, 9 rue charles Fourier, 91011 Evry

 

Résumé :

Cette thèse porte sur l'estimation bayésienne d'état dans les séries temporelles modélisées à l'aide des variables latentes hybrides, c'est-à-dire dont la densité admet une composante discrète-finie et une composante continue. Des algorithmes généraux d'estimation des variables d'états dans les modèles de Markov partiellement observés à états hybrides sont proposés et comparés avec les méthodes de Monte-Carlo séquentielles sur un plan théorique et appliqué. Le résultat principal est que ces algorithmes permettent de réduire significativement le coût de calcul par rapport aux méthodes de Monte-Carlo séquentielles classiques.

 

 

 

  • Sonia BENALI-IKKEN « Conception d'algorithmes de placement efficaces et économie des coûts de stockage pour les workflows du Big Data dans les centres de calcul de type Cloud »
    le 14 décembre 2017 à 14:00
    A003 - Télécom SudParis, 9 rue charles Fourier, 91011 Evry

 

Résumé :

À ce jour, l'univers numérique est confronté à la suite de l'explosion des données. Ce volume massif de données est capturé par des organisations, tel que l'augmentation des médias sociaux, l'Internet des objets (IOT) et les multimédia, à une base régulièrement croissante dans le monde.  Cette quantité de données est disponible à partir de plus de 1 trillion de pages Web actuellement accessibles sur le Web. Comme l'indique International Data Corporation la quantité de toutes les données numériques générées, créées et consommées en une seule année passera d'environ 3 000 EB en 2012 à 40 000 EB en 2020.  Actuellement, environ 90% des données numériques disponibles ont été créées au cours des deux dernières années.  Ainsi, acquérir, stocker, guider et traiter de manière exponentielle ces énormes quantités de données numériques récemment créées, constitue un défi complexe que n'on nomme souvent l'essence du Big Data. En effet, le Big Data décrit la croissance continue des données hétérogènes, structurées ou non structurées, qui sont générées et collectées à partir de toutes sortes de sources de données (citées auparavant). La gestion du Big Data avec les formats de données diversifiés est une base principale pour la concurrence dans les business et la gestion en soi. Par conséquent, le Big Data pose un défi aux organisations industrielles ainsi qu'aux chercheurs scientifiques qui leur présentent une gamme complexe de problèmes d'utilisation, de stockage et d'analyse.

S'attaquer au besoin du Big Data exige fortement des changements fondamentaux dans l'architecture des systèmes de gestion de données.  Parmi eux, figurent les systèmes de traitement de workflow hautement distribués qui sont au cœur de la gestion du volume massif et complexe du Big Data.  Les données de ces systèmes peuvent être des entrées pour des applications données ou des résultats intermédiaires qui doivent être stockés et gérés efficacement. Certaines applications de ce type incluent des techniques de traitement de données scientifiques à haute performance, des applications de traitement de données scientifiques intensives et le streaming en temps réel.  Ces applications sont soumises à une série de phases de calcul. Lesframeworks de workflow intègrent et coordonnent plusieurs jobs qui peuvent contenir plusieurs tâches collaboratives.

Certaines de ces tâches sont exécutées séquentiellement, mais d'autres peuvent être exécutées en parallèle sur une plateforme distribuée. Par exemple, une organisations scientifique telle que le Telescience Project  Research exécute des tâches scientifiques parallèles dans un pool de ressources partagées et hétérogènes. Chaque tâche génère non seulement des données sur les microscopes et l'image biomédicale, mais a également besoin des résultats intermédiaires de ses tâches collaboratives sur l'analyse d'image biomédicale pour des études de corrélation.  Une autre organisation scientifique, qui est le Climate Corporation Research basée sur le système de tâches de type workflow. Ce projet a adopté des capteurs de composants situés sur plusieurs emplacements afin de capturer et de générer une quantité massive de données, y compris des champs agronomiques, environnementaux et météorologiques à haute résolution.  Une grande quantité de données sont générées quotidiennement à partir de ces systèmes de workflow de traitement des données qui sont extrêmement importants avec une grande diversité de types, mais il devient difficile de les traiter et de les stocker efficacement.   De même, d'autres applications traitent des données massives sous forme d'un  workflow de plusieurs tâches en utilisant le paradigme de calcul MapReduce. Ce dernier est adopté et intégré par des entreprises valorisantes dans le monde comme Google, Facebook, Amazon et LinkedIn. Un tel écosystème d'applications nécessite une composition flexible des tâches d'un workflow prenant en charge différentes phases de traitement.

Entre-temps, l'émergence du Cloud Computing offre une nouvelle connaissance clé pour les entreprises de sous-traitance (externalisation) d'infrastructures informatiques (IT) qui peuvent être requises et retournées à la demande avec des modèles de tarifications flexibles. Le Cloud fournit principalement des services de stockage et de traitement de données, optimisés pour une haute disponibilité et une durabilité.  Ainsi, en adoptant les modèles de stockage et de traitement dans un Cloud à travers les centres de données distribuées, le déplacement des tâches collaboratives d'un workflow vers le Cloud peut directement effectuer des opérations de stockage et de traitement de données à grande échelle et complexes, au détriment d'une performance.

Malgré la transition rapide vers l'utilisation des services dans le Cloud, certains challenges critiques sont soulevés et restent maintenus. Un problème difficile, tant pour les entreprises que pour les chercheurs scientifiques, est de savoir comment traiter, stocker et gérer cette masse de données générées par de telles applications (Big Data Workflow) de manière rentable et efficace pour obtenir le niveau de performance souhaité.  D'autre part, certaines fonctionnalités importantes du Big Data Workflow telles que le partage de données ou la réutilisation des résultats intermédiaires et la réplication géographique, sont des principales options, bien que beaucoup d'autres ne soient pas supportés : le transfert géographiquement distribués, l'optimisation des coûts, la gestion des tendances de données générées, la qualité de service différenciée, les compromis personnalisables entre coût et performance. Tout cela nous intrigue dans le sens où les applications du Big Data Workflow sont souvent coûteuses (en temps et en argent) ou difficiles à structurer en raison des difficultés et des inefficacités dans la gestion des données dans un environnement tel que le Cloud. Compte tenu de cela, la fourniture de services diversifiés et efficaces pour la gestion des données dans le Cloud sont des jalons clés pour la performance d'exécution de ces applications.

Par conséquent, cette thèse se concentre sur le problème de la gestion du Big Data dans le Cloud pour les applications de workflow, tout en assurant un stockage et un traitement rentables de leur données générées et distribuées.  Cependant, l'adoption de grandes fonctionnalités du Big Data Workflow dans un Cloud distribué est un défi de taille.  Pour cela, nous proposons de nouvelles approches simples et efficaces pour la gestion des données de ces applications, tout en considérant leurs besoins et exigences fonctionnant dans une infrastructure de Cloud dont les centres de données géographiquement distribuées.  Plus précisément, cette thèse traite le problème qui consiste à router et placer les données et les résultats intermédiaires résultantes des applications basées sur des traitements de type workflow. En considérant leurs caractéristiques, cela permet de fournir non seulement une solution spécifique, mais aussi une approche générique et complète pour la gestion des données de ces applications qui devraient bénéficier de toute l'attention des communautés scientifique et industriel.

La dernière partie des contributions présente une nouvelle approche afin d'aborder le problème de placement des données intermédiaires d'un workflow dans un sens plus large. En effet, l'approche proposée met en jeux deux algorithmes. Ces algorithmes traitent deux autres types de dépendances, inter-et intra-\textit{job} (dépendances asymétriques), pour le placement des données intermédiaires générées par l'exécution d'un ensemble de jobs de workflow. D'où l'implication de deux variantes :  un algorithme exacte relaxé et une heuristique satisfaisant les exigences de ces deux types de dépendances tout en minimisant le coût de stockage total des données intermédiaires routées et stockées dans le Cloud. L'algorithme exacte basé sur le modèle LP aborde le placement des données pour le cas des dépendances intra-jobs. Celles-ci, sont dites fractionnelles (splittable) car les caractéristiques et la particularité de ce type permettent de router et de placer les données et résultats intermédiaires séparément dans un environnement géographiquement distribué. Par contre, l'heuristique qui est basée sur une approche de type greedy traite le type de dépendance inter-job, dont les données intermédiaires sont atomiques (unsplittable) durant leur routage et leur placement dans le Cloud.  Principalement, leur objectif est d'économiser les coûts, y compris les efforts de transfert, de stockage et de déplacement ou de migration de ces données de dépendance en fonction de leurs besoins et exigences.  En considérant de grands ensembles de données de corrélation (cluster) comme paramètres d'entrée et des instances très larges conduisant à une complexité algorithmique inférieure pour l'heuristique par rapport aux deux autres algorithmes exactes proposés.

 

 

 

  • Mustapha SADOK  « Exploitation de la non-circularité pour les transmissions et l'écoute passive »
    le 15 décembre 2017 à 10:00
    Amphi Rubis - Télécom ParisTech, 46 rue Barrault, 75013 Paris

 

Résumé :

Cette thèse est consacrée à l’exploitation des propriétés de non-circularité et de non-gaussianité des signaux d’intérêt (SOI) et/ou des interférences pour les transmissions sans fil et l’écoute passive.

Dans une première partie de cette thèse, nous nous intéressons à l’extension des récepteurs SIMO-MLSE conventionnels vers de nouvelles architectures exploitant la potentielle non-circularité au second ordre des interférences co-canal (CCI), pour la démodulation de signaux rectilignes (BPSK, ASK), quasi-rectilignes (MSK, GMSK et OQAM) et à symboles complexes (QAM). L’architecture générale des récepteurs développés est basée sur un prétraitement avec une extension widely linear (WL) du filtre adapté spatio-temporel, ramenant le traitement de démodulation à un problème scalaire, un échantillonnage au rythme symbole et ensuite un organe de décision basé sur une version modifiée de l’algorithme de Viterbi. Pour le cas particulier des signaux quasi-rectiligne, on intercale un traitement de dérotation entre l’échantillonneur et l’organe de décision. Un travail de modélisation à temps discret des SOI, brouilleurs et du bruit de fond a été mené afin de créer des modèles de simulations pour la validation des expressions SINR analytiques interprétables, via l’évaluation des probabilités d’erreur symboles. Ces nouvelles architectures de récepteur SIMO-MLSE, permettent le maintien de l’effet single antenna interference cancellation (SAIC), même en situation de canal sélectif en fréquence pour le signal d’intérêt, avec un CCI rectiligne à un ou deux trajets. Malgré que les nouvelles structures du récepteur SIMO-MLSE aient été développées sous des fausses hypothèses en pratique de stationnarité et de gaussianité des interférences, les performances restent toujours supérieures à celle des récepteurs SIMO-MLSE conventionnels.

Dans une deuxième partie, nous nous intéressons à la formation de voies (Beamforming) non-linéaire à travers des structures de Volterra complexe du troisième ordre. Ces dernières permettent l’exploitation de la non-circularité jusqu’au sixième ordre ainsi que du caractère non-gaussien des SOI et/ou des interférences. Dans le contexte de l’écoute passive, nous avons introduit un beamformer MVDR de Volterra du troisième ordre utilisant la seule information a priori du vecteur directionnel du SOI et implémentable grâce à une structure équivalente GSC. Nous avons étudié ses performances en particulier par l’évaluation analytique des expressions du SINR en fonction des statistiques de l’interférence, et par sa vitesse d’apprentissage, démontrant ainsi sa supériorité par rapport aux beamformers MVDR linéaire et WL classiques. Dans un contexte de radiocommunications, nous avons étudié une version MMSE de ce beamformer de Volterra complexe du troisième ordre qui prend lui en compte les propriétés statistiques de non-circularité jusqu’au sixième ordre et de non-gaussianité du SOI et du CCI. Nous avons défini dans ce cadre un SINR grâce à une décomposition orthogonale ainsi qu’une relation générale entre MSE et SINR. Dans le cas particulier d’une seule antenne, nous avons comparé différentes constellations de modulations linéaires et démontré par des expressions analytiques de SINR exprimées en fonction du décalage temporel et de phase entre SOI et CCI que ce filtrage de Volterra permettait de bénéficier de la discrimination d’amplitude pour de fortes interférences pour des symboles BPSK et QPSK.

La dernière partie de cette thèse est consacrée à la robustesse de tests de détection de rectilinéarité de signaux en présente d’offsets de fréquence. Ces tests sont importants pour ajuster la nature du traitement (linéaire ou WL) en fonction de la rectilinéarité des signaux, afin de garantir le meilleur rapport performance/temps de convergence des algorithmes. Plusieurs tests à base de moments du second ordre et du quatrième ordre sont présentés et étudiés. Les tests de rectilinéarité basé sur des cumulants d’ordre quatre souffrent d’une importante erreur d’estimation pour un nombre réduit d’observations, malgré la robustesse des cumulants face au bruit de fond circulaire en situation de faible valeur du SNR. Seul le test de rectilinéarité au second ordre présente une robustesse vis-à-vis du nombre d’observations réduit, du faible rapport SNR, de bruit de phase et de résidu de porteuse. Pour aboutir à des seuils de décision optimaux, nous avons pu établir les expressions analytiques asymptotiques des courbes COR de ce test de rectilinéarité au second ordre en présence de bruit de phase et résidu de porteuse.

 

 

 

  • Louis-Philippe SONDECK  « Mesure de la vie privée et de l'utilité des données dans les bases de données statistiques »
    le 15 décembre 2017 à 10:30
    Salle Grande Amphi - Orange Labs, 4 rue du Clos Courtel, 35512 Cesson Sévigné

 

Résumé :

Dans cette thèse, nous nous intéressons à l'évaluation de l'anonymisation et de l'utilité des données dans les bases de données statistiques. L'anonymisation des données est l'une des méthodes préconisées par le nouveau règlement sur la protection des données personnelles (RGPD) qui prendra effet en Mai 2018. Le RGPD prévoit des amendes pouvant aller jusqu'à 4% du chiffre d'affaire annuel des entreprises ou 20 millions d'euro (le plus élevé des deux étant retenu). De plus, il vise toutes les entreprises du monde, du moment qu'elles traitent des données personnelles de citoyens Européens. Cependant, si la nouvelle réglementation propose l'anonymisation comme moyen de protection, plusieurs verrous techniques restent à lever; entre autres: la définition formelle de l'identifiant (qui est une notion centrale du RGPD car les données personnelles sont définies en fonction des identifiants); la définition d'un seuil d'anonymisation pour l'évaluation de la conformité au règlement. De plus, anonymiser les données ne suffit pas, il est tout aussi important d'assurer l'utilité des données anonymisées pour les services qui souhaitent les utiliser. Il s'agit donc de garantir le meilleur compromis entre: vie privée et utilité des données. Cette thèse a pour objectif de répondre à 3 principales problématiques: (1) la définition formelle de l'identifiant, (2) une méthode d'évaluation précise et pratique du degré d'anonymisation (et des techniques afférentes) et (3) une méthode d'évaluation précise et pratique du niveau d'utilité des données anonymisées.
 
Dans un premier temps, nous proposons une nouvelle métrique, le Discrimination Rate (DR), basée sur la théorie de l'information et qui évalue la capacité d'un attribut à raffiner un ensemble d'individus avec des valeurs comprises entre 0 et 1 (par exemple un identifiant à un DR égale à 1 car il permet un raffinement parfait). Le DR nous permet de: (1) proposer une définition formelle de l'identifiant et d'introduire de nouvelles notions telles que l'identifiant partiel et le zero-identifiant (2) évaluer l'anonymisation des données avec une grande finesse (jusqu'au niveau de la valeur d'un attribut). Nous évaluons et comparons ainsi la k-anonymity et la l-diversity en fonction des attaques de ré-identification connues, et soulignons certaines incohérences.
 
Dans un second temps, nous proposons le Semantic Disrimination Rate (SeDR), une amélioration du DR qui permet: (2) des mesures encore plus flexibles et ainsi, de prouver que la t-closeness (reconnu meilleure que la l-diversity) peut être pire que la l-diversity sous certaines conditions.
 
Finalement, (3) nous proposons une approche pragmatique de l'évaluation de l'utilité des données (basée sur le SeDR), dite a posteriori, car s'appuyant uniquement sur les données anonymisées et sur un besoin définit d'utilité. En effet, en pratique, l'évaluation de l'utilité des données par les services qui souhaitent les exploiter se fait uniquement sur la base d'un jeu de données anonymisées et d'un besoin définit d'utilité. Cependant, les mesures actuelles évaluent plutôt à quel point les données anonymisées reflètent les données d'origine
(ces dernières n'étant pas accessibles).
 
 
 
 
 
 
  • Guillaume SANTINI « Conception, fabrication et caractérisation d'un photorécepteur cohérent réalisé en filière PIC InP pour les applications à 100-400Gbit/s »
    le 20 décembre 2017 à 14:00
    Salle Émeraude - Télécom PariTech, 46 Rue Barrault, 75013 Paris

 

Résumé :

Ce travail porte sur la conception, la fabrication et la caractérisation d’un photorécepteur cohérent en filière PIC InP pour les applications 100-400 Gbit/s. La solution retenue est un récepteur cohérent pré-amplifié par un SOA pour permettre d’améliorer la responsivité du récepteur par rapport à un récepteur cohérent classique. De plus, ce récepteur est réalisé en technologie enterrée pour permettre un fonctionnement sur une plus grande gamme de longueurs d’onde. Enfin, un récepteur cohérent non pré-amplifié est aussi réalisé pour pouvoir évaluer l’impact de l’intégration du SOA sur le fonctionnement de notre récepteur.

La première partie de cette étude est consacrée à des rappels sur les transmissions optiques à très haut débit, à un état de l’art sur les récepteurs cohérents, à une présentation des différents photodétecteurs et à une présentation de l’hybrid 90° qui est le composant cœur des récepteurs cohérents.

Dans un second temps, nous présentons les différents choix retenus pour la conception de notre récepteur. L’étude de deux hybrid 90° simulés en technologie ridge et en technologie enterrée est détaillée. Nous commentons également le choix des photodiodes ainsi que le choix du SOA utilisé pour notre composant.

Le troisième chapitre est consacré aux différentes étapes technologiques permettant la fabrication de notre récepteur cohérent pré-amplifié. Nous commençons par une description des différentes techniques d’épitaxie utilisées. Ensuite, nous présentons en détails les 22 étapes technologiques nécessaires pour réaliser notre récepteur.

Enfin, nous regroupons l’ensemble des caractérisations réalisées sur notre récepteur cohérent. Après un rappel sur les différentes parties de celui-ci et de leurs performances clés, nous caractérisons les composants unitaires formant notre récepteur (mixeur cohérent, photodiodes UTC et SOA). Enfin nous présentons les caractéristiques statiques et dynamiques de notre récepteur et nous comparons ses performances avec celles de l’état de l’art.

Ce travail de thèse permet de démontrer la faisabilité d’un récepteur pré-amplifié utilisant un SOA intégré en technologie InP enterrée avec un record de responsivité de 5 A/W. Ceci représente un gain de 12,5 dB par rapport à un récepteur cohérent non amplifié idéal et un gain de 15,5 dB par rapport à l’état de l’art des récepteurs cohérents. De plus, la consommation engendrée par cette intégration reste très faible (240 mW). Enfin, nous avons démontré une démodulation à 32 Gbauds avec un facteur Q de 14 dB. La bande passante de 40 GHz de nos diodes est compatible avec des applications à 56 Gbauds et peut être améliorée pour des applications à 100 Gbauds en réduisant la taille des photodiodes. Ce travail de thèse ouvre donc le chemin pour de nouveaux récepteurs pré-amplifiés par un SOA pour des applications à 400 Gbit/s.

 

 

  • Sanaa CHAFIK « Méthodes d’apprentissage automatique pour la Recherche par le Contenu de l’Information” “Machine Learning Techniques for Content-based Information Retrieval »
    le 22 décembre 2017 à 09:30
    Université Hassan II de Casablanca - Ecole Nationale Supérieure d’Electricité et de Mécanique (ENSEM) Route d'El Jadida - Casablanca - Maroc

 

Résumé :

Avec l’évolution des technologies numériques et la prolifération d'internet, la quantité d’information numérique a considérablement évolué. La recherche par similarité (ou recherche des plus proches voisins) est une problématique que plusieurs communautés de recherche ont tenté de résoudre. Les systèmes de recherche par le contenu de l’information constituent l’une des solutions prometteuses à ce problème. Ces systèmes sont composés essentiellement de trois unités fondamentales, une unité de représentation des données pour l’extraction des primitives, une unité d’indexation multidimensionnelle pour la structuration de l’espace des primitives, et une unité de recherche des plus proches voisins pour la recherche des informations similaires. L’information (image, texte, audio, vidéo) peut être représentée par un vecteur multidimensionnel décrivant le contenu global des données d’entrée. La deuxième unité consiste à structurer l’espace des primitives dans une structure d’index, où la troisième unité -la recherche par similarité- est effective.

Dans nos travaux de recherche, nous proposons trois systèmes de recherche par le contenu de plus proches voisins. Les trois approches sont non supervisées, et donc adaptées aux données étiquetées et non étiquetées. Elles sont basées sur le concept du hachage pour une recherche efficace multidimensionnelle des plus proches voisins. Contrairement aux approches de hachage existantes, qui sont binaires, les approches proposées fournissent des structures d’index avec un hachage réel. Bien que les approches de hachage binaires fournissent un bon compromis qualité-temps de calcul, leurs performances en termes de qualité (précision) se dégradent en raison de la perte d’information lors du processus de binarisation. À l'opposé, les approches de hachage réel fournissent une bonne qualité de recherche avec une meilleure approximation de l’espace d’origine, mais induisent en général un surcoût en temps de calcul.

Ce dernier problème est abordé dans troisième contribution. Les approches proposées sont classifiées en deux catégories, superficielle et profonde. Dans la première catégorie, on propose deux techniques de hachage superficiel, intitulées Symmetries of the Cube Locality sensitive hashing (SC-LSH) et Cluster-Based Data Oriented Hashing (CDOH), fondées respectivement sur le hachage aléatoire et l’apprentissage statistique superficiel. SCLSH propose une solution au problème de l’espace mémoire rencontré par la plupart des approches de hachage aléatoire, en considérant un hachage semi-aléatoire réduisant partiellement l’effet aléatoire, et donc l’espace mémoire, de ces dernières, tout en préservant leur efficacité pour la structuration des espaces hétérogènes. La seconde technique, CDOH, propose d’éliminer l’effet aléatoire en combinant des techniques d’apprentissage non-supervisé avec le concept de hachage. CDOH fournit de meilleures performances en temps de calcul, en espace mémoire et en qualité de recherche.

La troisième contribution est une approche de hachage basée sur les réseaux de neurones profonds, appelée,Unsupervised Deep Neuron-per-Neuron Hashing (UDN2H). UDN2H propose une indexation individuelle de la sortie de chaque neurone de la couche centrale d’un modèle non supervisé. Ce dernier est un auto-encodeur profond capturant une structure individuelle de haut niveau de chaque neurone de sortie.

Nos trois approches, SC-LSH, CDOH et UDN2H, ont été proposées séquentiellement durant cette thèse, avec un niveau croissant, en termes de la complexité des modèles développés, et en termes de la qualité de recherche obtenue sur de grandes bases de données d'information.