Publication en ligne des thèses de Télécom SudParis

Retrouvez sur theses.fr l'ensemble des thèses soutenues par les docteurs de Télécom SudParis, membre de la Comue Université Paris-Saclay.

Publication en ligne des thèses de Télécom SudParis

Soutenances de thèses

AVIS DE SOUTENANCE de Monsieur Jose Alfredo ALVAREZ ALDANA

Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l'Université Paris-Saclay, préparé à Télécom SudParis en :

Informatique

« [DisMonTest] Une Méthode de test fonctionnel en-ligne basée sur une approche de monitorage distribuée continue appliquée aux systèmes communicants. »

le VENDREDI 28 SEPTEMBRE 2018 à 14h00

à Télécom SudParis

9 Rue Charles Fourier, 91000, Évry - Salle A003

Membres du jury :

M. Stéphane MAAG, Professeur, Télécom SudParis, FRANCE - Directeur de thèse
M. Farid NAIT-ABDESSELAM, Professeur, Université Paris Descartes, FRANCE - Rapporteur
M. Hacène FOUCHAL, Professeur, Université de Reims Champagne Ardennes, FRANCE - Rapporteur
M. Philippe DAGUE, Professeur, LRI, Université Paris Sud, FRANCE - Examinateur
M. Philippe JACQUET, Ingénieur de Recherche, Nokia Bell-Labs France, INRIA, FRANCE - Examinateur
Mme Fatiha ZAIDI, Professeure, LRI, Université Paris Sud, FRANCE - Encadrante de thèse

Résumé :

Les réseaux MANET représentent un domaine important de recherche en raison des nombreuses opportunités découlant des problématiques et des applications inhérentes à ce type de réseau. Les problématiques les plus récurrentes sont la mobilité, la disponibilité ainsi que les ressources limitées. Un intérêt bien connu dans les réseaux et donc dans les MANET est de monitorer les propriétés de ce réseau et de ses nœuds. Les contraintes des MANET peuvent avoir un impact significatif sur les efforts mis en œuvre pour les monitorer. La mobilité et la disponibilité peuvent créer des résultats incomplets pour le monitorage. Les propriétés usuelles utilisées en monitorage sont simples, comme notamment la consommation moyenne du processeur, la bande passante moyenne, etc. De plus, l'évolution des réseaux a conduit à un besoin croissant d'examiner des comportements plus complexes, dépendants et imbriqués. La littérature indique que la précision des valeurs obtenues par monitorage et donc des approches n'est pas fiable et difficile à atteindre en raison des propriétés dynamiques du MANET. Nous proposons donc des architectures de surveillance décentralisées et distribuées qui reposent sur de multiples points d'observation. L'approche décentralisée combine des algorithmes dits hiérarchiques et de ‘gossip’ pour fournir une approche de monitorage efficace. Grâce à des expérimentations approfondies, nous avons conclu que même si nous étions en mesure d'atteindre d’excellentes performances, la fragmentation du réseau a toujours un impact sévère sur la méthodologie mise en place. Essayant d'améliorer notre technique, nous avons proposé une approche distribuée pour améliorer l'efficacité et la précision globale. Il fournit un mécanisme de consensus qui lui permet d'agréger de nombreux résultats fournis par plusieurs nœuds et fournit un résultat plus significatif et plus précis. Nous soutenons notre proposition avec de nombreuses définitions mathématiques qui modélisent les résultats locaux pour un seul nœud et les résultats globaux pour le réseau. Nos expériences ont été évaluées avec un émulateur construit en interne qui s'appuie sur Amazon Web Services, NS-3, Docker et GoLang avec un nombre variable de nœuds, la taille du réseau, sa densité, la vitesse des noeuds, les algorithmes de mobilité et les délais. Grâce à cet émulateur, nous avons pu analyser plusieurs aspects en fournissant des testbeds reproductibles, documentés et accessibles. Nous avons obtenu des résultats prometteurs pour les deux approches, et surtout pour l'approche distribuée en particulier en ce qui concerne la précision des valeurs obtenues par monitorage.

Abstract :

MANETs represent a significant area of network research due to the many opportunities derived from the problematics and applications. The most recurring problematics are the mobility, the availability and also the limited resources. A well-known interest in networks and therefore in MANETs is to monitor properties of the network and nodes. The problematics of the MANETs can have a significant impact on the monitoring efforts. Mobility and availability can create incomplete results for the monitoring. The usual properties discussed in monitoring are simple ones, e.g., average CPU consumption, average bandwidth and so on. Moreover, the evolution of networks has led to an increasing need to examine more complex, dependant and intertwined behaviors. The literature states that accuracy of the approaches is not reliable and difficult to achieve due to the dynamic properties of the MANET. Therefore we propose a decentralized and distributed monitoring architectures that rely on multiple points of observation. The decentralized approach combines gossip and hierarchical algorithms to provide an effective monitoring approach. Through extensive experimentation, we concluded that although we were able to achieve exceptional performance, network fragmentation still has a harsh impact on the approach. Trying to improve our approach, we proposed a distributed approach, relying on stronger bedrock to enhance the overall efficiency and accuracy. It provides a consensus mechanism that allows it to aggregate and provides a more meaningful and accurate result. We support our proposal with numerous mathematical definition that models local results for a single node and global results for the network. Our experiments were evaluated with an emulator built in-house that relies on Amazon Web Services, NS-3, Docker and GoLang with varying number of nodes, network size, network density, speed, mobility algorithms and timeouts. Through this emulator, we were able to analyze multiple aspects of the approaches by providing a repeatable, documented and accessible test beds. We obtained promising results for both approaches, but for the distributed approach, especially regarding accuracy.

AVIS DE SOUTENANCE de Monsieur Seif Eddine HAMMAMI

Informatique & Réseaux

«Optimisation dynamique des ressources des réseaux cellulaires basé sur les techniques d'analyses de données et des techniques d'apprentissage automatiques»

le 20 septembre 2018 à 14:00 - Salle Amphi 34-Batiment 862
Adresse : CEA Saclay Nano-INNOV, 8 Avenue de la Vauve, 91120 Palaiseau

Directeur de thèse :

Hossam AFIFI - Professeur HDR

Rapporteurs :

Hacène FOUCHAL - Professeur - Université de Reims-Champagne-Ardenne

Mathieu BOUET - Directeur d'études - Thalès - France

Examinateurs :

Houda LABIOD - Professeure - Télécom ParisTech

Yvon GOURHANT - Ingénieur de recherche - Orange Labs

Hassine MOUNGLA - Maître de conférences - Université Paris Descartes

Résumé :

Les traces réelles des réseaux cellulaire est la clé de voute de ma thèse de doctorat. En effet, je propose dans cette thèse des nouvelles approches dans l’étude et l’analyse des problématiques des réseaux de télécommunications en utilisant ces traces réelles contrairement aux approches classiques basées sur des jeux de données simulés ou générées par des processus aléatoires. Ces traces cellulaires sont présentes sous la forme de jeux de données de CDR (Call Detail Records ou statistiques d’appels) représentés par des information horodatées sur chaque interaction de l’abonné avec l’infrastructure des réseaux mobile, quelques soient les appels reçus/émis, des SMS ou des sessions d’internet. Vu leur richesse et le fait qu’ils reflètent des cas d’usages réels, les informations massives qui peuvent être extraites et analysées de ces jeux donnés, ont été exploités intensivement dans mes travaux de thèse pour développer de nouveaux algorithmes qui ont pour but de changer littéralement les mécanismes de gestion et d’optimisation dans le cadre de l’usage des ressources réseaux. Outre les informations temporelles, les CDRs contiennent aussi les informations géographiques qui projettent l’emplacement instantané de l’abonné durant ses interactions. En combinant les échelles temporelles et géographiques, nous pouvons déduire les dynamicités spatio-temporelle de l’usage réseaux de chaque abonnée ainsi que les modèles dynamiques de l’utilisation de la bande passante sur les stations de bases.
Les jeux de données des CDR sont généralement des données brutes et qui nécessitent des outils avancés d’analyse de données et d’intelligence artificielle afin d’extraire les informations les plus importantes. Dans ce contexte, on propose dans cette thèse une étude structurée pour analyser des traces réelles de CDRs réels comme les traces du « D4D challenge » contenant les données du réseau cellulaire d’Orange Sénégal et les traces du « Big Data challenge » fournis par l’opérateur Telecom Italia. Notre méthode consiste, en premier lieu, à regrouper intelligemment les séries temporelles journalières de charge sur les stations de bases dans des classes pertinentes. Nous proposons pour ça d’utiliser un algorithme modifié de K-means basé sur la distance DTW (Dynamic Time Warping) qui a été montré plus performante que la distance euclidienne classique. Cet algorithme, nous a permis, de classer les séries temporelles de charge pour chaque station de base dans trois classes principales. Une première classe pour les profils de « Pic de charge matinale », une classe pour les profils de « Charge constante » et une dernière classe pour les « Pic de charge nocturne ». Cette première classification, nous permet de proposer notre algorithme de classification automatique et massive des profiles journalières des stations de bases basé sur la machine d’apprentissage SVM (Support Vector Machine). Cette classification automatique est importante pour les opérateurs de réseaux et peut leur servir à adapter l’allocation de ressource radio selon ces profiles.
Afin de garantir la continuité du service pour les abonnées, il est important d’estimer avec précision la dynamicité de la bande passante sa migration instantanée entre les différents endroits dans le futur. Ceci revient à étudier les déplacements des abonnées, qui reflètent aussi un potentiel déplacement de demande de bande passante, entre les zones classifiées précédemment. On propose pour cet objectif, une nouvelle forme de matrice « Origine-Destination » basée sur les résultats de classification, qui nous permet d’estimer les futurs
taux de déplacement de la demande de bande passante entre les classes de zones. En d’autres termes, elle projette la mobilité de bande passante durant la journée.
Le deuxième chapitre de cette thèse répond à une question importante : Est-t-il possible d’exploiter les traces de CDRs pour implémenter des algorithmes capables de prédire avec précision les futurs taux de charge sur chaque station de base ? Dans la continuité du premier chapitre, nous abordons cette problématique en proposant une étude pour les caractéristiques des séries temporelles de charge journalière et en implémentant un modèle de prédiction basé sur l’algorithme d’apprentissage SVR (Support Vector Regression). Nous fournissons une comparaison des performances avec d’autres algorithmes de prédictions connus qui montrent l’efficacité de notre modèle.
Nous intégrons par la suite les modèles que nous avons proposé dans un outil flexible qui permet l’optimisation dynamique des ressource réseaux basé sur les traces réelles. Nous évaluons notre solution en l’appliquant sur une architecture basée sur un réseau sans fil mesh proposé dans le projet national LCI4D. l’optimisation de ce réseau est faite par un algorithme qui exploite les résultats des modules d’analyse de données. Une deuxième évaluation pour notre outil est proposée et qui consiste à l’appliquer sur une topologie dynamique basé sur des cellules-drones (des drones embarquant des femto-cells). Nous proposons pour ça un algorithme d’apprentissage renforcé multi-agent qui exploite aussi les résultats des modules d’analyse de données pour optimiser dynamiquement et en temps réel cette topologie.
Dans la continuité du contexte d’analyse des traces réelles de CDRs, nous proposons dans un dernier chapitre, un deuxième outil qui sera capable de détecter proactivement les anomalies dans les réseaux cellulaire qui peuvent se produire suite à un pic de consommation brusque ou une chute due à des problèmes techniques. Cet outil est basé sur les algorithmes OCSVM (One-class SVM) et SVR qui permettent de distinguer en temps réel les profile de charge anormale. L’outil est testé en utilisant les traces du « D4D challenge » et « Big challenge» et en le comparant à d’autre technique de détection d’anomalies et les résultats montrent qu’il est plus efficace. Nous validons aussi le modèle pour analyser l’impact des données proliférantes issues des nouvelles applications comme celle de l’e-santé. Notre modèle est capable de détecter les anomalies due à l’injection de ces nouvelles sources de données et qui impactent évidement l’usage normal des réseaux cellulaire.

Abstract:

Mobile phone datasets is the central keystone of my Phd. Where I propse new approaches in the study of networking problems using those real dynamic data rather than the old conventional approaches based on simulations and random inputs. Most of these datasets consist of Call Data Records (CDRs) metadata, i.e. a time-stamped dataset of all interactions between the subscribers of a mobile operator and the network infrastructure during a given period. Given their large size and the fact that these are real-world datasets, information extracted from these datasets have intensively been used in my work to develop new algorithms that aim to revolutionize the infrastructure management mechanisms and optimize the usage of resource. CDR metadata contains also, in addition to temporal information, other information about the geographic scale subscribers’ network usage. Combining the temporal and geographical information certainly helps to infer the spatio-temporal dynamics of subscribers use of the network resource as well as the dynamic patterns of the base-station throughout the day.
The issue with these CDR metadata is that they are provided in a raw format and the most relevant information are hidden within the large scale of datasets. This needs advanced tools, such as data mining technique and machine learning algorithms, to extract the relevant knowledge. In this context, we provide in this thesis a data mining study of a real-world CDRs dataset such as D4D challenge dataset provided by Orange Senegal and the big data challenge dataset provided by Telecom Italia. Our analysis method consists in clustering the base stations daily load time-series into relevant classes. We use for that a modified k-means clustering algorithm based on the dynamic time warping (DTW) distance. This clustering results in dividing the base station load time-series, extracted from the D4D challenge dataset, into three relevant classes. Each class belong to a specific base station load profile, such as a “day-peak load” profile, “Constant load” profile and “Night-peak load” profile. This first analysis phase permits to tag each base station with its corresponding profile class. The profiled data are used then to implement an automatic classification machine learning based on support vector machine (SVM). The classification algorithm allowed us to infer automatically the daily class of each base station time-series contained into the large-scale dataset. These information are important for network operators to propose dynamic algorithms for radio resource allocation that follow the instantaneous load fluctuation.
To enhance the continuity of network services, it is important to estimate with high confidence how the bandwidth demand on a base station at a given time is shared among all the base stations in the following instants. We exploit then the classification of base stations profiles to analyze the mobility of the network bandwidth between areas. We use for this objective a novel form of the “origin-destination” matrix based on the classification. This classified OD matrix provides aggregate information about the mobility of the load usage. In other words, it projects the mobility of the bandwidth between areas.
The second chapter of this thesis respond to the following question: Is it possible to use the CDRs dataset to implement an algorithm able to predict with higher accuracy the future network load? In the continuity of the first chapter, we address this issue on our thesis and we
Commenté [SH1]: DTW provides more accurate similarity measurement for time-series data contrary to other techniques such as the classical Euclidean distance or the coefficient of correlation
provide an analysis to study the characteristics of the base stations load time-series and we propose a prediction model based on support vector regression. Our solution is compared to other prediction techniques and the results proved the high efficiency of the SVR-based prediction model.
We combine the network classification, bandwidth mobility and load prediction algorithms into a global framework that propose a dynamic network resource allocation techniques based on real data analysis. We evaluate the framework in the third chapter where we optimize the planning of a wireless mesh network proposed in the LCI4D project. In this chapter, we propose a MILP algorithm that provide a dynamic and fault-tolerant planning for a wireless mesh network that takes as input the cell load time-series resulting from the machine learning tools presented previously.
We also validate our data analysis framework with an innovative network architecture based on drones-cells. Hence, we propose a dynamic solution for drone-cells networks that exploit real traces of demand profiles, output from the framework, and adapt in real time the deployment of drones-cell according these demands. In this part, we propose to optimize the deployment using the machine learning paradigm instead of classical linear programming models. Our solution is based on a multi-agent reinforcement learning (MARL) approach.
In the continuity of the CDRs dataset analysis and the load prediction, we propose in our thesis a second framework that consists in detecting pro-actively the anomalous load patterns of the network that may occur during mass events or network technical issues. Our anomaly detection framework is based on One-class SVM (OCSVM) and SVR algorithms. It is tested and validated with D4D challenge CDR and Italia telecom datasets. Comparison results shows that our model outperforms other techniques. We use our framework to analyze the impact of the proliferous e-health data generated by the medical smart-phone applications.