BASE DE DONNEES DES GRANDES TAILLES ET CLOUD COMPUTING

Abstract

The advent of modern technologies has led to a proliferation of data, giving rise to the concept of Big Data. This field is defined by volumes, velocities, and a variety of data that exceed the capabilities of traditional computer systems, requiring specific technological approaches for effective exploitation. Big data is ubiquitous, emanating from social networks, the Internet of Things (IoT), mobile applications, and online transactions. The main objective of Big Data is to store, analyze, and retrieve the results of data analysis to derive meaningful value. The characteristics of Big Data are often summarized by the “5 Vs”: Volume, Velocity, Variety, Veracity, and Value.

Alongside the expansion of Big Data, community detection has become essential for understanding complex structures within networks. A community is defined as a group of highly interconnected nodes within a network, with weaker links to external nodes. These complex networks, studied in computer science, biology, and social sciences, are characterized by heterogeneous topology, short average path length, and high clustering coefficient. Graph modeling, whether directed or undirected, is fundamental for representing these interconnections and analyzing communities.

The emergence of NoSQL (Not Only SQL) databases is a direct response to the limitations of relational databases in the face of the massive volumes and diversity of Big Data. NoSQL databases, which are non-relational and have no fixed schema, facilitate the storage and analysis of unstructured data, scaling, and real-time processing. They are particularly used for distributed data stores and real-time web applications, especially by technology giants that collect terabytes of data every day. The main types of NoSQL databases are document-oriented (storage in JSON, BSON, XML), column-oriented (flexible and horizontally scalable, suitable for large volumes of data and fast read/write operations), and graph-oriented (modeling data as nodes and edges, effective for exploring relationships in social networks or recommendation systems).

The Internet of Things (IoT) is a major contributor to the generation of this massive data, with connected sensors and devices that continuously collect information. The IoT refers to the interconnection via the Internet of objects, places, and physical environments, enabling communication between their digital and physical existences. This interconnection generates large amounts of data that can be used to create intelligent and automated services.

Keywords: Big Data, Community Detection, Complex Networks, Graphs, NoSQL, Internet of Things (IoT), Data Analysis, Non-Relational Databases.

Résumé

L’avènement des technologies modernes a engendré une prolifération de données, donnant naissance au concept de Big Data. Ce domaine est défini par des volumes, des vélocités et une variété de données qui excèdent les capacités des systèmes informatiques traditionnels, nécessitant des approches technologiques spécifiques pour une exploitation efficace. Les mégadonnées sont omniprésentes, émanant des réseaux sociaux, de l’Internet des Objets (IoT), des applications mobiles et des transactions en ligne. L’objectif principal du Big Data est le stockage, l’analyse et la restitution des résultats d’analyse des données pour en tirer une valeur significative. Les caractéristiques du Big Data sont souvent résumées par les « 5 V »: Volume, Vélocité, Variété, Véracité et Valeur.

Parallèlement à l’expansion du Big Data, la détection de communauté est devenue essentielle pour appréhender les structures complexes au sein des réseaux. Une communauté est définie comme un groupe de nœuds fortement interconnectés au sein d’un réseau, avec des liens plus faibles vers les nœuds externes. Ces réseaux complexes, étudiés en informatique, biologie et sciences sociales, se caractérisent par une topologie hétérogène, une courte longueur moyenne de chemin et un coefficient de clustering élevé. La modélisation par graphes, qu’ils soient orientés ou non, est fondamentale pour représenter ces interconnexions et analyser les communautés.

L’émergence des bases de données NoSQL (Not Only SQL) constitue une réponse directe aux limites des bases de données relationnelles face aux volumes massifs et à la diversité des données du Big Data. Les bases NoSQL, non relationnelles et sans schéma fixe, facilitent le stockage et l’analyse de données non structurées, le scaling et les traitements en temps réel. Elles sont particulièrement utilisées pour les Data Stores distribués et les applications web en temps réel, notamment par des géants de la technologie qui collectent des téraoctets de données quotidiennement. On distingue principalement les bases de données NoSQL orientées document (stockage en JSON, BSON, XML), orientées colonne (flexibles et scalables horizontalement, adaptées aux grands volumes de données et aux opérations rapides en lecture/écriture), et orientées graphe (modélisant les données en nœuds et arêtes, efficaces pour explorer les relations dans les réseaux sociaux ou systèmes de recommandation).

L’Internet des Objets (IoT) est un contributeur majeur à la génération de ces données massives, avec des capteurs et dispositifs connectés qui collectent des informations en continu. L’IoT désigne l’interconnexion via Internet d’objets, de lieux et d’environnements physiques, permettant une communication entre leurs existences numériques et physiques. Cette interconnexion génère de grandes quantités de données exploitables pour créer des services intelligents et automatisés.

Mots-clés: Big Data, Détection de Communauté, Réseaux Complexes, Graphes, NoSQL, Internet des Objets (IoT), Analyse de Données, Bases de Données Non Relationnelles.

Retour en haut