La Révolution du Big Data : Comment extraire de la valeur à partir des big data

Contacter Commenter Site Web Page Web

Introduction

Le “Big data” est le terme à la mode que l’on retrouve actuellement dans toutes les conférences professionnelles en lien avec la data science, la modélisation prédictive, le data mining et le CRM, pour ne citer que quelques-uns des domaines littéralement électrisés par la perspective d’intégrer des jeux de données plus volumineux et des flux de données plus rapidement dans leurs processus métier et d’autres processus organisationnels. Comme c’est souvent le cas lorsque de nouvelles technologies commencent à transformer les industries, de nouvelles terminologies émergent, en même temps que de nouvelles approches pour conceptualiser la réalité, résoudre certains problèmes ou améliorer les processus.
Voilà encore quelques années, nous nous contentions de « segmenter » les clients en groupes susceptibles d’acquérir certains biens ou services spécifiques. Il est désormais possible et courant de construire des modèles pour chaque client en temps réel à mesure qu’il surfe sur Internet à la recherche de biens spécifiques : instantanément, les centres d’intérêt du prospect sont analysés et il est possible d’afficher des publicités ultra ciblées, ce qui constitue un niveau de personnalisation inconcevable il y a seulement quelques années.

Les technologies de géolocalisation des téléphones mobiles et de leur usagers sont matures, et la vision décrite dans le film de science-fiction Minority Report de 2002, où les publicités projetées dans l’enceinte des centres commerciaux ciblent directement les personnes qui passent devant, semble à portée de main. Inévitablement, la déception risque d’être à la hauteur des espérances dans de nombreux domaines tant les technologies autour du big data sont prometteuses. Un nombre restreint de données décrivant avec précision un aspect critique de la réalité (vital pour l’entreprise) est autrement plus précieux qu’un déluge de données relatives à des aspects moins essentiels de cette réalité.

L’objectif de cet article vise à clarifier et mettre en lumière certaines opportunités intéressantes autour du big data, et illustrer la manière dont les plates-formes analytiques STATISTICA de StatSoft peuvent exploiter cette profusion de données dans la perspective d’optimiser un processus, résoudre des problèmes, ou améliorer la connaissance client.

À Partir de Quand Peut-on Parler
de Données Massives ou de Big Data ?

Bien évidemment, il n’existe pas de définition universelle, et la bonne réponse est “ça dépend”. En fait, d’un point de vue pratique, et dans la plupart des discussions relatives à cette thématique, les big data se caractérisent par des jeux de données très volumineux, de l’ordre de plusieurs giga-octets à quelques téraoctets.

Ces données peuvent donc aisément être stockées et gérées dans des bases de données “traditionnelles” et avec du matériel informatique classique (serveurs de bases de données). Le logiciel STATISTICA est multitâches pour toutes les opérations fondamentales d’accès aux données (lecture), et pour tous ses algorithmes de transformation et de modélisation prédictive (et de scoring), ce qui permet d’analyser ces jeux de données (effectivement très volumineux) sans devoir utiliser de nouveaux outils spécialisés.

Gros Volumes de Données

Pour remettre les choses en perspective, certaines des plus grandes banques internationales, clientes de StatSoft, gèrent pour certaines entre 10 et 12 millions de comptes. Avec près de 1.000 paramètres ou caractéristiques (variables) par compte, organisés dans un entrepôt de données dédié au risque et aux autres activités de modélisation prédictive, ce type de fichier représente environ 100 giga-octets ; il ne s’agit pas de petits entrepôts de données, mais rien qui ne dépasse les capacités des technologies classiques des bases de données, et rien d’insurmontable pour STATISTICA, même sur du matériel datant de plusieurs années.

En pratique, un très grand nombre d’applications d’aide à la décision dans le domaine de la santé, du secteur bancaire et financier, de l’assurance, de l’industrie manufacturière, etc…, s’appuient sur des bases de données souvent bien organisées de données clients, de données machines, etc… Dans la plupart des cas, la taille de ces bases de données, et la rapidité avec laquelle elles doivent être analysées pour répondre aux besoins métier essentiels de l’entreprise constituent de véritables défis. Les solutions de scoring et d’analyse par batch de STATISTICA (STATISTICA Entreprise), les solutions en temps réel (STATISTICA Live Score), ou les outils analytiques de création et de gestion de modèles (STATISTICA Data Miner, Plate-Forme Décisionnelle), peuvent aisément être déployés sur plusieurs serveurs multiprocesseurs. Dans la pratique, les analyses prédictives (par exemple, de risque de crédit, de probabilité de fraude, de fiabilité des pièces produites, etc…) peuvent souvent être réalisées très rapidement pour les décisions nécessitant une réponse quasi-instantanée, grâce aux outils STATISTICA, sans aucune personnalisation.

Gros Volumes de Données et Big Data

D’une manière générale, les discussions autour des big data se focalisent sur des entrepôts de données (et leur analyse) dépassant largement plusieurs téraoctets. Plus précisément, certains entrepôts de données peuvent dépasser plusieurs milliers de téraoctets, atteignant plusieurs pétaoctets (1.000 téraoctets = 1 pétaoctet). Au-delà des pétaoctets, les capacités de stockage des données se mesurent en exaoctets ; par exemple, le secteur de l’industrie manufacturière a stocké au total près de 2 exaoctets d’informations nouvelles en 2010 à l’échelle mondiale (Manyika et al., 2011).

Dans certaines applications, les données s’accumulent très rapidement. Par exemple, pour les applications industrielles ou les chaînes de production automatisées, comme pour la production d’électricité, des flux de données continus sont générés chaque minute ou chaque seconde pour parfois plusieurs dizaines de milliers de paramètres. De la même manière, nous avons vu apparaître au cours de ces dernières années la technologie du “smart-grid” pour des réseaux de distribution d’électricité « intelligents », qui permettent de mesurer la consommation électrique de chaque foyer minute par minute, voire seconde par seconde.

Pour ce type d’application, qui nécessite le stockage de données sur plusieurs années, il n’est pas rare de voir s’accumuler rapidement de très grosses volumétries de données (Hopkins et Evelson, 2011). Il existe de plus en plus d’applications dans l’administration et le secteur commercial où le volume de données et la vitesse à laquelle ces données sont accumulées nécessitent plusieurs centaines de téraoctets ou pétaoctets dédiés au stockage et à l’analyse des données. La technologie moderne permet aujourd’hui de suivre les individus et leur comportement de différentes manières, par exemple, lorsque nous surfons sur Internet, que nous achetons des produits sur Internet ou en grande surface (d’après Wikipédia, Walmart gère un entrepôt de données supérieur à 2 pétaoctets), ou que nous laissons notre téléphone portable activé en laissant des informations sur les endroits où nous sommes passés et où nous nous rendons. Les divers modes de communication, du simple appel téléphonique à l’information partagée sur les réseaux sociaux comme Facebook (30 milliards de post chaque mois selon Wikipédia), ou aux sites de partage vidéo comme You Tube (You Tube revendique l’envoi de 24 heures de nouvelles vidéos chaque minute ; source Wikipédia), qui génèrent des quantités massives de nouvelles données quotidiennes. De même, les technologies modernes de santé génèrent des quantités massives de données pour la délivrance de soins (images, films, suivi en temps réel) et le remboursement des organismes de santé.

Défis Techniques du Big Data

Il existe essentiellement trois types de défis autour du big data :

Le stockage et la gestion des données massives, de l’ordre de la centaine de téraoctets ou du pétaoctet, qui dépassent les limites courantes des bases de données relationnelles classiques du point de vue du stockage et de la gestion des données.
La gestion des données non-structurées (qui constituent souvent l’essentiel des données dans les scénarios big data), c’est-à-dire comment organiser du texte, des vidéos, des images, etc…
L’analyse de ces données massives, à la fois pour le reporting et la modélisation prédictive avancée, mais également pour le déploiement.

Lire l’intégralité du Livre Blanc : http://www.statsoft.fr/bigdata

Voir aussi la plateforme STATISTICA HP (Hautes Performances) : http://www.statsoft.fr/HP