Quand on commence les recherches sur le Big Data, on tombe rapidement sur une longue liste de termes et d’appellations. On s’y perd souvent vite. Quand on apprend aussi que plusieurs termes sont le résultat d’une campagne “marketing”, la tâche d’identifier chaque terme se compléxifie. Dans cette page nous allons faire une liste des termes sur lesquels on tombe souvent quand on fait des recherches autour du Big Data. Un court descriptif permettra, nous espérons, de clarifier un peu les subtilités de chaque terme.

Big Data

Littéralement “Big Data” veut dire “grandes données”. Mais le terme “Big Data” est devenu l’ensemble de toutes les technologies autour de l’analyse de grandes quantités de données, incluant la visualisation, et même la prise de décision.

Wikipédia résume plutôt bien la généralité de ce terme : https://fr.wikipedia.org/wiki/Big_data

Open Data

Traduit par « données ouvertes ». Ces données sont numériques. Le « Open » veut dire que ces données sont diffusées sous une licence ouverte ce qui veut dire que tout le monde peut y accéder et les utiliser, gratuitement et librement. Ceci ne veut pas dire que ce sont des données du domaine public, bien qu’il y a une initiative pour que les données du domaine public deviennent toutes publiques et libres. Des données du domaine privé sont aussi mises à disposition en tant qu’Open Data.

Smart Data

Littéralement: la donnée intelligente. Concrètement elle se traduit comme la donnée significative, fondamentale, et surtout pertinente. C’est à dire on veut, à partir d’une large quantité de données, extraire une partie. L’extraction se fait à travers toutes les méthodes de Big Data. Cette “sélection”, pour les mêmes données d’origine, peut différer par rapport à l’interlocuteur et la finalité de l’analyse. D’où la notion de pertinence. Ces données “intelligentes” vont en général être au coeur des prises de décision.

Data analysis

Analyse de données qui inclus l’inspection, la transformation, la modélisation, et les conclusions. L’expression peut inclure la visualisation.

Le Data Mining est une technique particulière d’analyse de données. Le Data Mining a la particularité de se concentrer sur la modélisation. Ce dernier implique une analyse « simplement » descriptive, et qui est souvent utilisée pour des fins prédictives.

La Predictive analytics (analyse prédictive), est aussi une technique particulière d’analyse de données, qui se concentre, comme le nom l’indique, sur l’application des modèles statistiques de prédiction.

Data Mining

Wikipédia définit le Data mining comme la détermination de patterns intéressants dans un large set de données.

Mais globalement ce terme peut inclure l’intelligence artificielle (Artificial Intelligence), le “Machine learning”, les statistiques, et les systèmes de bases de données. Le Data mining est aussi présenté comme du “Knowledge discovery in databases” (KDD, voir paragraphe suivant)

Différentes tâches sont liées au data mining, elles incluent:

  • Détection d’anomalies (Anomaly Detection): L’identification de données “peu communes”. Ces données peuvent être intéressantes, ou des erreurs qui demandent une investigation supplémentaire.
  • Association rule learning : recherche de relation entre variables.
  • Clustering : Mise en evidence de groupes ou structures dans les données qui sont “similaires”, sans forcément utiliser des structures déjà connues dans les données.
  • Classification : Généraliser les structures mises en évidence pour éventuellement les appliquer à de nouvelles données
  • Régression : Trouver une fonction qui modélise les données avec le minimum d’erreurs.
  • Résumé (Summarization) : Donner une représentation plus compacte du jeu de donnée

KDD

Knowledge discovery in databases, qui peut être traduit par “découverte de connaissances dans des bases de données”. Les étapes d’un KDD peuvent être représentées comme ceci:

  • Compréhension du métier
  • Compréhension des données
  • Préparation des données
  • Modélisation
  • Evaluation
  • Déploiement

Machine Learning

Le Machine Learning peut être défini comme le développement d’algorithmes qui ne se contentent pas d’analyser les données mais qui apprennent à partir des données. Il est basé sur la reconnaissance de patterns.

Quelques exemples parlants :

  • Filtre de spam
  • Reconnaissance de caractères (OCR)
  • Moteur de recherche

Pre-processing

Peut être traduit par traitement de données, si cette étape est considérée comme pré-analyse. Sinon on peut aussi le traduire comme du pré-traitement. L’idée est de partir de données brutes pour arriver à un jeu de données analysable.

Selon le cas, le pre-processing peut inclure :

  • Regroupement
  • Nettoyage (de bruit par exemple)
  • Exclusion d’observations incomplètes
  • Etc.

Data Science

Le “Data” de “Data Science” vient en opposition à « l’experimental science » (science de l’expérimentation). Celà reste une expression très générale qui inclut tout ce que le Data mining inclut, avec la visualisation en plus.

NB: Ca a l’air d’être une expression « française »

Deep learning

Fait partie de la famille des méthodes « Machine Learning ». Le “plus” étant de représenter les données différemment, idéalement en réduisant leur taille et en les remplaçant par une représentation significative.

Ces algorithmes incluent plusieurs couches de traitements pour l’extraction et la transformation des caractéristiques. A travers les couches on passe du haut niveau au bas niveau.

Ces méthodes sont intéressantes pour l’intelligence artificielle.

Un exemple parlant est la reconnaissance faciale.

Business intelligence

Traduit par “Informatique décisionnnelle”, ce terme exprime souvent l’exploitation des données d’entreprise dans sa globalité. Elle inclut alors l’analyse des résultats pour la compréhension du présent de l’entreprise, l’anticipation du futur et les prises de décision entre les 2.

Process Mining

Permet d’extraire un évènement de logs. Dans un workflow d’une boîte ça peut revenir à détecter un processus ou une déviation par rapport à des processus prédéfinis. Aussi connu comme: Automated Business Process Discovery (ABPD)

Web Data Mining

Inclus 3 types de « mining »:

  • Data sources : Permet d’extraire des patterns de sources de données
  • Web structure : Permet d’améliorer le moteur de recherche
  • Web usage patterns : Permet de conseiller un utilisateur, d’adapter le contenu et la structure de la page web, d’adapter les performances du serveur, de faire du marketing sur les sites de e-commerce.

Result Validation

Cette étape vient après l’analyse, ou plus précisemment après le data mining. Dans le sens où elle consiste à appliquer les patterns “appris”, ou “sortis” de l’analyse à un jeu de données test pour valider ces patterns (ou pas). Cette validation est importante, entre autre, pour éviter les “overfitting”.

L’overfitting est le fait de détecter un pattern dans un échantillon de données, mais ce pattern ne s’applique pas à l’ensemble des données et donc n’est pas vraiment réel.

3V/5V

Le big data est souvent représenté par 3 “piliers”: La Variété, la Vitesse et le Volume.

image

credit: http://www.iiste.org/Journals/index.php/CEIS/article/viewFile/20458/20877

A ces 3 piliers se rajoutent dernièrement la Véracité et la Valeur.

Log analysis

Une traduction est l’analyse de logs, mais en général ce terme est plutôt entendu comme analyse du système et/ou du réseau dans les domaines de:

  • Securité
  • Troubleshooting
  • Forensics

Log interpretation

Traduit comme l’interprétation de logs. Elle inclut:

  • La reconnaissance de patterns
  • La normalisation : permet de convertir des messages pour avoir un format homogène et “normalisé”
  • La classification et le “tagging” : classer des messages dans un certain ordre et donner des mots clés pour une utilisation futur.
  • L’analyse de corrélation, pour grouper les messages en “évènements”
  • Ignorer artificiellement des bouts de logs

ClickStream

Aussi appelé “Click Path”, le ClickStream est l’analyse du flux de “clics” d’un utilisateur à travers sa navigation sur un site web. Celà implique la détermination du chemin emprunté par cet utilisateur sur le site. Cette analyse permet donc d’analyser plus globalement le comportement du consommateur. Le but étant d’adapter le contenu et l’ergonomie pour optimiser la navigation de l’utilisateur sur un site web.

Linked Data

Littéralement “données liées”, mais réellement traduit par “Web des données”. En effet le résulat de l’initiative du Linked Data est de former une toile géante (donc Web) de données, toutes interliées. Ces données peuvent provenir de toutes sortes de sources. Les données sont donc assez hétérogènes, mais elles doivent répondre à une condition crutiale: pouvoir être lues par des machines.

Ce concept tourne autour du domaine de la sémantique. Concrètement il se base sur 2 technologies : l’URI (Uniform Resources Identifier) et le protocol HTTP.

Un des plus impressionnants résultats est le “Linking Open Data” qui est une toile géantes de Open Data. Son diagram (mise à jour en Aout 2014) se trouve sur cette page : http://lod-cloud.net/