Science des données : 6 types de données courantes

Écrit par Benoit Rolland, PhD | 2020

 

En raison du succès notable de l’apprentissage automatique, il est parfois facile d’oublier que la science des données est un champ d’expertise vaste ne se limitant pas à l’intelligence artificielle. Il s’agit en réalité d’un concept visant à combiner divers domaines tels que les mathématiques, les statistiques, l’analyse et la visualisation de données, la méthode scientifique et l’informatique dans le but de mieux comprendre le monde qui nous entoure. Cette approche est rendue possible grâce à une ressource immatérielle omniprésente de nos jours: les données.

Avant d’amorcer un projet, il est important de bien comprendre les différences derrière les types de données suivants: numérique, catégorique, continu, discret, nominal et ordinal. Ces connaissances sont essentielles pour cibler la nature statistique des données disponibles et traiter les paramètres en jeu adéquatement. Malgré sa simplicité apparente, cette étape est à la base d’une analyse robuste et significative. En effet, ces caractéristiques dictent habituellement les stratégies d’imputation, les graphiques, les outils statistiques et les algorithmes pouvant être utilisés. La maîtrise de ces diverses propriétés est donc, sans aucun doute, un atout de taille pour tout scientifique des données averti.

 

Types de données

 

1. Numérique

Les variables numériques, ou quantitatives, décrivent des phénomènes ou des propriétés dont la quantité peut être comptée ou mesurée. Toujours représentées par un nombre, elles touchent une panoplie de caractéristiques telles que le poids, la distance, la température, le prix, la durée, le nombre de personnes dans une pièce, etc. Comme cette catégorie est particulièrement vaste, elle englobent plusieurs sous-groupes incluant les données discrètes et les données continues.

 

a) Discrète

Les variables discrètes forment un sous-groupe de variables numériques. Elles sont associées à  des caractéristiques pouvant être comptées, mais pas mesurées.  Elles prennent donc des valeurs entières distinctes telles que l’âge, le nombre de collègues ou le nombre de côtés face obtenus après 50 répétitions.

 

b) Continue

Sous-groupe de variables numérique, les données continue représentent des valeurs pouvant être mesurées, mais pas comptées. Par définition, elles peuvent donc être décrites par tous nombres dans un intervalle donné. La taille, la longueur et la vitesse sont de très bon exemples de variables continues.

 

 

2. Catégorique

Les données catégoriques, aussi appelées qualitatives, englobent toutes les variables mesurant des caractéristiques ou des qualités. Elles peuvent représenter la couleur d’un objet, le sport favori d’une personne, une espèce végétale ou animale, le statut civil, le niveau d’éducation, etc. Habituellement, ces variables sont représentées par du texte, mais peuvent prendre des valeurs numériques si nécessaire (0: non, 1: oui). De plus, elles sont normalement remplacées par des alternatives numériques afin d’être traitées adéquatement par un algorithme ou un ordinateur. Il est à noter que, dans ce contexte, ces nombres réfèrent à une catégorie et n’ont aucun sens mathématique. Tout comme les variables numériques, les données catégoriques possèdent des sous-groupes, notamment les données nominales et les données ordinales.

 

a) Nominale

Les données nominales forment un sous-ensemble de variables catégoriques. Elles peuvent être interprétées tout simplement comme des étiquettes. De plus, ce type de données ne possède pas d’ordre particulier. Un réarrangement des valeurs ne doit donc pas en changer le sens. Le statut marital, la langue maternelle et le nom d’une espèce animale sont de parfaits exemples de variables nominales.

b) Ordinale

Sous-groupe de variables catégoriques, les donnés ordinales représentent des étiquettes ou des caractéristiques pour lesquelles l’ordre revêt une importance cruciale. Des exemples typiques seraient le niveau d’éducation, le rang dans une compétition et  la perception associée à la consommation de piments forts. Les données ordinales possèdent donc de l’information supplémentaire encodée à même la hiérarchie les gouvernant. Cette propriété est fort utile dans un bon nombre d’applications.

L’évaluation d’un modèle prédictif de la qualité de l’eau

L’évaluation d’un modèle prédictif de la qualité de l’eau

Identifier les périodes durant lesquelles l’eau n’est pas sécuritaire pour les activités récréatives, pour le traitement de l’eau potable ou pour la faune et la flore aquatiques est un défi majeur. Traditionnellement, l’échantillonnage est le moyen privilégié pour déterminer si l’eau est sécuritaire. La modélisation prédictive basée sur l’intelligence artificielle (IA) est une approche qui devient de plus en plus populaire.

Une brève introduction à l’analyse des séries temporelles

Une brève introduction à l’analyse des séries temporelles

Une série temporelle est un ensemble de mesures répétées prises séquentiellement dans le temps. Le principal objectif de l’analyse des séries temporelles est de prédire l’avenir d’un certain processus sur la base de ce qui s’est passé dans le passé.