logo

R expliqué à ma fille

Les pivots dans R expliqués à ma fille

De nombreux cas de figure dans R nécessitent de réorganiser les données de manière à changer ce que représente une ligne dans un data.frame : tableaux croisés statistiques, construction de graphiques, opération à réaliser systématiquement sur N colonnes. Des pivots (en général partiels) dans les données sont alors à envisager ; nous verrons ici les fonctions pivot_longer et pivot_wider du package {tidyr}, élément du méta-package {tidyverse}. A noter que ce document est une version plus récente et plus courte d’un article plus […]

La régression logistique avec R, sa vie, son oeuvre

La régression logistique sous R expliquée à ma fille La régression logistique n’est pas, en soi, un modèle si compliqué. Mais les résultats qu’on peut en tirer sont nombreux, et la seule fonction glm du package {stats} ne les présente pas toujours de façon simple. Petit tour des possibilités offertes par des packages complémentaires pour tout comprendre des résultats d’un modèle. Les données : passagers du Titanic Le package {carData} contient un data.frame appelé TitanicSurvival. Il recense les 1309 passagers […]

Dictionnaire de SAS vers R

C comme CONTENTS : pour mieux savoir quelles variables contient un data.frame, la fonction str donne un bon aperçu. Une alternative est glimpse du package {tibble} D comme DATE : plusieurs types de R stockent des dates, le plus courant étant Date (avec un D majuscule). Les types POSIXlt et POSIXct correspondent eux aux datetimes. Le package {lubridate} est une mine de fonctions pour gérer aisément des dates et des intervalles de temps D comme DDE (lien) : le package {openxlsx} propose de […]

L’utilité d’un factor expliquée à ma fille

Je trouve que ma fille a l’air sonnée. Qu’est-ce qui a pu la secouer ainsi ? Je l’interroge et elle me dit qu’elle a essayé de manipuler des factors sous R. Ce n’est d’ailleurs pas la première fois que ça la met dans cet état… Le factor sonne toujours deux fois.   Commençons par créer deux petits jeux d’essai pour mieux saisir ce qu’est un factor dans R. Il s’agit des nombres d’élèves dans l’enseignement du 1er degré (maternelle + […]

Les transpositions dans R expliquées à ma fille

Un problème de riche Transposer des données, c’est-à-dire transformer des lignes en colonnes ou des colonnes en lignes, n’est généralement pas une opération facile. Sous R, la principale difficulté vient de la multiplication de packages pour réaliser cette opération : ici nous décrirons la logique et les avantages de trois d’entre eux, {reshape2} qui est le plus ancien, {tidyr} qui est intégré au tidyverse et {cdata} qui propose une approche assez différente via un “plan de transposition”. Commençons par créer […]