logo

SEG Correction – EXERCICE N°9

SEG Correction – EXERCICE N°9

Sans sélectionner de données, démarrer la tâche DONNEES > DEFINIR UN FORMAT. Y définir un format personnalisé de type NUMERIQUE. Puis dans DEFINIR DES FORMATS, chaque libellé correspondra à un intervalle comme ceci : Ouvrir ensuite les données BILANS_2005 et choisir la tâche DESCRIPTION > FREQUENCES A UN CRITERE DE CLASSIFICATION. Glisser FJ dans le rôle VARIABLES D’ANALYSE. Faire un clic droit dans FJ (sous son rôle) > PROPRIETES et lui affecter le format qu’on vient de créer. Exécuter.

SEG EXERCICE N°9

Les descriptifs des fichiers sont ici.   A partir des données BILANS_2005, construire un tableau indiquant la répartition des entreprises par tranche de chiffre d’affaires France (FJ), pour obtenir ceci.

SEG Correction – EXERCICE N°8

A partir de BILANS_2005, démarrer la tâche DESCRIPTION > TABLES DE SYNTHESE. Glisser D26 dans le rôle VARIABLES DE CLASSIFICATION et FJ dans VARIABLES D’ANALYSE. Dans la rubrique TABLES DE SYNTHESE, produire cette configuration. Par des clics droits > PROPRIETES DE L’EN-TETE, modifier les libellés des cases N, FJ MEAN, MEDIAN et TOTAL et vider le libellé de la case D26. Par un clic droit dans le tableau > PROPRIETES DE LA CASE, changer le libellé vide pour le texte […]

SEG EXERCICE N°8

Les descriptifs des fichiers sont ici.   Produire le tableau ci-dessous à partir de BILANS_2005.

SEG Correction – EXERCICE N°7

A partir de BILANS_2005, démarrer la tâche DESCRIPTION > FREQUENCES A UN CRITERE DE CLASSIFICATION. Glisser D26 dans le rôle VARIABLES D’ANALYSE. Dans la rubrique STATISTIQUES choisir FREQUENCES ET POURCENTAGES sur la gauche de l’écran (c’est le 3e choix). Exécuter.

SEG EXERCICE N°7

Les descriptifs des fichiers sont ici. Compter à partir de BILANS_2005 le nombre d’entreprises et le pourcentage qu’elles représentent sur l’ensemble des données de bilans en fonction de leur secteur D26. On ne souhaite pas avoir de cumuls des fréquences ni des pourcentages dans le résultat.

SEG Correction – EXERCICE N°6

Démarrer le générateur de requêtes à partir de BILANS_2005. Cliquer sur AJOUTER DES TABLES (à gauche sous COLONNES CALCULEES) et sélectionner la table SIREN. Un message apparaît, cliquez sur OK. On bascule alors sur la fenêtre correspondant au bouton JOINDRE DES TABLES. Y indiquer que D1 dans BILANS_2005 correspond à SIREN dans SIREN et qu’on souhaite garder TOUTES LES LIGNES DE LA TABLE DE GAUCHE. On obtient cette configuration : Fermer cette fenêtre. Faire glisser dans SELECTIONNER LES DONNEES toutes les […]

SEG EXERCICE N°6

Les descriptifs des fichiers sont ici. Joindre les données BILANS_2005 et SIREN de manière à conserver tous les bilans et à ajouter quand c’est possible la date de création de l’entreprise et son département. Ne retenir dans le résultat que les entreprises alsaciennes (départements Haut Rhin et Bas Rhin, 67 et 68) dont le résultat est bénéficiaire (DI > 0). Il y en a 116.

SEG Correction – EXERCICE N°5

Démarrer le générateur de requêtes à partir de BILANS_2005. Ajouter une COLONNE CALCULEE qui sera une EXPRESSION AVANCEE dont la formule est FJ/(FJ+FK) qu’on peut éventuellement multiplier encore par 100. Dans l’onglet SELECTIONNER LES DONNEES, glisser en tête la colonne D26, puis trois fois la colonne calculée (elle doit déjà s’y trouver une fois par défaut) et enfin D1. Sur les colonnes calculées, choisir les récapitulatifs MEAN, MIN et MAX ; sur D1, choisir le récapitulatif COUNT. En double-cliquant sur le […]

SEG EXERCICE N°5

Les descriptifs des fichiers sont ici. Calculer à partir des BILANS_2005 la part du chiffre d’affaires réalisé en France (pour rappel : FJ est le chiffre d’affaires en France et FK le chiffre d’affaires à l’étranger). Produire au final par secteur (D26) la moyenne, le minimum et le maximum de cette part du CA fait en France, ainsi que le nombre d’entreprises.

SEG Correction – EXERCICE N°4

Démarrer le générateur de requêtes à partir de SIREN. Glisser toutes les colonnes dans SELECTIONNER LES DONNEES. Dans FILTRER LES DONNEES, faire une condition avec DATEFERMETURE et l’opérateur EST MANQUANT. Enfin, cliquer sur le bouton COLONNES CALCULEES en haut à gauche pour en créer une NOUVELLE (choisir EXPRESSION AVANCEE). Les formules sont respectivement SUBSTR(COMMUNE,1,2) pour DEPARTEMENT et YEAR(TODAY())-YEAR(DATECREATION) pour ANCIENNETE.

SEG EXERCICE N°4

Les descriptifs des fichiers sont ici.   Ajouter aux données SIREN deux nouvelles colonnes : le département avec les deux premiers caractères du code commune (COMMUNE) et l’ancienneté en années de l’entreprise à partir de DATECREATION. Pour cette dernière, les fonctions TODAY et YEAR vous permettront de faire les calculs (une entreprise créée en 1990 aura 31 ans d’ancienneté tout au long de l’année 2021). Exclure du résultat les entreprises qui ont une date de fermeture renseignée.

SEG Correction – EXERCICE N°3

Démarrer le générateur de requêtes à partir de BILANS_2005. Glisser les colonnes demandées dans SELECTIONNER LES DONNEES. Puis dans FILTRER LES DONNEES, définir un filtre sur FK avec l’opérateur DIFFERENT DE et la valeur 0.

SEG EXERCICE N°3

Les descriptifs des fichiers sont ici.   A partir de la table BILANS_2005, ne retenir que les colonnes du numéro SIREN (D1), le résultat de l’exercice comptable (DI) et les informations sur l’activité de l’entreprise (D26 et D23) pour les entreprises qui exportent (leur chiffre d’affaires à l’étranger FK n’est pas nul). Il y en a 2 439.

SEG Correction – EXERCICE N°2

Glisser SIREN dans le flux et démarrer le générateur de requêtes. Glisser toutes les colonnes dans la sélection puis dans FILTRER LES DONNEES, construire 4 conditions : 1) sur DEPT avec l’opérateur DANS UNE LISTE et les quatre départements ; 2) sur ETAT égal à Actif (attention à la majuscule au début de la valeur) ; 3) sur DATEFERMETURE avec l’opérateur EST MANQUANT ; 4) sur DATEFERMETURE encore, avec l’opérateur COMPRIS ENTRE et les valeurs 1/1/2020 et 31/12/2020. Combiner ensuite ces filtres pour obtenir […]

SEG EXERCICE N°2

Les descriptifs des fichiers sont ici.   Lister à partir de la table SIREN de la bibliothèque EXERCICE les entreprises bretonnes (départements ILLE-ET-VILLAINE, MORBIHAN, COTES D’ARMOR et FINISTERE) qui sont actives (la variable etat vaut « actif » et la date de fermeture est manquante) ou avec une date de fermeture en 2020. Il y en a 316.

SEG Correction – EXERCICE N°1

En bas à gauche de SAS Enterprise Guide, dans SERVEURS puis BIBLIOTHEQUES, vous devriez voir EXERCICE. Dans EXERCICE, vous trouvez BILANS_2005 : le glisser dans le flux de votre projet. Puis démarrer le générateur de requêtes, glisser toutes les colonnes dans la sélection et dans l’onglet FILTRER LES DONNEES, sélectionner la colonne DI, la glisser à droite, prendre l’opérateur INFERIEUR A et saisir la valeur 0. Exécuter la requête.

SEG EXERCICE N°1

Les descriptifs des fichiers sont ici.   Utilisez les données de la bibliothèque EXERCICE. Avec une requête, sélectionnez dans BILANS_2005 les exercices comptables dont le résultat (colonne DI) est négatif : ce sont des bilans déficitaires, il y en a 1 269.

SEG7 Invites (17 minutes)

 

SEG7 Exports (7 minutes)

 

SEG7 Imports (11 minutes)

 

SEG7 Formats personnalisés (17 minutes)

 

SEG7 Tris et doublons (9 minutes)

 

SEG7 Diagrammes en bâtons (6 minutes)

 

SEG7 Tableaux croisés (19 minutes)

 

SEG7 Comptages (10 minutes)

 

SEG7 Tâches, principe (13 minutes)

 

SEG7 Jointures (13 minutes)

 

SEG7 Agrégation (11 minutes)

 

SEG7 Colonnes calculées (19 minutes)

SEG7 Tri (4 minutes)

 

SEG7 Sélection de colonnes (4 minutes)

 

SEG7 Plusieurs filtres (9 minutes)

 

SEG7 Filtres (30 minutes)



SEG7 Générateur de requêtes (11 minutes)

SEG7 Types de données (6 minutes)

 

SEG7 Table SAS (6 minutes)

 

SEG7 Bibliothèque (15 minutes)

 

SEG7 Interface (16 minutes)

 

SEG7 Fonctionnement (15 minutes)

Organisation de la leçon (valable pour toutes les pages de ce cours, sauf les exercices et les QCM) 1) Un support Powerpoint à lire (pas de son). Possibilité de le télécharger ou de le passer en plein écran (en bas à droite du diaporama). Pour faire défiler les diapos, il suffit de cliquer dessus. 2) Une vidéo (avec du son) pour revenir sur les exemples du support. Possibilité de plein écran (en bas à droite, juste à côté de VIMEO). […]

SASGRAPH Instructions graphiques (12 minutes)

 

RPLUS BDF Correction – EXERCICE N°12

# packages —- library(tidyverse) # {dplyr} + quelques autres library(openxlsx) # mise à jour de classeurs Excel # données à insérer —- par_secteur % arrange(desc(OUI/(OUI+NON))) # récupération du classeur modèle et mise à jour —- classeur

RPLUS BDF Correction – EXERCICE N°11

# packages —- library(tidyverse) # {dplyr} + quelques autres library(flextable) # mise en forme des tableaux library(officer) # mise à jour d’un document Word library(lubridate) # pour la fonction today() # fonction pour mise en forme des tableaux —- tableau % crosstab(…) %>% rename(« Secteur »= »D26 ») %>% flextable() %>% add_header(« Secteur »= »Secteur », « NON »= »Exporte », « OUI »= »Exporte ») %>% merge_v(part= »header ») %>% merge_h(part= »header ») %>% theme_box() %>% bg(part= »header », bg=gray(0.8)) %>% bg(j=1, bg=gray(0.8)) %>% bold(j=1) } # création des tableaux —- tab1 % filter(D26 %in% c(« EA », »EG »)) %>% tableau(rows= »D26″, cols= »EXPORT ») tab2 % […]

RPLUS BDF Correction – EXERCICE N°10

library(tidyverse) # {dplyr} + quelques autres library(flextable) # mise en forme de tableaux statistiques bilans_2004 %>% crosstab(rows= »D26″, cols= »EXPORT ») %>% rename(« Secteur »= »D26 ») %>% flextable() %>% add_header(« Secteur »= »Secteur », « NON »= »Exporte », « OUI »= »Exporte ») %>% merge_v(part= »header ») %>% merge_h(part= »header ») %>% theme_box() %>% bg(part= »header », bg=gray(0.8)) %>% bg(j=1, bg=gray(0.8)) %>% bold(j=1)

RPLUS BDF Correction – EXERCICE N°9

library(reshape2) # transpositions # modification des data.frames —- bilans_2004 <- bilans_2004 %>% mutate(EXPORT=ifelse(FK > 0, « OUI », « NON »), MOIS=D4 %% 100, ANNEE=floor(D4/100)) siren <- siren %>% mutate(dep=substr(commune,1,2)) # Exemples de syntaxes qui doivent fonctionner : # crosstab(bilans_2004, rows= »D26″, cols= »EXPORT ») # crosstab(bilans_2004, rows= »MOIS », cols= »ANNEE ») # crosstab(siren, rows= »dep », cols= »etat », percent= »row ») # essai sans paramétrage —- bilans_2004 %>% group_by(D26, EXPORT) %>% summarise(n=n()) %>% ungroup() %>% dcast(D26~EXPORT, value.var= »n », fun.aggregate=sum) # avec des paramètres mais pas encore de fonction —- df <- bilans_2004 rows <- « D26 » […]

RPLUS BDF Correction – EXERCICE N°8

bilans_2004_secteur

RPLUS BDF Correction – EXERCICE N°7

siren2 % mutate( across( where( ~ length(unique(.x)) < 50 & is.character(.x) ), as.factor ) )

RPLUS BDF Correction – EXERCICE N°6

for (secteur in unique(bilans_2004$D26)){ write.table(bilans_2004 %>% filter(D26 == {{secteur}}), file=paste0(« c:/temp/ »,secteur, ».csv »), sep= »; », row.names = FALSE) }

RPLUS BDF Correction – EXERCICE N°5

# paramètre : secteur —- secteur % filter(D26 == {{secteur}}) %>% summarise(nb_entreprises = n_distinct(D1), ca_France_median = median(FJ,na.rm=TRUE)) # 2e essai —- secteur % filter(D26 == {{secteur}}) %>% summarise(nb_entreprises = n_distinct(D1), ca_France_median = median(FJ,na.rm=TRUE))

RPLUS BDF Correction – EXERCICE N°4

bilans_2004 %>% group_by(D26) %>% summarise(ca_france_moy = mean(FJ, na.rm=TRUE)) %>% ungroup() %>% arrange(desc(ca_france_moy)) %>% slice(1:3)

RPLUS BDF Correction – EXERCICE N°3

cylindre % inner_join(bilans_2005, by= »D1″, suffix=c(« _2004″, »_2005 »)) %>% select(D1, starts_with(« DI »), starts_with(« FJ »), starts_with(« FK »)) %>% mutate(CA_2004 = FJ_2004 + FK_2004, CA_2005 = FJ_2005 + FK_2005, EVOL_CA = (CA_2005-CA_2004)/CA_2004)

RPLUS BDF Correction – EXERCICE N°2

library(lubridate) # fonctions pour gérer les Dates class(siren$dateCreation) # Date class(siren$dateFermeture) # character siren2 % mutate(anc = ifelse(etat== »Actif », (today()-dateCreation)/ dyears(1), (as.Date(dateFermeture)-dateCreation)/ dyears(1)))

RPLUS BDF Correction – EXERCICE N°1

services_beneficiaires % filter(D26 %in% c(« EN », »EP ») & DI > 0) %>% select(D1, D4, D5, DI, FJ, FK, D23)

RPLUS BDF EXERCICE N°12

Les descriptifs des fichiers sont ici. Mettre à jour le classeur Excel disponible ici avec les nombres d’entreprises par secteur d’activité selon leur activité à l’export ; le secteur est indiqué dans la colonne C, l’effectif d’entreprises qui n’exportent pas (EXPORT=NON) en colonne  D et de celles qui exportent (EXPORT=OUI) en colonne F. On pourra utiliser la fonction crosstab de l’exercice 9 pour faire les calculs.

RPLUS BDF EXERCICE N°11

Les descriptifs des fichiers sont ici. Mettre à jour le document Word disponible ici avec trois tableaux dérivés de ceux de l’exercice 10, le nombre total d’entreprises et la date de production de la note. Pour rappel, D26 valant EA ou EG = primaire, de EB à EF = secondaire, de EG à EQ = tertiaire.

RPLUS BDF EXERCICE N°10

Les descriptifs des fichiers sont ici. A partir du résultat de crosstab(bilans_2004, rows= »D26″, cols= »EXPORT ») produire le flextable ci-dessous. La fonction crosstab a été créée lors de l’exercice 9. Si besoin voici son code : crosstab <- function(df, rows, cols, percent= »no »){ res <- df %>% group_by(r=.[[{{rows}}]], c=.[[{{cols}}]]) %>% # pour simplifier les manipulations futures, on donne des noms aux variables # de groupement, ici r et c summarise(n=n()) %>% ungroup() if (tolower(percent) == « total ») { res <- res %>% mutate(n = […]

RPLUS BDF EXERCICE N°9

Les descriptifs des fichiers sont ici.   On commence par ajouter des colonnes aux data.frames bilans_2004 et siren. Pour le premier, on ajoute EXPORT (valeurs OUI/NON) selon que FK est strictement positif (OUI) ou nul (NON) ; MOIS qui est constituée des 2 derniers chiffres de D4 ; ANNEE qui est constituée des 4 premiers chiffres de D4. Pour le second, dep est constitué des 2 premiers caractères de commune. Construire ensuite une fonction crosstab avec les paramètres suivants : df : le […]

RPLUS BDF EXERCICE N°8

Les descriptifs des fichiers sont ici. Comme dans l’exercice 6, on veut exporter dans autant de fichiers CSV à séparateur point-virgule (avec la fonction write.table) les bilans de 2004 selon leur secteur. Chaque fichier portera le nom du secteur, par exemple EP.CSV. Réaliser cela avec une fonction de package {purrr}, en ayant au préalable « éclaté » le data.frame bilans_2004 avec la fonction base::split.

RPLUS BDF EXERCICE N°7

Les descriptifs des fichiers sont ici. Faites une nouvelle version du data.frame siren (siren2) dans laquelle toutes les variables de type caractère avec moins de 50 valeurs distinctes sont transformées en facteurs.

RPLUS BDF EXERCICE N°6

Les descriptifs des fichiers sont ici. Exporter dans autant de fichiers CSV à séparateur point-virgule (avec la fonction write.table) les bilans_2004 selon leur secteur d’activité (D26). Chaque fichier portera le code du secteur, par exemple EJ.CSV.

RPLUS BDF EXERCICE N°5

Les descriptifs des fichiers sont ici. Paramétrer le secteur d’activité (sur 2 lettres majuscules commençant par un E) et calculer pour un secteur (D26) donné le nombre d’entreprises différentes ayant déposé au moins un bilan comptable en 2004, ainsi que le chiffre d’affaires France (FJ) médian.

RPLUS BDF EXERCICE N°4

Les descriptifs des fichiers sont ici. Quel est le chiffre d’affaires (CA) France moyen (FJ) des bilans_2004 par secteur d’activité (D26) ? Quels sont les 3 secteurs où les CA moyens sont les plus élevés ? Réponse : 1-ED, 2-EG, 3-EN

RPLUS BDF EXERCICE N°3

Les descriptifs des fichiers sont ici. Croiser les données des bilans_2004 et des bilans_2005 pour mettre côte à côte les résultats (DI), chiffres d’affaires France (FJ) et export (FK) d’une même entreprise sur ces deux années. Regardez l’option suffix pour donner des noms parlants aux colonnes dans le nouveau data.frame. Calculez l’évolution du chiffre d’affaires total (FJ+FK) d’une année sur l’autre pour chaque entreprise présente dans les deux bases.

RPLUS BDF EXERCICE N°2

Les descriptifs des fichiers sont ici. L’objet siren on trouve la date de création de l’entreprise dans dateCreation et la date éventuelle de fermeture du dernier établissement dateFermeture. Quels sont leurs types ? En dériver une colonne anc contenant l’ancienneté en années de l’entreprise par rapport à la date du jour, si celle-ci est active (colonne etat), ou sinon son ancienneté à la date de fermeture. Indice : aidez-vous des fonctions de {lubridate}, en particulier today() et years(1).

RPLUS BDF EXERCICE N°1

Les descriptifs des fichiers sont ici. Créer un objet services_beneficiaires des bilans_2004 déposés par les entreprises du secteur (D26) du service (codes EN et EP) dont le résultat (DI) est positif ; on ne conservera que les colonnes D1, D4, D5, DI, FJ, FK et D23  –> 1 413 observations et 7 variables

RBASE BDF Correction – EXERCICE N°13

library(lubridate) # gestion des dates # calcul de l’année de création —- siren$ANNEE_CREATION

RBASE BDF Correction – EXERCICE N°12

# graphique —- par(las=1, mar=c(3,5,2,2)) barplot(table(bilans_2004$EXPORTE, bilans_2004$D26), legend=TRUE, col=c(« darkgreen », « lightblue »))

RBASE BDF Correction – EXERCICE N°11

round( prop.table(table(bilans_2004$CA, bilans_2004$EXPORTE), 1)*100, 1)

RBASE BDF Correction – EXERCICE N°10

CA_france_moyen

RBASE BDF Correction – EXERCICE N°9

mean(bilans_2004[which(bilans_2004$D5==12),]$FJ, na.rm=TRUE)

RBASE BDF Correction – EXERCICE N°8

# packages utiles —- library(openxlsx) # export vers Excel # export simple —- write.xlsx(bilans_2004[which(bilans_2004$D23== »602N »),], file= »c:/temp/bilans 2004.xlsx », asTable=TRUE, sheetName= »Déménageurs », overwrite=TRUE)

RBASE BDF Correction – EXERCICE N°7

# packages utiles —- library(reshape2) # transposition # transposition —- dcast(bilans_2004, D26 ~ EXPORTE, fun=length, value.var= »D1″)

RBASE BDF Correction – EXERCICE N°6

bilans_2004_tries

RBASE BDF Correction – EXERCICE N°5

demenageurs

RBASE BDF Correction – EXERCICE N°4

# packages utiles —- library(lubridate) # gestion des dates # type de la colonne siren$dateCreation —- class(siren$dateCreation) # conversion en Date et ancienneté —- siren$DATE_CREA

RBASE BDF Correction – EXERCICE N°3

# commerces déficitaires en 2004—- commerces_deficitaires

RBASE BDF Correction – EXERCICE N°2

# afficher les 20 premières lignes de l’objet etab bilans_2004[1:20,] print(bilans_2004[1:20,]) (etab20

RBASE BDF Correction – EXERCICE N°1

# packages utiles —- library(haven) # import tables SAS library(readxl) # import fichiers Excel # répertoire par défaut setwd(« C:/olivier/bdf ») # imports —- bilans_2004

RBASE BDFEXERCICE N°13

Les descriptifs des fichiers sont ici. Représenter sur par une courbe le nombre de créations d’entreprises selon l’année, d’après les données de siren. Astuce : mieux vaut faire le comptage avec aggregate et la statistique length (cf. exercice 7) qu’avec table, de façon à obtenir directement un data.frame comme résultat.

RBASE BDFEXERCICE N°12

Les descriptifs des fichiers sont ici. Représenter par un diagramme en bâtons empilés la part des entreprises qui exportent en 2004 selon le secteur d’activité (D26).

RBASE BDFEXERCICE N°11

Les descriptifs des fichiers sont ici. A partir des données bilans_2004 telles que l’exercice 4 les a améliorées, construire un tableau indiquant par tranche de chiffre d’affaires la répartition entre entreprises qui exportent ou non, sous forme de % ligne (chaque tranche de CA = 100%). Arrondir ces pourcentages à une seule décimale.

RBASE BDFEXERCICE N°10

Les descriptifs des fichiers sont ici. Quel est le chiffre d’affaires (CA) France moyen (FJ) des bilans_2004 par secteur d’activité (D26) ? Quels sont les 3 secteurs où les CA moyens sont les plus élevés ? Réponse : 1-ED, 2-EG, 3-EN

RBASE BDFEXERCICE N°9

Les descriptifs des fichiers sont ici. Parmi les bilans établis sur 12 mois, quel est le chiffre d’affaires France moyen dans les bilans clos en 2004 ? Réponse : 9 440,229 k€

RBASE BDFEXERCICE N°8

Les descriptifs des fichiers sont ici. Créer un classeur Excel contenant une feuille nommée « Déménageurs » avec les bilans 2004 des entreprises de déménagement (code activité D23 valant 602N).

RBASE BDFEXERCICE N°7

Les descriptifs des fichiers sont ici. A partir des données du data.frame bilans_2004, construire un tableau croisé avec D26 en lignes, EXPORTE (créée à l’exercice 4) en colonnes et le nombre d’entreprises (qu’on peut compter avec la fonction length appliquée à D1) dans les cases.

RBASE BDFEXERCICE N°6

Les descriptifs des fichiers sont ici. Trier les bilans_2004 par chiffre d’affaires France (FJ) croissant ; en cas d’ex-aequos sur le CA, on les trie par valeur ajoutée (K00068), toujours par ordre croissant.

RBASE BDFEXERCICE N°5

Les descriptifs des fichiers sont ici. Créer un data.frame contenant les bilans des entreprises de déménagement (code activité D23 valant 602N) toujours actives (colonne etat dans siren) à partir de siren et bilans_2004. Ils doivent être 10.

RBASE BDFEXERCICE N°4

Les descriptifs des fichiers sont ici. L’objet siren on trouve la date de création de l’entreprise dans dateCreation. Quel est son type ? En dériver une colonne DATE_CREA de type Date. S’en servir pour calculer l’ancienneté de l’entreprise (la stocker dans la colonne ANC) par rapport à la date du jour. Ajouter au data.frame bilans_2004 trois nouvelles colonnes : EXPORTE vaut NON ou OUI selon que FK est nul ou non ; CA_TOTAL est la somme de FJ et FK ; […]

RBASE BDFEXERCICE N°3

Les descriptifs des fichiers sont ici. Créer… un objet commerces_deficitaires à partir des bilans_2004 dont le résultat (DI) est négatif et dont le secteur d’activité (D26) est EJ (–> 392 obs) un objet services des entreprises ayant un secteur d’activité (D26) dans les services (valeurs EN et EP) à partir du data.frame bilans_2004 (–> 1 754 obs) un objet en_famille à partir des entreprises (data.frame siren) dont le nom (denom) contient « ET FILS » ou « ET FILLES » […]

RBASE BDFEXERCICE N°2

Les descriptifs des fichiers sont ici. Afficher dans la Console les 20 premières lignes du data.frame bilans_2004 Pour afficher un objet, on peut : juste écrire son nom sans affectation, a affecter et mettre l’affectation entre parenthèses pour afficher l’objet créé, (b <- a) utiliser explicitement la fonction print, print(a)

RBASE BDFEXERCICE N°1

Les descriptifs des fichiers sont ici. Importer les fichiers BILANS_2004.XLSX (dans un objet appelé bilans_2004) BILANS_2005.SAS7BDAT (dans un objet appelé bilans_2005) SIREN.CSV (dans un objet appelé siren)

données BDF Présentation des données Banque de France

Les données consistent en 3 fichiers, regroupés dans bdf.Rdata (au format R, à charger avec la fonction load) ou sous la forme suivante : bilans_2004 est un classeur Excel (xlsx), bilans_2005 une table SAS, siren un fichier CSV (séparateur point-virgule). Les noms des colonnes dans les tables bilans sont ceux des rubriques des « liasses fiscales », des imprimés administratifs utilisés pour déclarer le bilan comptable d’une entreprise à l’administration. Bilans_2004 et Bilans_2005 Deux jeux de bilans d’entreprises (1 ligne = 1 bilan […]

MLR Comparaison de modèles (22 minutes)

library(plotROC) # courbe ROC library(reshape2) # transposition library(ggplot2) # graphiques library(caret) # courbe de lift library(AUC) # mesures de performance library(dplyr) # requêtes library(purrr) # répétition d’une fonction rm(list=ls()) load(« modeles.Rdata ») # courbes ROC —- roc

MLR Explication des boîtes noires (15 minutes)

library(DALEX) # décryptage de modèle # installer également {ingredients}, {iBreakDown}, {ggpubr} library(tidyverse) # requêtes # décryptage de la forêt aléatoire —- # préparer les données : # 1) pas de données manquantes # 2) variable Y = logical ou integer # 3) supprimer Y des données train_expl % mutate(reponse=(reponse== »oui »)) %>% select({{quanti}}, {{quali}}, reponse) %>% filter(complete.cases(.)) set.seed(1) explications_rf % select(-reponse), y=train_expl$reponse) # importance des variables model_parts(explications_rf) %>% plot(show_boxplots = FALSE, max_vars = 10) # résidus, qualité du modèle (sur train) model_performance(explications_rf) […]

MLR Réseau de neurones (22 minutes)

library(nnet) # réseaux de neurones (RN) library(NeuralNetTools) # graphiques liés aux RN library(purrr) # lancement répété d’une fonction library(ROCR) # calcul d’AUC library(magrittr) # enchaînement avec %>% # réseau de neurones —- set.seed(123) rn6

MLR Forêt aléatoire (12 minutes)

library(randomForest) # forêts aléatoires library(dplyr) # requêtes # forêt aléatoire —- train2 % mutate(reponse=(reponse== »oui »)) set.seed(1234) rf

MLR Arbre de décision, déploiement (6 minutes)

 library(rpart) # arbre de décision CART library(rpart.plot) # restitution arbre # code de la fonction rpart_to_sql —- rpart_to_sql <- function (df=NULL, model=NULL, collapse=TRUE) { # based on original parse_tree function by Tomas Greif # found on https://gist.github.com/tomasgreif/6038822 # takes rpart model and transforms rules into SQL case-when syntax # arguments : df = data.frame containing original data (gives variable types) # model = rpart object containing tree information # retrieve nodes id and paths log <- capture.output({ rpart.rules <- […]

MLR Arbre de décision, construction (23 minutes)

library(rpart) # arbre de décision CART library(rpart.plot) # restitution arbre # un premier arbre de décision —- set.seed(1) arbre1

MLR Régression logistique (27 minutes)

library(wrapr) # fonction mk_formula library(car) # pour expliciter la régression logistique library(oddsratio) # odds-ratios library(emmeans) # pour expliciter la régression logistique library(blorr) # pour expliciter la régression logistique # formules —– form_tout

MLR Mise en tranches (15 minutes)

library(forcats) # gestion des facteurs library(woeBinning) # découpage optimal en classes des variables quanti # comptage des valeurs NA par variable —- train %>% summarise_all(~sum(is.na(.x))) # mise en tranche spécifique —- train % mutate(anc_1er_i = cut(anc_1er, c(-Inf,30,60,90,180,360,720,1800,3600,7200,Inf), dig.lab = 6) %>% fct_explicit_na(na_level = « ? »)) test % mutate(anc_1er_i = cut(anc_1er, c(-Inf,30,60,90,180,360,720,1800,3600,7200,Inf), dig.lab = 6) %>% fct_explicit_na(na_level = « ? »)) # mise à jour des listes (1) —- # ANC_1ER n’est plus quanti quali