gravatar

Lazare23

Sân-ib Lazare Da

Recently Published

ANALYSE SPATIALE
l'analyse spatiale est une proche géographique qui étudies les localisation et les interactions spatiales en tant que composantes actives des fonctionnements sociétaux. Objectif de l’analyse spatiale : Visualiser où se produisent les attaques cyber sur le globe. Identifier des zones géographiques de concentration (hotspots). Comprendre les variables associées à chaque type d’attaque. Construire un modèle prédictif capable d’anticiper le type d’attaque à partir des autres variables.
RESEAU DE NEURONES
Un réseau de neurones est un modèle informatique inspiré du fonctionnement du cerveau humain, utilisé principalement en intelligence artificielle et en apprentissage automatique. Il est constitué d’un ensemble de nœuds appelés neurones artificiels.
Analyse de survie
L’analyse de survie est un ensemble d’approches statistiques pour l’analyse des données où la variable de résultat d’intérêt est le temps jusqu’à ce qu’un événement se produise. Les données de survie sont généralement décrites et modélisées en termes de deux fonctions liées : • la fonction de survie représentant la probabilité qu’un individu survive depuis le temps d’origine jusqu’à un certain temps au-delà du temps t. Il est généralement estimé par la méthode de Kaplan-Meier. Le test du logrank peut être utilisé pour tester les différences entre les courbes de survie des groupes, tels que les bras de traitement. • La fonction de risque donne le potentiel instantané d’avoir un événement à un moment donné, compte tenu de la survie jusqu’à ce moment. Il est principalement utilisé comme outil de diagnostic ou pour spécifier un modèle mathématique pour l’analyse de la survie. • En suite, nous avons décrit le modèle de régression de Cox pour évaluer simultanément la relation entre plusieurs facteurs de risque et la durée de survie du patient. Nous avons montré comment calculer le modèle de Cox en utilisant le package de survie . De plus, nous avons décrit comment visualiser les résultats de l’analyse à l’aide du package survminer .
Introduction au réseau de neurone
L’affirmation souvent répétée selon laquelle « nous vivons dans un monde connecté » reflète peut-être le mieux : dans sa simplicité, pourquoi les réseaux ont suscité un tel intérêt ces dernières années. Depuis des réseaux sociaux en ligne comme Facebook au World Wide Web et à Internet lui-même, nous sommes entourés d’exemples de façons dont nous interagissons les uns avec les autres. De la même manière, nous sommes également connectés au niveau de diverses institutions humaines (par exemple le gouvernements), les processus (par exemple, les économies) et les infrastructures (par exemple, le transport aérien mondial) . Et bien sûr, les humains ne sont certainement pas les seuls à être membres de diverses systèmes complexes et interconnectés. En regardant le monde naturel qui nous entoure, nous voyons une multitude d’exemples de tels systèmes, depuis des écosystèmes entiers jusqu’à l’alimentation biologique des toiles, à des collections de gènes en interaction ou de neurones communicants.
Calcul Matrice sur R
Les matrices sont une parti des mathématiques indispensable aux calculs statistiques.
Document
L'analyse de (la) survie est une branche des statistiques qui cherche à modéliser le temps restant avant la mort pour des organismes biologiques (l'espérance de vie) ou le temps restant avant l'échec ou la panne dans les systèmes artificiels, ce que l'on représente graphiquement sous la forme d'une courbe de survie.
Machine learning Régression sous contraintes
Les méthodes de régression (linéaire, logistique, etc.) sont très utilisées en pratique. Cependant, lorsque le nombre de variables explicatives est élevé voire plus grand que le nombre d’individus, ou lorsqu’il existe de fortes corrélations entre ces variables explicatives, des problèmes d’estimation apparaissent. Une idée consiste alors à forcer les solutions à vivre dans un espace plus petit afin de diminuer la variance des estimateurs. Cet espace plus petit, on dit aussi contraint, est obtenu par minimisation du problème initial sous contrainte de norme. La contrainte d’appartenance à l’espace est donnée par une fonction de régularisation pénalisant les solutions ayant de grandes normes.
Machine learning Régression sous contraintes
Les méthodes de régression (linéaire, logistique, etc.) sont très utilisées en pratique. Cependant, lorsque le nombre de variables explicatives est élevé voire plus grand que le nombre d’individus, ou lorsqu’il existe de fortes corrélations entre ces variables explicatives, des problèmes d’estimation apparaissent. Une idée consiste alors à forcer les solutions à vivre dans un espace plus petit afin de diminuer la variance des estimateurs. Cet espace plus petit, on dit aussi contraint, est obtenu par minimisation du problème initial sous contrainte de norme. La contrainte d’appartenance à l’espace est donnée par une fonction de régularisation pénalisant les solutions ayant de grandes normes.
Machine learning avec SVM
Les Support Vector Machines (SVM) sont une famille d’algorithmes dédiés aux problèmes de régression et de classification supervisée. Nous présenterons la démarche dans le cas de la classification supervisée avec une variable à expliquer binaire.
Machine learning avec Gradient boosting
Les algorithmes de gradient boosting permettent de répondre à des problèmes de régression et de classification supervisée. On désigne la variable à expliquer et les vecteurs des variables explicatives.
Machine learning avec Forêts aléatoires
Tout comme les arbres, les forêts aléatoires permettent de prédire une variable quantitative ou qualitative à partir de variables explicatives quantitatives et qualitatives. Cette famille d’algorithmes a été introduite par Breiman (2001) et permet de pallier, dans une certaine mesure, le manque de stabilité des arbres. La méthode est simple à mettre en œuvre et possède souvent de bonnes performances en terme de qualité de prédiction sur des jeux de données complexes, notamment en présence d’un grand nombre de variables explicatives.
Analyse Factorielle des Correspondances Objet
L’Analyse Factorielle des Correspondances (AFC) permet de résumer et de visualiser un tableau de contingence, c’est-à-dire un tableau croisant deux variables qualitatives. Ce tableau donne, au croisement de la ligne i et de la colonne j, le nombre d’individus prenant la modalité i de la première variable et j de la seconde. Les objectifs de l’AFC sont de comparer les lignes entre elles, de comparer les colonnes entre elles et d’interpréter les positions entre les lignes et les colonnes, autrement dit de visualiser les associations des modalités des deux variables.
Introduction Visualisation du réseau avec R
La principale préoccupation lors de la conception d’une visualisation de réseau est l’objectif qu’elle doit servir. Quelles sont les propriétés structurelles que nous souhaitons mettre en évidence ? Quelles sont les principales préoccupations auxquelles nous voulons répondre ? Les cartes de réseau sont loin d’être la seule visualisation disponible pour les graphiques - d’autres formats de représentation de réseau, et même de simples graphiques de caractéristiques clés, peuvent être plus appropriés dans certains cas.
Analyse en composante principale
L’ analyse en composantes principales (ACP) , ou principal component analysis (PCA) en anglais, permet d’analyser et de visualiser un jeu de données contenant des individus décrits par plusieurs variables quantitatives. C’est une méthode statistique qui permet d’explorer des données dites multivariées (données avec plusieurs variables). Chaque variable pourrait être considérée comme une dimension différente. Si vous avez plus de 3 variables dans votre jeu de données, il pourrait être très difficile de visualiser les données dans une “hyper-espace” multidimensionnelle. L’analyse en composantes principales est utilisée pour extraire et de visualiser les informations importantes contenues dans une table de données multivariées. L’ACP synthétise cette information en seulement quelques nouvelles variables appelées composantes principales. Ces nouvelles variables correspondent à une combinaison linéaire des variables originels. Le nombre de composantes principales est inférieur ou égal au nombre de variables d’origine. L’information contenue dans un jeu de données correspond à la variance ou l’inertie totale qu’il contient. L’objectif de l’ACP est d’identifier les directions (i.e., axes principaux ou composantes principales) le long desquelles la variation des données est maximale. En d’autres termes, l’ACP réduit les dimensions d’une donnée multivariée à deux ou trois composantes principales, qui peuvent être visualisées graphiquement, en perdant le moins possible d’information.
Arbre de régression et classification
L’idée générale des arbres de régression et de classification est de partir de l’ensemble des données d’entraînement et de les partitionner successivement sur la base de variables fortement discriminantes.
Apprentissage supervisé
C'est une description des étapes de l'apprentissage supervisé sur R. Nous avons utilisée des bases de données directement dans Rstudio
introduction au machine learning
Nous allons traiter le problème de classification binaire.
les corrélation entre deux variables quantitatives
on utlise la corrélation si on tout non données sont variables quantitaives. Nous voulons voir le lien qui existe entre les variables de notre base deux à deux. On s’intéresse aussi à ces corrélations deux à deux (ou par paires) lorsqu’on souhaite construire un modèle prédictif, car de nombreux algorithmes de Machine Learning sont plus performants lorsque les prédicteurs ne sont pas fortement corrélés.
Traitément d'image
L’objectif de cette activité est d'illustrer le traitement numérique des images.
Analyse des données lié à la participation de la Force du Travail
Le docteur Isa est la ministre du travail de ISASTATE. Elle cherche à déterminer les facteurs qui expliquent la participation de ses citoyens à la force de travail. Pour cela elle réalise une enquête sur l’emploi où elle a effectivement interrogé 7512 individus sur 10 variables.