Ce cours en ligne, conçu par Etienne Ollion (chercheur CNRS en sociologie, professeur associé à l’École polytechnique) et Julien Boelaert (MCF en science politique, université de Lille), part d’un constat : nous sommes de plus en plus entourés de données numériques. Dans le débat public, dans notre quotidien, dans la décision publique, et parfois jusque dans notre vie privée, des traces numériques enregistrent nos activités.
Cette abondance de données est déjà largement analysée par les sciences sociales. Elle est aussi utilisée, afin de poser des questions nouvelles, ou de reposer d’anciennes questions à partir de ces nouvelles sources.
Le cours a pour objectif principal de donner des bases de programmation. Mais ce faisant, il propose des éléments de réflexion théorique et épistémologiques sur ce que peuvent ces données numériques pour les sciences sociales, ce qu’elles peuvent leur faire. Il nous semble en effet qu’on ne peut dissocier l’analyse des données des conditions de leur production.
Le cours peut être suivi en intégralité, ou de manière sélective. Chaque chapitre s’appuie toutefois sur des notions qui ont été vues précédemment. Aucune connaissance préalable en informatique n’est nécessaire.
Programme :
- 0 – L’abondance et ses revers
- 1 – Données numériques et sciences humaines et sociales
- 1 bis – Introduction à R
- 2 – Écrire, et surtout lire le web
- 3 – Sélectionner des données avec XPath
- 4 – Expressions régulières : recherche avancée et nettoyage de données
- 5 – Automatiser la collecte
- 6 – Téléchargement avancé
- 7 – Exercices supplémentaires
En savoir plus : cours disponible via l’adresse suivante