" Le travail de la science est sans cesse inachevé "Weber
" Ce n'est pas la conscience des hommes qui détermine leur existence, c'est au contraire leur existence sociale qui détermine leur conscience"(Karl Marx, Œuvres économiques).
"La science sociale a presque horreur de l'événement. Non sans raison : le temps court est la plus capricieuse, la plus trompeuse des durées. » (Écrits sur l'histoire, 1977).
"il n’y a donc pas d’IA sans Big Data et sans Big Data pas d’Intelligence artificielle" Gordon Moore
Préambule : BIGDATA par PERPLEXITY / IA
"Le terme big data (ou données massives) désigne des ensembles de données numériques extrêmement volumineux, complexes et diversifiés, générés à grande vitesse, qui dépassent les capacités de traitement des outils informatiques traditionnels. Ces données proviennent de multiples sources : réseaux sociaux, capteurs, transactions, appareils mobiles, web, etc..
Les big data sont souvent caractérisées par les "3 V" :
-
Volume : quantité gigantesque de données produites chaque jour.
-
Variété : diversité des formats (textes, images, vidéos, données structurées et non structurées).
-
Vélocité : vitesse à laquelle ces données sont créées, transmises et traitées.
Le traitement des big data nécessite des technologies et des méthodes analytiques spécifiques pour extraire des informations utiles, soutenir la prise de décision, l’innovation, l’intelligence artificielle ou la recherche scientifique.
Les entreprises et institutions exploitent le big data pour anticiper des tendances, optimiser leurs processus, améliorer leurs services, ou encore développer de nouveaux produits.
En résumé, le big data renvoie en même temps à la masse croissante de données générées à l’ère numérique, à leurs caractéristiques uniques, et aux nouveaux outils et techniques permettant de les exploiter."
SCIENCES SOCIALES
"Les sciences sociales sont un ensemble de disciplines académiques qui étudient le social humain, c’est-à-dire les interactions sociales entre les individus, les groupes et leurs environnements. Elles s’intéressent principalement aux comportements humains, à la structure des sociétés, à leurs modes de fonctionnement et d’évolution, ainsi qu’aux phénomènes sociaux.
Les principales disciplines des sciences sociales incluent la sociologie, la psychologie, l’économie, la science politique, l’anthropologie, la démographie, la géographie, l’histoire, la linguistique, la criminologie, et d’autres domaines apparentés. L’objectif des sciences sociales est de décrire, analyser et expliquer les caractéristiques, les dynamiques et les transformations de la vie sociale, ainsi que les relations entre les individus et les groupes, au sein d’une société donnée.
Elles se distinguent des sciences naturelles par le fait qu’elles s’intéressent au monde social, c’est-à-dire à l’humain en société, plutôt qu’aux phénomènes physiques ou biologiques.
Comment le big data révolutionne les sciences sociales
Les traces laissées par les individus sur Internet et sur les réseaux sociaux constituent un gisement de données numériques considérable, le big data. Certains avaient prédit la mort des sciences sociales avec l’irruption de ces données massives. Il semble au contraire que les sciences sociales se transforment et affinent leurs méthodes d’enquête grâce aux données numériques. La prudence reste toutefois de mise, en raison de la non-représentativité des échantillons utilisés et de l’opacité des algorithmes – sans parler des atteintes à la vie privée liées à la captation des données.
Les traces que nous laissons sur les moteurs de recherche, les réseaux sociaux, les sites d’achat en ligne, ainsi que le nombre croissant des objets connectés (smartphones, montres, caméras, thermostats, enceintes, capteurs) nourrissent un fabuleux gisement de données numériques. Il éclaire jusque dans les micro-détails nos comportements quotidiens, nos déplacements, nos modes de consommation, notre santé, nos loisirs, nos centres d’intérêt, nos réseaux de sociabilité, nos opinions politiques et religieuses, sans que nous en ayons toujours conscience. La numérisation accélérée d’archives et documents, jusqu’ici inaccessibles, effectuée par les administrations, les entreprises, les partis, les journaux, les bibliothèques y contribue également.
Il en résulte des données hors norme par leur volume, leur variété et leur vélocité (les « 3 V »), communément appelées le « big data ». Et les moyens de les extraire, coder, quantifier et analyser en quelques clics se sont développés de concert, grâce aux progrès de l’intelligence artificielle (IA). Comme le souligne Dominique Boullier dans son dernier livre, ce processus est en train de révolutionner le paysage des sciences sociales, pour le meilleur et pour le pire.
À cet égard deux thèses s’affrontent dès la naissance du Web.
Dans un article au titre provocant, « The End of Theory: The Data Deluge Makes the Scientific Method Obsolete », Chris Anderson, rédacteur en chef du magazine Wired consacré aux nouvelles technologies, y voit la mort programmée des sciences sociales. Les corrélations vont remplacer la causalité, point n’est besoin de modèle explicatif ou de théorie unifiée et « les chiffres parlent d’eux-mêmes ». En total désaccord, des chercheurs comme Burt Monroe ou Gary King saluent le potentiel de renouvellement des théories et des méthodes qu’apportent ces données et plaident pour hybrider les sciences sociales et de la « data science ».
Dans la même ligne, je donnerai quelques exemples illustrant l’apport du big data, notamment sur des sujets sensibles comme le racisme ou la sexualité, difficiles à saisir dans les enquêtes par sondages ou par entretiens à cause des biais de « désirabilité sociale », soit la tentation face à l’enquêteur ou l’enquêtrice de dissimuler son opinion si elle n’est pas conforme aux normes sociales en vigueur.
Big data et recherche sur le racisme
Le champ des recherches sur le racisme, en particulier le racisme anti-noir, est particulièrement développé aux États-Unis et plusieurs enquêtes par sondage ont tout naturellement voulu mesurer son impact potentiel sur les votes en faveur de Barack Obama aux élections présidentielles de 2008 et 2012. Elles ne donnent pas de résultats probants. Un chercheur, Seth Stephens-Davidowitz, a donc eu l’idée d’utiliser un indicateur indirect de racisme, la proportion des recherches sur Google contenant le mot « nigger(s) » (« nègre(s) ») pendant les quatre ans précédant le scrutin. Il l'a mise en relation avec les votes pour Obama en 2008 et 2012, État par État. Malgré l’interdit qui pèse sur ce terme, il trouve que le « N-word » est googlé en moyenne 7 millions de fois par an. Seule face à son écran, la personne n’a aucune raison de s’autocensurer. Les résultats, après contrôles, sont sans appel. Ils montrent que les États où ce terme est le plus souvent recherché sur Google débordent largement les frontières des États du Sud traditionnellement plus racistes. Et l’usage du mot est négativement corrélé avec le vote pour Obama, lui coûtant en moyenne quatre points de pourcentage aux deux élections. Le racisme anti-noir est bien sous-déclaré dans les enquêtes par sondages, et il a eu un impact non négligeable sur les choix électoraux. Un phénomène qui, jusqu’ici, était passé sous les radars.
En France, la Commission nationale consultative des droits de l’homme (CNCDH) fait tous les ans un rapport au Premier ministre sur l’état du racisme, de l’antisémitisme et de la xénophobie. Pour ce faire, elle s’appuie notamment sur le Baromètre racisme pour les opinions, les statistiques fournies par les ministères concernés pour les actes. Mais, les discours de haine sur les réseaux sociaux restaient hors de son champ de vision. D’où sa décision, en 2020, de demander au Médialab de Sciences Po, associé au Centre d’études européennes et de politique comparée (Sciences Po) et au Laboratoire interdisciplinaire Sciences-innovations-sociétés (Lisis, Université Gustave-Eiffel) de lancer une étude sur l’antisémitisme en ligne.
L’équipe choisit d’analyser pendant un an les commentaires postés sur les principales chaînes d’information et d’actualité présentes sur YouTube, au nombre de 628. Un corpus de près de deux millions de commentaires est extrait et un algorithme entraîné à détecter l’antisémitisme, y compris sous ses formes les plus allusives. La diffusion de propos antisémites apparaît relativement faible (0, 65 % du total des commentaires). Ce sont les chaînes d’extrême droite qui en abritent la proportion la plus conséquente, suivies par les chaînes de contre-information et de santé alternative. Les thèmes du complot et de la judéophobie y apparaissent plus présents que l’antisionisme. Les résultats nuancent donc la thèse d’un « nouveau » antisémitisme à base d’antisionisme remplaçant l’ancien et qui serait passé de l’extrême droite à l’extrême gauche. L’enquête a été élargie depuis à d’autres formes de racismes, notamment antimusulmans, au masculinisme et au complotisme.
Big data et recherche sur la sexualité
Le big data est aussi précieux pour aborder les questions du genre et de la sexualité. Régulièrement, l’université française est présentée comme gangrénée par les études sur le genre et l’intersectionnalité, y compris par des ministres.
L’enquête minutieuse menée par le sociologue Étienne Ollion et ses collègues montre qu’il n’en est rien. Analysant la place tenue par la question du genre dans 120 revues de sciences sociales sur un quart de siècle, soit un corpus de 58 000 résumés d’articles, grâce à un modèle d’intelligence artificielle (Large Language Model), l’article montre qu’elle est passée de 9 % en 2001 à 11,4 % du total en 2022. D’une discipline à l’autre, les résultats sont contrastés, la proportion d’articles traitant du genre passant de 33,7 % à 36,6 % dans les revues de démographie au sens large, mais de 3,3 % à 5,8 % en science politique. Ils sont encore majoritairement le fait de femmes. Tandis que les approches intersectionnelles croisant genre et race et/ou classe restent résiduelles (4 % en fin de période).
Marie Bergström, sociologue à l’Ined, a utilisé le big data pour éclairer les ressorts de l’écart d’âge qu’on observe dans les couples hétérosexuels, où l’homme est généralement plus âgé que la femme. Croisant les résultats de l’enquête « Étude des parcours individuels et conjugaux » (Epic), menée par l’Ined et l’Insee en 2012-2014 auprès de 7 800 personnes, interrogées sur leurs préférences en matière d’écart d’âge, avec des données tirées du site de rencontre Meetic (400 000 profils et 25 millions d’emails) renseignant sur les pratiques effectives, elle souligne le décalage entre ce qui se dit et ce qui se fait et les écarts selon le genre.
Au niveau déclaratif, les femmes sont les plus attachées à un écart d’âge au profit du partenaire masculin, d’autant plus qu’elles sont jeunes, tandis que les hommes se disent indifférents à l’âge. Ainsi, 79 % d’entre eux disent qu’ils accepteraient une femme plus âgée alors que 53 % seulement des femmes envisageraient un partenaire plus jeune. Mais sur le site de rencontres, c’est une autre histoire, le décalage étant particulièrement marqué chez les hommes, explicitement amateurs de femmes plus jeunes, surtout quand ils vieillissent.
Dangers du big data
Les dangers du big data sont non moins grands. Parmi eux figurent la non-représentativité et l'instabilité des échantillons non construits pour les besoins de la recherche, l'opacité et la défaillance des algorithmes et des modèles, les difficultés d’accès aux données, les problèmes éthiques, les atteintes à la vie privée, les problèmes de sécurité (vols, détournement des données), les coûts énergétiques exorbitants, et la domination politique du Nord sur les Sud, et des États-Unis sur le reste de la planète. La prudence est nécessaire et le besoin de régulation est manifeste. Mais, on peut se priver d’un tel vivier. Les nouvelles générations de doctorants s’en sont aussitôt emparées.
Un nombre croissant de doctorants utilisent aujourd’hui le big data pour leur thèse et font des émules. Qu’ils s’intéressent au positionnement des partis européens sur le climat ou sur l’immigration, aux politiques énergétiques européennes ou au cadrage médiatique de groupes-cibles, ils arrivent à construire des corpus gigantesques de plusieurs millions de textes (rapports, textes législatifs, posts sur les réseaux sociaux, images, articles de presse, discours parlementaires, communiqués), couvrant plusieurs pays et sur de longues périodes. Pour les analyser, ils recourent au Supervised Learning (apprentissage supervisé), entraînant des modèles d’IA à coder ces textes en fonction de leur question de recherche et de leurs hypothèses. Cela leur permet de revisiter des objets classiques de la science politique avec un regard neuf et sur une tout autre échelle, s’inscrivant dans le courant en plein essor des « sciences sociales augmentées ».
Cet article est proposé en partenariat avec le colloque « Les propagations, un nouveau paradigme pour les sciences sociales ? » (à Cerisy (Manche), du 25 juillet au 31 juillet 2025).
SYNTHÈSE
L'article explore comment le big data transforme les sciences sociales, offrant de nouvelles pistes de recherche tout en soulevant des défis importants. Il présente un débat initial sur la capacité du big data à rendre obsolètes les méthodes traditionnelles, soulignant plutôt son potentiel à affiner et enrichir les enquêtes existantes. Des exemples concrets illustrent l'apport du big data dans l'étude de sujets sensibles comme le racisme (via l'analyse de recherches Google) et la sexualité (en confrontant préférences déclarées et comportements réels sur les sites de rencontre). L'auteur met également en lumière les dangers associés à l'utilisation du big data, tels que la non-représentativité des échantillons et les atteintes à la vie privée, insistant sur la nécessité de prudence et de régulation. Enfin, le texte conclut en notant l'adoption croissante de ces outils par les jeunes chercheurs, signalant l'émergence de "sciences sociales augmentées". (NotenooKLM)
A LIRE
SCIENCES SOCIALES
https://www.canada.ca/fr/services/science/themesscientifiques/sciencessociales.html
ANNEXE
LIEN BIGDATA/IA
Le BIG data et l’intelligence artificielle sont souvent confondus. "Beaucoup de gens ne savent pas vraiment ce qu'est le Big Data ou l'analyse de Big Data" explique Alan Morrison, chercheur senior chez PriceWaterhouseCoopers.
L’IA et de Big Data sont fréquemment évoqués ensemble, car l’intelligence artificielle nécessite des données distinctes afin d’élaborer son intelligence et l’automatiser.
Les deux concepts accomplissent la même tâche, mais il convient de les différencier.
Big data et IA, une révolution technologique ?
L’évolution du big data, correspond à la prise de décision intelligente, c’est donc ce en quoi les deux technologies sont dépendantes l’une de l’autre. Cette convergence permettra de nombreux bénéfices : une hausse de l’agilité, des processus business plus intelligents et une meilleure productivité.
Dans certaines entreprises, de nombreuses données ne sont pas encore numérisées, mais restent sur papier, c’est le cas dans certaines administrations, hôpitaux, cabinets médicaux…
Le stockage de ces données (clients, produits, entreprise) sur papier ne permet pas de les analyser et d’en tirer facilement des conclusions.
La convergence du Big Data et de l’intelligence artificielle est donc inéluctable et l’usage du machine learning, des systèmes experts et des technologies analytiques en combinaison avec le Big Data sera l’évolution logique de ces deux disciplines.
L’Internet des objets (par exemple une personne équipée d'un pacemaker, un animal de ferme qui porte une puce, une voiture qui a des capteurs pour alerter le conducteur lorsque la pression des pneumatiques est insuffisante, ou tout objet naturel ou fabriqué par l'être humain auquel peuvent être attribuées une adresse IP et la capacité de transférer des données sur un réseau) représente aussi une convergence entre Big Data et intelligence artificielle. Parce qu'il faut un cerveau humain numérisé assez puissant pour mettre en place ce type de réseau.
Pour l'avenir des entreprises, l'intelligence artificielle va permettre d’extraire du sens, de déterminer de meilleurs résultats, et de prendre des décisions plus rapides à partir de sources Big Data massives.
Néanmoins, en termes d’éthique, l’intelligence artificielle doit encore résoudre quelques problèmes. L’humain devra pour le moment assister les systèmes capables d’apprendre de manière autonome et chargés de déterminer quel Big Data doit être identifié et utilisé.
Quel que soit le domaine : banque, publicité, sécurité, santé, justice… Le Big Data ne peut opérer seul, mais doit être complété de l’intelligence artificielle.
Big Data, de quoi parle-t-on exactement ?
Le Big Data est présent partout dans notre quotidien. Que ce soit lorsque l’on effectue des navigations sur le web, sur nos objets connectés, sur les réseaux sociaux, nos données sont collectées. Selon une source d'IBM, 2,5 trillions d’octets de données dans le monde sont générés chaque jour.
Ce sont notamment les cookies qui récupèrent nos données personnelles, ils sont nichés sur les sites web et traquent nos recherches sur les moteurs, nos préférences sur les réseaux sociaux ainsi que nos achats, puis un profil type de consommateur est élaboré.
Ces bases de données de cookies sont ensuite vendues aux annonceurs, afin qu’ils puissent viser de potentiels acheteurs, en établissant un profil type. Les GAFAM (Google, Amazon, Facebook, Apple et maintenant Microsoft) sont les géants du web qui ont démocratisé cet usage, par leur modèle économique.
Big data ou métadonnées sont donc des données à l’état brut. Elles doivent d’abord être nettoyées, structurées avant de pouvoir être utilisées.
https://www.pstb.fr/actualites/lien-big-data-ia#:~:text=Quels%20sont%20les%20trois%20piliers,qui%20ex%C3%A9cutent%20automatiquement%20les%20calculs).
Commentaire
L'IA a entraîné la résurrection des big data, en particulier leur utilisation, car les deux sont interdépendants. Pour activer l'IA, il faut des datas, c'est la base. et des big data, c'est encore mieux. L'IA a trouvé sa "substantifique moelle" mais attention, terrain dangereux, l'éthique doit être le dénominateur commun de leur utilisation conjointe". La prudence est nécessaire et le besoin de régulation est manifeste, car les big data contiennent des données personnelles et des données sensibles, ne jamais l'oublier.
"En résumé, le danger principal réside dans la collecte massive et souvent non contrôlée des données personnelles, l’exploitation algorithmique opaque de ces données pour manipuler les comportements, et le risque que ces pratiques minent les libertés individuelles, la justice sociale et la démocratie, sans cadre éthique et réglementaire strict." Perplexity/IA
Copyright : Dr Jean-Pierre Laroche/2025