On estime que les deux tiers des liens vers des sites web populaires dans les tweets sont publiés par des comptes automatisés – non pas par des êtres humains
Le rôle des « bots » dans les réseaux sociaux – ce sont des comptes automatisés capables de publier un contenu ou d’interagir avec d’autres utilisateurs sans implication humaine directe – a fait l’objet de beaucoup d’attention ces dernières années. Ces comptes peuvent jouer un rôle précieux dans l’écosystème des réseaux sociaux en répondant en temps réel à des questions sur une variété de sujets ou en fournissant des mises à jour automatiques sur de nouvelles histoires ou des événements.
En même temps, ils peuvent également être utilisés pour tenter de modifier les perceptions du discours politique sur les réseaux sociaux, répandre la désinformation, ou manipuler les systèmes d’évaluation en ligne. Etant donné que les réseaux sociaux occupent une place de plus en plus importante dans l’environnement général des nouvelles et de l’information, les bots ont été mis à l’écart par le débat sur les nouvelles habitudes des américains, la teneur du discours en ligne et la prédominance des « intox » en ligne.
Dans le contexte de ces arguments sur le rôle et la nature des bots, Pew Research Center a cherché à connaitre le nombre de liens partagés sur Twitter, dont la plupart se réfèrent à un site extérieur à la plateforme, qui sont promus par des bots plutôt que par des humains. Pour ce faire, le centre a utilisé une liste de 2 315 des sites web les plus populaires1 et a examiné les quelque 1,2 million de tweets (envoyés par des utilisateurs anglophones) qui incluaient des liens vers ces sites pendant environ six semaines durant l’été 2017. Les résultats illustrent le rôle omniprésent joué par les comptes automatisés dans la diffusion de liens vers un large éventail de sites web importants sur Twitter.
Comment cette étude définit-elle un bot Twitter ?
De manière générale, les bots Twitter sont des comptes qui peuvent publier un contenu ou interagir avec d’autres utilisateurs de manière automatisée et sans intervention humaine directe.
Les robots sont utilisés à de nombreuses fins. Cette étude se concentre sur un type particulier de comportement de robot : les robots qui tweetent ou retweetent des liens vers un contenu sur le web. En d’autres termes, ce sont des robots qui publient ou font la promotion de sites web spécifiques ou d’autres contenus en ligne.
Beaucoup de robots ne s’identifient pas comme des robots, donc cette étude utilise un outil appelé Botometer pour estimer la proportion de liens Twitter vers des sites populaires sur le web qui sont publiés par des comptes automatisés ou partiellement automatisés. Une étude considère que le Botometer est précis à environ 86 % mais Pew Resesarch Center a effectué ses propres tests de validation indépendants du système Botometer. Pour reconnaître la possibilité d’une erreur de classification, nous utilisons le terme « présumé bots » tout au long de ce rapport. Pour plus de détails sur le fonctionnement du Botometer, voir la méthodologie.
Parmi les principales conclusions de cette recherche :
- De tous les liens tweetés2 3 vers des sites web populaires, 66 % sont partagés par des comptes dont les caractéristiques sont communes aux « bots » automatisés plutôt qu’à des utilisateurs humains.
- Parmi les sites d’information populaires et les sites d’actualité, 66% des liens tweetés ont été effectués par des présumés bots, ce qui est identique à la moyenne générale. La part des liens tweetés créés par bot est encore plus élevée parmi certains types de sites d’actualité. Par exemple, on estime que 89% des tweets ont un lien vers des sites d’agrégation populaires qui compilent des histoires sur le web sont publiés par des robots.
- Un nombre relativement faible de bots hautement actifs sont responsables d’une part considérable des liens vers des sites d’information et de média importantes. Cette analyse révèle que les 500 comptes des présumés bots les plus actifs sont responsables de 22 % des tweets ayant des liens vers des sites d’informations populaires et d’actualités sur la période, au cours de laquelle cette étude a été menée. En comparaison, les 500 utilisateurs les plus actifs sont responsables d’une part beaucoup plus faible (environ 6%) des tweets ayant des liens vers ces emplacements.
- L’étude ne trouve aucune preuve que les comptes automatisés ont actuellement un « parti pris politique » libéral ou conservateur dans leur comportement global de partage de liens. Cela ressort d’une analyse du sous-ensemble de sites d’information contenant du matériel orienté politiquement. Les robots partagent environ 41 % des liens vers des sites politiques partagés principalement par les libéraux et 44 % des liens vers des sites politiques partagés principalement par les conservateurs – une différence qui n’est pas statistiquement significative. En revanche, les présumés bots partagent 57 % à 66 % des liens des sites d’informations et d’actualités partagés principalement par un public humain idéologiquement mixte ou centriste.
Exemples de robots Twitter en action
Les robots peuvent être utilisés pour un large éventail de buts. Voici quelques exemples de robots qui effectuent diverses tâches sur Twitter :
- Netflix Bot (@ netflix_bot) tweet automatiquement lorsqu’un nouveau contenu a été ajouté au service de diffusion en ligne.
- Grammar Police (@_grammar) est un robot qui identifie les tweets grammaticalement incorrects et offre des suggestions pour une utilisation correcte
- Museum Bot (@museumbot) publie des images aléatoires du Metropolitan Museum of Art
- The CNN Breaking News Bot (@attention_cnn) est un compte non-officiel qui envoie une alerte chaque fois que CNN prétend avoir des nouvelles de dernière minute
- The New York Times 4th Bot Down (@ NYT4thDownBot) est un robot qui fournit une analyse NFL en direct.
- PowerPost by the Washington Post (@PowerPost) est un robot qui fournit des nouvelles sur les décideurs à Washington.
Ces résultats sont basés sur une analyse d’un échantillon aléatoire d’environ 1,2 million de tweets des utilisateurs anglophones contenant des liens vers des sites web populaires pendant la période du 27 Juillet au 11 Septembre 2017.
Pour construire la liste des sites populaires utilisés dans cette analyse, le centre a identifié près de 3 000 des sites web les plus partagés au cours des 18 premiers jours de la période d’étude et il les a codés en fonction de diverses caractéristiques. Après avoir supprimé les liens qui étaient morts, dupliqués ou dirigés vers des sites en manque d’informations pour classer leur contenu, les chercheurs sont arrivés à une liste de 2 315 sites web.
Premièrement, ces sites ont été classés en six groupes d’actualités différentes en fonction de leur principal domaine d’intérêt. Les groupes d’actualité comprenaient : contenu pour adultes, sports, célébrités, produits ou services commerciaux, organisations ou groupes, et nouvelles et actualités. Pour comparer avec ces catégories principales, les chercheurs mettent dans une catégorie distincte les liens redirigés vers le contenu de Twitter.
Deuxièmement, les sites classés comme ayant une large couverture des nouvelles et des actualités (au total, 925 sites répondaient à ce critère) ont ensuite été codés en fonction de trois critères supplémentaires :
- Si la majorité du contenu du site était du matériel agrégé ou republié produit par d’autres sites ou publications ;
- Si le site comprenait une section sur la politique et/ou présentait des articles politiques de premier ordre dans ses gros titres ;
- Et si le site dispose d’une page de contact (un trait qui peut servir de proxy pour savoir si un site offre aux lecteurs la possibilité de soumettre des commentaires).
Troisièmement, le centre a identifié un sous-ensemble supplémentaire de sites de nouvelles et d’actualité qui présentent des histoires politiques ou une section politique tout en servant principalement un public américain. Chacun de ces sites d’actualités et évènement à caractère politique a ensuite été catégorisé comme ayant principalement un public libéral, un public conservateur ou un lectorat mixte.
L’étape suivante consistait à examiner chaque tweet ayant un lien vers ces sites et de tenter de déterminer si le lien avait été publié à partir d’un compte automatisé. Pour identifier les robots, le centre a utilisé un outil connu sous le nom de « Botometer », développé par des chercheurs de l’Université de Californie du Sud et de l’Université de l’Indiana. Maintenant dans sa deuxième incarnation, Botometer estime la probabilité qu’un compte donné soit automatisé ou non basé sur un certain nombre de critères y compris l’âge du compte, la fréquence de publication et les caractéristiques de son réseau de follower, parmi d’autres facteurs. Les comptes estimés comme ayant une probabilité relativement élevée d’être automatisés sur la base des tests du système de Botometer par le Pew Research Center ont été classés comme des bots pour les buts de cette analyse.
Collectivement, la collecte de données, le codage de site et l’analyse de détection de robot décrits ci-dessus fournissent une réponse à la question de recherche principale suivante : Quelle est la proportion de tweets ayant des liens vers des sites web populaires publiés par des comptes automatisés plutôt que des utilisateurs humains ?
Cette recherche fait partie d’une série de rapports de Pew Research Center examinant l’environnement de l’information sur les réseaux sociaux et la façon dont les utilisateurs s’engagent dans ces espaces numériques. Des études antérieures ont enregistré la nature et les sources des tweets concernant les nouvelles de l’immigration, la façon dont ces informations sont partagées via les réseaux sociaux dans un Congrès polarisé, le degré de partage et de confiance de l’information scientifique sur les réseaux sociaux, le rôle des réseaux sociaux dans un contexte plus général d’un harcèlement en ligne, comment les questions sociales clés comme les relations raciales se jouent sur ces plateformes, et comment les différents groupes s’organisent sur Twitter.
Il est important de noter que les comptes robots ne s’identifient pas toujours clairement dans leurs profils et tout système de classification des robots se trouve inévitablement un risque d’erreur. Le système Botometer a été enregistré et validé dans une série de publications scientifiques, et les chercheurs du centre ont effectué un certain nombre de mesures de validation indépendantes de ses résultats. Cependant, certains comptes humains peuvent être mal classés comme automatisés, tandis que certains comptes automatisés peuvent être mal classés authentique. Il y a donc un certain degré d’incertitude dans ces estimations du partage de trafic par les comptes des présumés robots.
De plus, l’analyse décrite dans ce rapport repose sur un sous-ensemble de tweets recueillis sur une période donnée. Il ne s’agit pas d’une analyse de tous les sites web ou de toutes les propriétés médiatiques, mais plutôt d’une analyse des sites web populaires et des médias, mesurée par le nombre de liens postés sur Twitter vers leur contenu. Cette analyse ne cherche pas à évaluer si ces liens sont partagés par des « bons » ou des « mauvais » robots, ou si ces robots sont contrôlés à l’intérieur ou à l’extérieur des États-Unis. Il n’a pas non plus cherché à évaluer la portée des tweets en question ni à déterminer combien d’utilisateurs humains voyaient, cliquaient ou utilisaient le contenu généré par les robots.
De plus amples détails sur notre effort de classification des bots peuvent être trouvés dans la méthodologie de ce rapport.
L’activité de compte automatisée est importante dans l’écosystème de Twitter
Les comptes automatisés jouent un rôle de premier plan en tweetant des liens vers le contenu de l’écosystème de Twitter. L’analyse du centre révèle qu’environ 66 % de tous les tweets ayant des liens vers les sites web les plus populaires sont probablement publiés par des comptes automatisés plutôt que par des utilisateurs humains.
Certains types de sites, en particulier ceux axés sur le contenu pour adultes et les sports, reçoivent une part particulièrement importante de leurs liens Twitter à partir de comptes automatisés. Les comptes automatisés étaient responsables d’environ 90 % de tous les liens de tweets vers des sites web populaires axés sur le contenu pour adultes au cours de la période d’étude. Pour les sites web populaires axés sur le contenu sportif, cette part a été estimée à 76 %.
Les comptes automatisés représentent une proportion légèrement inférieure des partages de liens pour d’autres types de sites populaires, bien que ce soit toujours majoritaire dans chaque cas. Plus précisément, l’analyse du centre révèle que 66 % des tweets ayant des liens vers les sites d’information et d’actualités les plus populaires sur Twitter ont probablement été partagés par des comptes de robots. Ce chiffre est en général identique à la moyenne des sites les plus populaires.
Les présumés comptes automatisés représentent une plus grande part des liens publiés sur des sites populaires axés sur des produits ou services commerciaux (73 %) et une moindre part sur des sites axés sur la vie des stars et la culture (62 %). La proportion de partage de liens effectuée par les comptes automatisés est la plus faible pour les liens associés à Twitter.com par rapport aux six catégories thématiques de cette étude, il s’agit des liens qui s’arrêtent sur Twitter et qui ne redirigent vers aucun site externe. Les liens associés à Twitter lui-même sont partagés par des présumés comptes robot dans environ 50% des cas, soit une part plus petite que les autres catégories de contenu analysées.
Sujet d’étude : Les sites d’information populaires et d’actualité sont liés à des tweets de robots
Les comptes automatisés publient un partage important de liens vers un large éventail de médias en ligne sur Twitter. Comme indiqué ci-dessus, l’analyse du centre estime que 66 % des tweets ayant des liens vers des sites d’information populaires et d’actualités sont publiés par des robots. L’analyse révèle également qu’un nombre relativement faible de comptes automatisés sont responsables d’un partage important des liens vers les médias populaires sur Twitter. Les 500 présumés comptes de robots les plus actifs ont été responsables à eux seuls de 22 % de tous les liens vers ces sites d’information et d’actualités pendant la période au cours de laquelle cette étude a été menée. En revanche, les 500 comptes humains les plus actifs étaient responsables de seulement 6 % de tous les liens vers de tels sites.
L’analyse du centre indique également que certains types de sites d’information et d’actualités semblent particulièrement être tweetés par des comptes automatisés. Parmi les plus importants d’entre eux, citons les sites d’agrégation ou les sites qui compilent principalement du contenu provenant d’autres endroits sur le web. Environ 89 % des liens vers ces sites d’agrégation au cours de la période d’étude ont été publiés par des comptes robots.
Les comptes automatisés fournissent également une proportion légèrement supérieure à la moyenne de liens vers des sites qui ne disposent pas d’une page de contact publique ou d’une adresse e-mail pour contacter l’éditeur ou un autre membre du personnel. Ce type d’information peut être utilisé pour soumettre des commentaires de lecteurs qui peuvent servir de base à des corrections ou à des rapports supplémentaires.
La grande majorité (90 %) des sites populaires d’information et d’actualités examinés dans cette étude avaient une page de contact publique, mais pas de contact Twitter. La petite minorité de sites ne disposant pas de ce type de page de contact ont été partagés par des présumés robots à des niveaux plus élevés que ceux ayant des pages de contact. Quelque 75 % des liens vers de tels sites ont été partagés par des présumés comptes robots pendant la période étudiée, contre 60 % pour les sites avec une page de contact.
D’un autre côté, certains types de sites d’information et d’actualités reçoivent une part inférieure à la moyenne de leurs liens Twitter à partir de comptes automatisés. Plus particulièrement, cette analyse indique que les sites populaires d’information et d’actualité ayant un contenu politique présentent le plus faible niveau de trafic de liens parmi les comptes robots parmi les types de contenus d’information et d’actualité analysés par le centre. De tous les liens vers des sources de médias populaires mettant en évidence la politique ou le contenu politique au cours de la période de l’étude, 57% sont estimés provenir de comptes robots.
Les bots de Twitter publient une plus grande part du contenu venant des publics centristes de Twitter
La question de savoir si les sources médiatiques partagées par les libéraux ou les conservateurs avec plus de trafic de compte automatisé a été un sujet de débat au cours de la dernière année. Certains ont exprimé leur inquiétude sur le fait que les présumés comptes robots sont prolifiques dans le partage de nouvelles politiques hyper-partisanes, que ce soit celle de gauche ou celle de droite du spectre idéologique.
Cependant, l’analyse du centre révèle que les comptes Twitter automatisés partagent une plus grande proportion de liens provenant de sites ayant des publics humains idéologiquement mixtes ou centristes, du moins dans le domaine des nouvelles populaires et des sites d’actualité. Par extension, ces comptes automatisés sont moins susceptibles de partager des liens de sites avec des publiques humaines idéologiquement conservatrices ou libérales. En outre, les différences droite-gauche dans la proportion du trafic de bot ne sont pas importantes.
Cette analyse est basée sur un sous-groupe d’information populaires et d’actualités présentant des histoires politiques dans leurs titres ou ayant une section politique, et qui servent principalement un public américain. Un total de 358 sites web sur notre échantillon complet de 2 315 sites populaires répondait à ces critères. Les chercheurs ont isolé les présumés comptes non automatisés qui ont partagé des liens vers ces sites sur Twitter au cours de la période étudiée et ont utilisé une technique statistique connue sous le nom d’analyse de correspondance pour estimer l’idéologie de l’audience Twitter de chaque site.
L’analyse de la correspondance mesure d’abord la cohérence avec laquelle certains sites sont partagés par certains utilisateurs et non par d’autres. Il les regroupe ensuite et quantifie le degré de différence. Sur la base de cette analyse, un score supérieur à zéro suggère que l’audience d’un site est plus conservatrice, alors qu’un score inférieur à zéro suggère que l’audience d’un site est plus libérale. C’est une technique basée sur une recherche savante qui estime les préférences idéologiques révélées par le comportement. Les chercheurs peuvent utiliser cette méthode pour voir quels sites sont partagés principalement par un public libéral, conservateur ou modéré, et combien de fois les robots partagent chaque type de site. Il est important de noter que l’analyse de la correspondance produit des estimations de l’idéologie de l’auditoire sans aucune analyse du contenu du site web, ce sont uniquement des modèles de partage des utilisateurs humains. Pour plus de détails, voir la section sur la méthodologie.
L’analyse du centre révèle que les présumés comptes autonomes publient une proportion plus élevée de liens vers des sites principalement partagés par des utilisateurs humains qui se situent près du centre du spectre idéologique, plutôt que ceux partagés plus souvent par un public plus libéral ou plus conservateur. Selon l’analyse, les comptes automatisés partagent environ 57 % à 66 % des liens vers des sites politiques partagés par un public humain idéologiquement mixte ou centriste.
En revanche, on estime que les comptes automatisés partagent environ 41 % des liens vers des sites politiques avec un public composé principalement de libéraux, et 44 % de ceux constitués principalement de conservateurs. Les taux de partage entre les sites ayant un public libéral ne sont pas significativement différents de ceux avec des publics conservateurs. Cependant, les différences dans les taux de partage pour les sites avec un public centriste par rapport à ceux des deux extrémités du spectre dépassent largement les marges d’erreur.
Il est important de noter certaines réserves dans l’interprétation des résultats de cette analyse. Tout d’abord, cette étude examine seulement les principaux médias mesurés par le nombre d’actions qu’ils reçoivent sur Twitter. Deuxièmement, il n’examine pas la véracité (ou l’absence de véracité) du contenu partagé par les humains et le contenu partagé par les robots. Enfin, il se concentre sur les taux de partage globaux et ne tient pas compte des partages subséquents ou de l’engagement des utilisateurs humains.