Cette année est paru le Dictionnaire des biens communs aux éditions PUF. En accord avec l’éditeur, je reproduis ici la notice Crowdsourcing, dont je suis l’auteur.1

À noter que vous pourrez également retrouver la notice sur la Publication en Libre Accès (Open Access), par Pablo Rauzy, sur le site de ce dernier.

Crowdsourcing

Voir aussi : Concours d’innovation, Crowdfunding ou financement participatif, Économie collaborative, Innovation ouverte, Plateforme collaborative, Production de pair à pair, Wikipédia

Définition de la notion

Le crowdsourcing (ou externalisation ouverte) est une pratique apparue avec le Web, dit 2.0, par laquelle un problème est confié à une communauté d’internautes dont le travail consolidé permet d’y apporter une solution.

Le terme crowdsourcing est d’apparition récente mais est aussi très utilisé, ce qui peut expliquer qu’il possède une définition assez changeante, selon les sources. Estellés-Arolas et González-Ladrón-de-Guevara (2012) proposent d’intégrer les différentes définitions qu’on peut trouver dans les publications académiques en identifiant les caractéristiques essentielles du crowdsourcing :

  • c’est un « appel » plus ou moins ouvert,
  • à une « foule »,
  • qui se fait par le biais d’un processus participatif,
  • utilisant Internet.
  • Il sert à résoudre une tâche bien définie,
  • proposée par un individu, une organisation ou une entreprise,
  • qui tire parti du processus le plus souvent en recevant la solution à son problème.
  • La foule aussi reçoit une récompense ou tire parti de son travail.

Le néologisme est attribué à Jeff Howe et Mark Robinson, rédacteurs à Wired magazine, qui l’ont construit sur la base de outsourcing. Ainsi, dans son acception première, il exprime une forme d’externalisation. Il aurait été inventé en 2005 et publié pour la première fois en juin 2006. L’observation des courbes d’intérêt pour la recherche de ce mot sur Google, à l’aide de Google Trends, montre bien une apparition à cette date et une augmentation croissante depuis. De manière intéressante, le terme crowdfunding qui n’est finalement qu’un avatar bien particulier de crowdsourcing, n’apparaît qu’en juillet 2010 mais prend une toute autre ampleur en supplantant, dès mars 2012, le crowdsourcing dans les recherches des internautes et en continuant à s’envoler depuis (à ce sujet, voir la rubrique sur le financement participatif).

Exemples de mise en application de la notion

De nombreuses applications ont été qualifiées de crowdsourcing. Si on accepte les différentes caractéristiques qu’on vient de lister, certains de ces exemples doivent néanmoins être disqualifiés.

L’encyclopédie collaborative Wikipédia, en particulier, ne tient pas dans les limites restrictives du crowdsourcing. En effet, personne en particulier n’est à l’origine de l’appel à la foule. Quant à la tâche, bien définie, de construire une encyclopédie, elle est sans fin.

À l’inverse, le service Amazon Mechanical Turk, réunit toutes ces caractéristiques et est d’ailleurs régulièrement cité comme l’exemple paroxystique de crowdsourcing. Ce service propose à n’importe qui de donner des tâches à des « travailleurs du web » en échange de « micro-paiements ». Avec ce service, la personne à l’origine de l’appel à la foule se charge de fusionner les données obtenues de la manière pertinente.

InnoCentive est une plate-forme d’innovation ouverte, étudiée entre autres par Isabelle Liotard et Véronique Revest (2015). Bien que répondant à la définition du crowdsourcing, elle présente la caractéristique particulière que seule la meilleure solution proposée par la foule est retenue.

Le site Duolingo était à l’origine un exemple de crowdsourcing où la foule reçoit une récompense autre que monétaire, en l’occurrence un service d’apprentissage de langues étrangères gratuit. Un des exercices proposés aux apprenants avancés, appelé « immersion », consistait à traduire des textes complets (de la langue apprise vers la langue maternelle). Le travail collaboratif des apprenants permettait d’obtenir des traductions de documents fournis par les clients de l’entreprise, que Duolingo estimait de qualité professionnelle.2

Par ailleurs, il existe de nombreuses plateformes de crowdscience (plus souvent désignée sous les termes « sciences participatives » ou « sciences citoyennes »), sur lesquelles les internautes jouent et contribuent en même temps à l’avancement de la recherche (l’exemple le plus connu est FoldIt http://fold.it mais on peut aussi citer Phylo DNA Puzzles http://phylo.cs.mcgill.ca/, Galaxy Zoo http://www.galaxyzoo.org…).

Enfin, reCaptcha est un service de crowdsourcing « forcé » (ou crowdsourcing implicite). Le service, possédé depuis 2009 par Google, permet de vérifier que les internautes ne sont pas des robots lors de l’inscription à divers sites (il s’agit de la requête faite à chaque utilisateur de retranscrire des lettres ou des chiffres qui apparaissent de façon tordue3), tout en fournissant à l’entreprise des données utiles à la reconnaissance de caractères ou d’images. Une pratique proche, de la part de certaines entreprises ayant un très grand nombre d’utilisateurs telles que Facebook, consiste à se servir des données récoltées sur le comportement des utilisateurs pour conduire des études et éventuellement en tirer des bénéfices. Cette pratique a été qualifiée de piggyback crowdsourcing par Doan et al. (2011) mais elle ne respecte pas la définition du crowdsourcing présentée ici.

Régime juridique du crowdsourcing

Chaque forme de crowdsourcing fonctionnant autour d’une plateforme (voir la rubrique sur les plateformes collaboratives), c’est l’entreprise ou l’organisation qui la possède qui fixe les règles, étant entendu que le choix de ces règles participe au succès ou à l’échec de la plateforme. Selon les types de tâches, les considérations juridiques peuvent d’ailleurs varier grandement.

D’une part, certains systèmes visent à récolter de la connaissance pure ou des données brutes, que la personne à l’origine de l’appel à la foule peut alors utiliser à sa guise, sans prendre la peine de les protéger, car elle sera seule à les posséder toutes (les contributeurs ne voient la plupart du temps que leurs propres contributions). Ce sera le cas de systèmes comme reCaptcha ou de ceux visant à recueillir les préférences de consommateurs.

D’autre part, la foule peut être co-créatrice de procédés brevetables ou de réalisations protégées par le droit d’auteur, comme dans les cas d’InnoCentive ou de Duolingo. La plate-forme se protège alors par des conditions générales d’utilisation précisant les conditions dans lesquelles les contributeurs lui cèdent leurs droits. Dans le cas d’InnoCentive, cela va même plus loin puisque ceux qui répondent à un appel signent aussi, bien souvent, des accords de confidentialité.

Enfin, certaines plateformes, se situant nettement dans le domaine des communs, rendent à la foule sa création, que ce soit par l’utilisation de licences libres (comme sur Wikipédia), ou par le partage des connaissances obtenues (comme dans le cas des sciences citoyennes).

Modèle économique du crowdsourcing

Le crowdsourcing peut être vu comme une forme d’économie collaborative. Comme souvent dans ce type d’économie, il met en jeu trois types d’acteurs : les demandeurs de service, les fournisseurs de service qui sont en grand nombre (la foule) et une plateforme d’intermédiation. La particularité du crowdsourcing comparé à d’autres formes d’économie collaborative est que les demandeurs sont bien moins nombreux que les fournisseurs de service. Les mêmes questions éthiques, juridiques et sociales se posent néanmoins sur les conditions de travail des contributeurs (considérés comme indépendants) et le niveau de leur rémunération. Elles sont extrêmement pertinentes pour les plateformes comme Amazon Mechanical Turk, où les travailleurs sont rémunérés mais très faiblement. Elles se posent moins lorsque les contributeurs participent gratuitement et volontairement (comme sur Duolingo) ou que l’appel à la foule prend la forme d’un concours dont le vainqueur seul est très bien récompensé (cas d’InnoCentive).

La faiblesse du coût du travail dans ce type d’économie explique que le crowdsourcing soit souvent présenté dans le monde des affaires comme une technique d’externalisation très rentable. Elle dépend cependant du succès très incertain de l’appel à la foule. L’intermédiaire fournit parfois alors une forte valeur ajoutée. Par conséquent, le coût d’utilisation de la plateforme peut représenter une part plus importante que le coût de la main d’œuvre. Ce sera évidemment le cas avec l’intermédiaire Duolingo, rémunéré par ses clients et ne reversant rien directement à ses utilisateurs, mais dont le service d’apprentissage des langues, très sophistiqué, permet d’attirer un nombre d’utilisateurs important et représente un coût d’investissement élevé pour l’entreprise.

Considérations techniques sur le crowdsourcing

Du point de vue technique, le crowdsourcing est une forme de calcul distribué où les éléments du réseau vers qui on distribue des tâches sont humains au lieu d’être des machines. Cependant, les mêmes considérations s’appliquent : comment décomposer la tâche ? Comment répartir les sous-tâches obtenues ? Et comment combiner les réponses in fine ? Certains types de tâches se décomposent puis se recomposent très bien (et ces deux étapes peuvent alors être gérées automatiquement par une machine). Ce sera notamment le cas de la production de données, par exemple l’annotation de corpus destinés à entraîner des algorithmes d’intelligence artificielle. Dans ce cas, les contributeurs travaillent de manière complètement indépendante les uns des autres. Globalement, on assiste à un type de collaboration homme-machine où, à l’inverse du modèle traditionnel, l’homme se charge de tâches que la machine lui a déléguées.

D’autres tâches, plus dures à décomposer et recomposer, nécessitent une communication entre les membres de la foule (qui finalement se charge aussi des étapes de décomposition et recomposition) : soit chacun propose sa propre solution mais en s’inspirant de ce que font les autres, soit tout le monde travaille sur une solution commune. Ce sera notamment le cas avec Duolingo et Wikipédia.

Distinction avec les notions voisines

La notion de crowdsourcing est à distinguer principalement de celle de production de pair-à-pair. Les deux sont rendues faciles grâce à internet et les deux proposent des formes de collaboration. Cependant, alors que la production pair-à-pair, souvent décentralisée, met l’accent sur le reversement du résultat obtenu dans les communs (les contributeurs sont récompensés de leur travail par le résultat obtenu de manière collaborative), le crowdsourcing est centralisé et asymétrique : les trois acteurs précédemment mentionnés jouent des rôles spécifiques et tirent des avantages distincts de leur interaction. Wikipédia et les logiciels libres sont donc des exemples de production pair-à-pair et non de crowdsourcing.

Bien que nous n’en parlions que très succinctement dans cette notice, le crowdsourcing n’est à distinguer du crowdfunding (ou plutôt financement participatif) qu’en ce que le deuxième est une espèce très particulière du premier. En effet, on retrouve dans le financement participatif les trois types d’acteurs et toutes les caractéristiques précédemment cités. Mais plutôt que de contribuer avec son intelligence, la foule contribue avec son argent. Cela implique des considérations bien différentes qui sont spécifiquement traitées dans la rubrique sur le sujet.

Pertinence comme modèle de communs

Le crowdsourcing est un processus participatif. En cela, il partage de nombreux traits avec d’autres processus à l’origine de nouveaux communs informationnels : une certaine ouverture, l’usage d’Internet et d’une communauté de contributeurs. Par conséquent, certains auteurs assimilent volontiers ces processus au terme, à la mode, de crowdsourcing, entretenant par là une certaine confusion et laissant croire que le crowdsourcing appartient systématiquement au domaine des communs.

En fait, cela dépend grandement de la politique choisie par la plate-forme de crowdsourcing. Dans le cas d’Amazon Mechanical Turk ou d’InnoCentive, la personne à l’origine de l’appel à la foule et payant le service récupère tous les droits sur les résultats. Souvent ces résultats ne seront même pas rendus publics. Cette privatisation du travail collectif se justifie juridiquement et moralement par le fait que les contributeurs sont rémunérés.

Au contraire, dans le cas de reCaptcha, les contributeurs ne sont ni volontaires, ni rémunérés. Si le but initial de reCaptcha (aider à la numérisation du patrimoine littéraire de l’humanité) allait effectivement dans le sens des communs, le service a ensuite servi à améliorer Google Street Maps et à entraîner divers algorithmes d’intelligence artificielle de Google. Ces deux derniers bénéfices ne seront pas reversés dans les communs mais profiteront aux contributeurs seulement s’ils utilisent les services de Google.

Similairement, Duolingo se situait, avec son service de traduction, à la frontière entre privatisation du travail gratuit des utilisateurs (justifié par le service d’apprentissage de langue fourni par la plateforme) et contribution aux communs. En effet, les documents qui étaient soumis aux apprenants pour traduction avaient deux origines : soit ils provenaient des clients de Duolingo, qui récupéraient alors le copyright sur le résultat de la traduction, soit il s’agissait de documents sous licence Creative Commons soumis par n’importe quel utilisateur (la traduction étant alors gratuite et reversée dans le commun).

Finalement, les projets de sciences citoyennes s’inscrivent de manière évidente dans le domaine des communs. Les données initiales et produites sont généralement intégralement publiques. De plus, le travail des contributeurs sert à enrichir le commun de la connaissance scientifique, bien que se pose alors de manière aiguë la question de l’accès aux résultats de la recherche (cf. la rubrique sur l’open access).

Repères bibliographiques

  • Doan A., Ramakrishnan R. et Halevy A., « Crowdsourcing systems on the World-Wide Web », Communications of the ACM, 2011, n° 4, pp. 86-96. [PDF]
  • Estellés-arolas E. et González-Ladrón-de-Guevara F., « Towards an integrated crowdsourcing definition », Journal of Information Science, 2012, n° 2, pp. 189-200. [PDF]
  • Liotard I. et Revest V., « InnoCentive : un modèle hybride d’innovation basé sur l’innovation ouverte », Le Retour des communs, Les Liens qui Libèrent, 2015, pp. 151-169. [PDF]
  1. Veuillez comprendre en conséquence que les conditions habituelles de licence de mes billets de blog ne s’appliquent pas ici. Pour les intéressés, Pablo Rauzy (l’auteur de la notice Publication en Libre Accès) a écrit un billet de blog à propos du contrat initial avec les éditions PUF et des marges de négociation. 

  2. Duolingo a cependant progressivement abandonné cet aspect de son modèle d’affaires, ayant identifié d’autres sources de monétisation, et afin de se concentrer sur le développement de son service d’apprentissage de langues, par opposition à son service de traduction. 

  3. La dernière version de ce service de Google propose à la place d’identifier des images, de nourriture ou autre. Par le passé, il avait aussi servi à identifier des numéros de rue pour Google Street.