OWNI

Le procès suggestif de Google

Andréa Fradin et Rodolphe Baron — Wed, 23 May 2012 06:48:34 +0000

Mise à jour (23/05/2012,11h) : le choix du médiateur a bien été confirmé lors de l’audience de ce matin. C’est Jean-Pierre Mattéi qui a été désigné pour trouver un consensus entre les deux parties. Comme prévu aussi, l’accord sera noué dans la plus grande confidentialité. Autrement dit, si le mot “juif” disparaît des radars de Google, ce sera en catimini. Ce qui vaut mieux pour le géant américain, comme l’explique l’article ci-dessous.

Ça ne devrait pas traîner. L’affaire opposant quatre associations, dont SOS Racisme et l’Union des étudiants juifs de France (UEJF), à Google, aboutirait à la recherche d’un médiateur. Le géant américain est mis en cause pour l’association automatique du mot “juif” à des requêtes concernant certaines personnalités françaises. Prévue ce jour, l’audience devrait donc tourner court : à la bataille juridique déjà fortement médiatisée, les deux parties préféreraient la recherche d’un accord. Hors projecteurs. Une sortie de crise confidentielle et préférable pour un contentieux boiteux, qui dépasse le seul cadre juridique.

Fantasme

En cause : le service “Google Suggest” ou ”saisie semie-automatique”. Mise en service en septembre 2008, cette fonctionnalité du moteur de recherche “prédit et affiche des requêtes basées sur les activités de recherche des autres internautes”, nous explique Google. En clair, lorsque vous tapez “chat mignon” dans google.fr, d’autres mots apparaissent au moment de votre saisie : “chat mignon et drôle”, “chat mignon à vendre”… Des mots correspondant à ceux déjà tapés avant vous, sur google.fr, par d’autres personnes intéressées par les chats.

Maintenant, tapez François Hollande, François Fillon ou Jean Dujardin. Très vite, les mots “est juif” s’agglutinent à votre recherche.

Inacceptable pour SOS Racisme, l’Union des étudiants juifs de France, J’Accuse – Action Internationale pour la justice, et le Mouvement contre le racisme et pour l’amitié entre les peuples (Mrap), qui ont assigné Google. “Google incite les internautes à orienter leurs recherches et alimente le fantasme selon lequel les juifs voudraient prendre le contrôle sur le monde” tonne Jonathan Hayoun, à la tête de l’UEJF, contacté par OWNI. L’avocat de SOS Racisme Patrick Klugman va même plus loin, dénonçant “la création de ce qui est probablement le plus grand fichier juif de l’histoire.” Fichier. Le mot est lâché. Et illustre déjà le scabreux du contentieux.

Si la petite phrase a fait son effet dans les médias, difficile en revanche de savoir si elle constitue le fondement de l’infraction visée. “Je ne pense pas que les conditions soient réunies pour justifier un fichier ethnique”, commente Cédric Manara, spécialiste des questions juridiques touchant à Internet, qui doute de la solidité de l’argument du fichage. Car mettre en cause Google sur ce volet revient aussi à accuser l’ensemble des moteurs de recherche. Or la loi informatique et libertés les a déjà sortis de son viseur. Si cette dernière interdit en France de collecter des données dites “sensibles”, telles que l’appartenance religieuse ou l’orientation sexuelle, son article 4 précise bien que les services qui effectuent des “copies temporaires” des données, “à seule fin de permettre à d’autres destinataires du service le meilleur accès possible aux informations transmises”, ne sont pas concernés par ces dispositions. En clair, les moteurs de recherche.

L’action des associations n’est pas loufoque pour autant. Si elles agitent le spectre du fichier ethnique d’un côté, elles demandent également au juge d’interdire à Google “d’associer le mot “juif” aux patronymes des personnes physiques figurant dans les requêtes des internautes.” Une requête qui semble plus recevable.

Bon vouloir

En Europe en effet, Google s’est souvent vu sommé de mettre un terme à la suggestion automatique de deux termes. Particulièrement en France. Le géant du web a ainsi été attaqué pour avoir associé certaines sociétés au mot “arnaque”. Ainsi le Centre national privé de formation à distance (CNFDI) ou Direct Energie. Des particuliers ont aussi rejoint le mouvement. Le fondateur de Skyrock a ainsi obtenu la suppression d’expressions liant son nom aux mots “viol”, “sataniste”, “prison” ou encore “violeur”, pour diffamation. Dans une autre affaire, c’est la conjonction du mot “gay” qui a posé problème : dans la mesure où la personne visée n’avait pas publiquement fait état de son homosexualité, la suggestion automatique de Google a été considérée comme attentatoire à la vie privée.

Pour chacun des cas, comme celui qui nous intéresse, Google a fait valoir le caractère “automatique” et “neutre” du service, plaidant que les résultats étaient “générés de manière totalement algorithmique, sur la base de critères purement objectifs correspondant notamment aux requêtes préalablement saisies par les internautes.” En d’autres termes, ils ne dépendent pas du bon vouloir de Google. Et ne mettent donc pas en cause sa responsabilité. Un argument répété mais pourtant rejeté par le juge.

Car contrairement à ce qu’il avance, Google ne se contente pas de “suggérer” en relayant les recherches d’internautes. Il opère un tri préalable. “Par un procédé qui pourrait s’apparenter à la modération a priori d’un forum de discussion”, explique le juge de l’affaire CNFDI vs Google, le géant californien décide d’exclure les contenus pornographiques, violents ou incitant à la haine. Une “intervention humaine” bien réelle, d’ailleurs mentionnée dans la notice de la fonctionnalité. Qui va jusqu’à exclure des termes pouvant aider l’internaute à atterrir sur des sites portant atteinte à des droits d’auteur. C’est dire si le tri est efficace. Et c’est là que le bât blesse : si Google opère une sélection a priori, excluant certains sujets potentiellement sulfureux, pourquoi ne le ferait-il pas pour d’autres ? Plus qu’un intermédiaire neutre, il se transforme ici en un véritable vecteur de pensée. Susceptible d’être orienté, sous la pression des lois des territoires dans lesquels il opère, ou sous la menace d’un procès. Adieu, donc, la prétendue neutralité.

Casser le miroir

Une situation qui se corse d’autant plus ici, explique Cédric Manara :

Jusqu’alors, Google s’était toujours confronté à des cas particuliers : un individu, une entreprise. Aujourd’hui, il s’agit de la demande d’un groupement d’intérêts.

La requête des associations a en effet une portée globale : elle vaut pour toute personnalité à laquelle le mot “juif” se verrait associer dans le moteur de recherche. Or le juge est attaché à la notion de proportionnalité : toute restriction aux moteurs de recherche doit être à la mesure du préjudice constaté. Car ils “sont des outils indispensables pour rendre effective la libre diffusion de la pensée et de l’information sur ce réseau mondial et décentralisé, dont la contribution à la valeur constitutionnellement et conventionnellement garantie de la liberté d’expression est devenue majeure”, rappelle la jurisprudence.

Certes, mettre un frein à Google Suggest n’empêche aucunement l’accès aux contenus indexés par le moteur de recherche. Il n’en entrave pas moins l’accès à un autre type d’information : ce que tapent les internautes dans Google. Réalité sur laquelle se fonde la fonctionnalité du moteur de recherche. Si “juif” remonte si rapidement dans les suggestions de google.fr, c’est que les Français recherchent en priorité cette information. “À supposer que Google ne ment pas sur le fonctionnement de Suggest, cela signifie qu’il y a un penchant français pour la recherche de la confession religieuse de personnalités”, explique Cédric Manara. Une tendance de fond forcément frappée du sceau du soupçon. Mais pour autant bien réelle. La question étant que faire ? Que faire de cet état de fait, possiblement lié à un vieux fond d’antisémitisme latent ? Le voiler pour espérer qu’il en meurt ? Ou s’en détourner en souhaitant qu’il s’évanouisse dans le flot d’autres recherches ? Éternelle tension entre liberté d’expression et ordre public. Entre ce qui est acceptable et ce qui ne l’est pas. Cédric Manara résume : “supprimer la suggestion consisterait à casser le miroir.” “Pas sûr que ce soit une bonne chose.”

Reste à déterminer le préjudice : en quoi l’association de “juif” à un nom est-il en soi problématique ? Le terme ne saurait constituer une injure. Mais l’ôter de la suggestion automatique, c’est donc lui reconnaître d’emblée un potentiel problématique. Suffisamment important pour mener une action. Sans demander leur avis aux intéressés. Sans se préoccuper de la réalité de leur confession. Ou des contenus auxquels la requête peut renvoyer. Surtout, en présumant nécessairement de la malveillance de la recherche. La boîte de Pandore est ouverte : pourquoi alors ne pas exclure toutes les autres confessions ? “Barack Obama” est par exemple associé à “musulman” et non à “juif”. Et que dire des mots “noirs”, “arabes”, “gay”, “moche”, “gros”; bref, tout terme recouvrant une recherche possiblement polémique, probablement tendancieuse ? “Et pourquoi pas ‘anorexie’ ?” poursuit Cédric Manara, qui raconte qu’en Finlande, une association de lutte contre l’anorexie a profité du blocage du site The Pirate Bay par certains fournisseurs d’accès à Internet (FAI) pour exiger la même chose pour sa cause. Et de conclure :

La question est : où veut-on placer le curseur ?

Accord hors projecteurs

En ce sens, l’affaire Google Suggest dépasse bien la simple confrontation judiciaire. Et constitue un véritable cauchemar pour le juge. Fort heureusement pour lui, les deux parties devraient lui épargner ce supplice. La solution du médiateur lui serait préférée. Afin de “prendre le temps d’examiner, dans un cadre confidentiel, la solution technique qui nous convienne”, précise Patrick Klugman pour SOS Racisme, au téléphone avec OWNI. Également contactés, les avocats de Google sur cette affaire n’ont pas souhaité s’exprimer. Comme souvent.

“Vu leur historique judiciaire, il vaut mieux qu’ils ne passent pas devant le juge et qu’ils fassent profil bas”, estime de son côté Cédric Manara. Selon lui, Google ne peut prendre le risque d’un jugement public le forçant à faire disparaître un terme aussi générique que “juif”, susceptible de faire effet boule de neige ailleurs. “Il y a le précédent Yahoo poursuit-il, une décision française qui a eu une répercussion mondiale.” A l’époque déjà, l’UEJF menait la barque en poursuivant Yahoo pour mise à disposition d’objets nazis sur l’une de ses plate-formes américaines, mais évidemment accessible en France. Une affaire hexagonale qui s’est poursuivie aux États-Unis. Et qui a fait plier Yahoo.

“Google va faire en sorte que ça ne se fasse pas. Car c’est la survie même de son service qui est en jeu”, ajoute Cédric Manara. Son cœur de métier, le mode de fonctionnement même de son moteur de recherche est ici attaqué. Autant alors opter pour une négociation discrète avec l’UEJF, “qui sait très bien ce qu’elle fait”, ajoute le juriste. L’association a fait de l’attaque des géants du web une spécialité, mise en avant sur son site. “Google devrait certainement accepter de restreindre la suggestion, mais uniquement en France, et dans la confidentialité”, projette Cédric Manara . Un scénario plus que probable, que confirme l’accusation, par la voix de Patrick Klugman.

Une conclusion rapide et favorable aux deux parties. Qui prive néanmoins la France d’un débat public. “C’est une question importante, qui risque d’être tranchée en dehors des tribunaux., regrette Cédric Manara. Alors même qu’on aurait besoin d’une boussole claire pour indiquer quoi faire.”

Illustrations CC FlickR Tangi Bertin, Creativity 103 et captures d’écran.

La loi du chiffre selon Google

Claire Berthelemy — Thu, 03 Nov 2011 15:48:56 +0000

Bernard Strainchamps, fondateur de la librairie en ligne Bibliosurf, a été comme d’autres sites, affecté par la mise en place du nouvel algorithme de Google, nommé Panda. Mis en place début août dans le but de rendre les résultats du moteur de recherche plus pertinents pour l’internaute, il a aussi pénalisé des sites de vente en ligne.

À partir de quel moment avez-vous constaté que vos pages disparaissaient des premiers résultats de Google ? Lorsque vous les avez contactés, quelle a été leur réponse ?

Dès le 15 août, j’ai constaté un retour différent de Google. J’ai écrit alors un billet sur mon blog intitulé ironiquement Panda n’est-il pas un animal en voie de disparition ? Comme 70% du chiffre d’affaires est encore généré pas des visiteurs occasionnels qui effectuent une recherche sur Google, un bon référencement est vital pour la librairie Bibliosurf. Je les ai contactés et ils m’ont répondu via mon compte webmaster tools que Bibliosurf n’était pas rentré dans des critères déclassifiants [NDLR : n’était pas une ferme de contenus] mais que l’algorithme évoluait et que cela pouvait entraîner des changements dans le classement.

Dans les faits, les statistiques vous ont montré qu’il y avait une baisse de la fréquentation. Jusqu’à quel point ?

Mon hébergeur a changé son logiciel de statistiques et Bibliosurf est passé d’une version du logiciel SPIP de 1.9 à 2.1. Aussi, c’est difficile de comparer des chiffres qui n’ont pas été produits dans les mêmes conditions. J’estime néanmoins une chute de fréquentation de 30% liée à Google Panda et une chute des commandes de 20% en septembre. Je n’ai pas encore les chiffres d’octobre mais Google Panda continue son travail de sape. La chute pourrait être de 40% ce mois.

Vous procédez à votre propre référencement. Avez-vous fait des modifications par la suite pour améliorer vos résultats ?

Sur Bibliosurf, je fais tout tout seul. Du code aux cartons en passant par les interviews des auteurs et l’animation du site. Je ne suis donc pas un spécialiste du référencement. Par contre, je sais que Bibliosurf a toujours bénéficié d’un très bon référencement sur ce moteur de recherche. Une étude du MOTIF [PDF] le montrait déjà en octobre 2010. Vers la mi septembre quand j’ai constaté la baisse drastique du nombre des commandes, j’ai effectué un test avec des titres en vue de la rentrée littéraire pour savoir ce qu’il en était de mes concurrents sur Google. J’ai alors constaté à mon grand étonnement que toutes les librairies en ligne étaient touchées sauf la Fnac qui caracolait dans les premières positions des requêtes dans 7 cas sur 10. J’ai regardé comment la Fnac présentait les notices.

On travaille tous avec le contenu dupliqué produit par les éditeurs. Aussi, il n’y a pas de raison qu’une librairie soit privilégiée. Lors de mon analyse, j’ai constaté que la Fnac avait remonté le contenu produit en interne : les commentaires des libraires et des lecteurs. J’ai donc fait de même. Un quart de Bibliosurf est du contenu enrichi : interviews, chroniques des lecteurs et revue de presse. A ce jour, ce changement n’a produit aucun effet.

Selon vous, qu’est ce que peut changer Google Panda à court et long terme pour les librairies telles que la votre et pour celles comme Amazon et la Fnac ?

Le filtre Panda qui chasse le contenu dupliqué est sans doute une bonne chose pour les internautes. Dans les premiers résultats des requêtes, il ne sert à rien que l’internaute ait accès dix fois à la même notice produite par les éditeurs.
Google met d’ailleurs en avant le site de l’éditeur à présent. Mais Google Panda est aussi une machine à gagner de l’argent qui va forcer l’e-commerce à acheter du mot clé payant. Cette semaine, j’ai effectué un test avec 100 euros investis dans les termes “ebook” et “livre numérique”. Cela a bien sûr redirigé des internautes vers ma nouvelle librairie de livres numériques mais sans générer une hausse du chiffre d’affaire.

Il y a un temps, Internet était un réseau de réseaux. Il a tendance à devenir le réseau de quelques multinationales qui prennent toute la place. Présent sur le web depuis 1997, et sur le web littéraire depuis 1999, je bénéficie aujourd’hui d’une certaine sympathie des bibliothécaires (qui est mon précédent métier), des libraires et des amateurs de littérature, en particulier de polar. Mais cette estime ne se traduit pas par un grand volume de ventes. Il y a les fidèles qui ne veulent pas lâcher leurs libraires et ceux qui sont accros à Amazon.
J’espérais beaucoup du numérique mais l’arrivée de lecteurs (reader ou tablette) fermés et liés à une librairie unique type Kindle ne laisse entrevoir que de sombres perspectives.

Non contentes de bénéficier d’une force de frappe financière, ces multinationales délocalisent leurs sièges au Luxembourg pour bénéficier d’une TVA réduite et ainsi vendre des livres subventionnés par l’État empochant au passage un bonus fiscal.
Il y a trois jours, j’ai reçu un aimable tweet qui disait que je n’avais rien compris, qu’il fallait s’adapter ou mourir. En plus de produire 300 interviews en 5 ans, j’ai tenté de nombreuses pistes pour créer un catalogue à taille humaine mouvant qui se configure en fonction des consultations, des avis des lecteurs, de ce qui se dit sur le net, et bien sûr sans oublier ma subjectivité. J’ai par ailleurs innové dans la structuration des données avec une indexation très riche qui utilise des formats dates et la géolocalisation. Je crois que le livre papier ou dématérialisé a besoin de médiateurs : journalistes, libraires, blogueurs, réseaux de lecteurs… Et surtout que la religion de l’algorithme a ses limites.

Illustration Flickr Belhor_

Vous pouvez retrouver les articles du dossier :
Google gentiment au tribunal de commerce
Google abuse en silence

Illustration de Une Marion Boucharlat

Le référencement tourne au vinaigre

Claire Berthelemy — Mon, 12 Sep 2011 06:07:57 +0000

Dans un échange de courriels avec OWNI, l’investisseur du web Jérémie Berrebi a confirmé sa décision de faire appel d’un jugement du 26 juillet dernier du Tribunal de commerce de Paris. Depuis plusieurs mois, ce dossier atypique passionne le petit commerce de l’indexation sur Google. Le 26 juillet, l’une des sociétés de Berrebi, zlio.com, a été condamnée à payer une facture non-réglée à referencement.com, chiffrée à 17.000 €.

Mais dans son jugement, le tribunal a également sanctionné l’homme d’affaires pour s’être emporté, dans un tweet, en exprimant tout le mal qu’il pensait de son ancien prestataire. Conséquence : 10.000 € de dommages et intérêts à verser à referencement.com pour “dénigrement”.

61039959 Con Damnation de La Societe Zlio

L’affaire remonte à septembre 2007, lorsque les gérants de zlio.com constatent une brutale dégradation dans l’indexation de leur site sur Google. Ils font alors appel à referencement.com, société spécialisée dans le placement des sites sur les moteurs de recherches . Et donc chargée de faire remonter les pages du site de boutiques en ligne.

Selon un porte-parole de Google, qui a insisté pour que son nom ne soit pas cité, un site peut être déréférencé – manipulation temporaire et définie dans le temps par les équipes techniques de Google et/ou action de l’algorithme – ou peut perdre en visibilité :

Cette intervention peut arriver lorsque les sites ne sont pas pertinents, voire s’ils sont malveillants. Dans la majorité des cas, le propriétaire du site reçoit une ou plusieurs notification en amont. Sauf pour les sites en infractions répétées.

L’action n’étant pas irréversible, même pour les sites qui ne respectent pas les CGU, referencement.com avait pour mission de rendre à zlio.com sa visibilité première. Avec un budget important d’environ 30 000 euros, une belle somme pour l’époque et la problématique. Mais quelques mois plus tard, les associés du site lésé remarquent que la mission de leur prestataire n’est pas à la hauteur de leurs attentes. Et décident de ne pas verser les 17 000 euros restant à l’ardoise correspondant au paiement à livraison pour “inexécution des engagements”. Un proche avance l’existence d’un mail, intégré au dossier et expliquant que la deuxième partie de la facture “ne serait versée qu’en cas de résultats satisfaisants de referencement.com”.

Un ancien développeur de referencement.com nuance les performances des sociétés de ce type :

Au royaume du SEO (optimisation de l’indexation, Ndlr), le résultat du référencement naturel n’est jamais garanti à 100%. Il est toujours possible de garantir de travailler les critères on-site, soit ce qui concerne le référencement dans les pages même du site, respectant ce que pourrait souhaiter l’algorithme de Google. Mais pour les critères off-site, ce qui peut représenter environ 70 à 80% de la proportion de prise en compte, nous ne maîtrisons pas vraiment les choses.

Son dû en attente et quelques rappels envoyés à Zlio – restés sans réponse -, Sylvain Bellaïche, président de referencement.com, décide d’assigner son client au Tribunal de Commerce de Paris pour non paiement de la prestation, le 30 janvier 2009.

140 signes pour une jurisprudence

Mais si le juge statue en faveur du prestataire, dans la balance judiciaire, il n’y a pas qu’un simple refus de paiement de la part de Zlio. Est aussi apparu au cours de la procédure un tweet de Jérémie Berrebi sur son compte Twitter personnel, contre les performances de referencement.com. C’est la première fois en France qu’une condamnation est prononcée contre l’auteur d’un tweet.

L’avocate de referencement.com, Me Sylvie Gauthier refuse de s’exprimer sur le sujet. Et celui de Zlio, Jean-Philippe Hugot explique que “la motivation du tribunal est incompréhensible, surtout concernant la diffamation.” Pour lui, le tribunal de commerce ne peut pas juger d’une diffamation.

Cependant, pour Me Gérard Haas, spécialiste des questions concernant le droit et Internet, le tribunal de commerce est compétent pour juger ce genre d’affaires :

Un tribunal de commerce est plus au fait des relations entre commerçants qu’un autre tribunal et la condamnation a encore plus de de poids dans le cas de dénigrement. La décision de condamner un tweet diffamatoire est intéressante pour le futur de la e-reputation : on est responsable de ses tweets.

L’affaire, qui sera donc réexaminée en appel, est emblématique de la forte concurrence à laquelle sont confrontés les sites pour atteindre les résultats des premières pages de Google. Les simples désaccords entre commerçants du net deviennent des batailles rangées. Un phénomène qui devrait prendre de l’ampleur avec le nouvel algorithme de Google, déployé il y a un mois, et qui bouleverse les règles de l’indexation pour plusieurs secteurs économiques.

—

Illustration woodleywonderworks

Information du futur: trouver la réalité dans le code

Roland Legrand — Tue, 31 May 2011 10:04:28 +0000

Notre site d’information www.tijd.be existe depuis 15 ans désormais. En mai 1996, disposer d’une connexion internet 128kbit relevait de l’exception. Aujourd’hui, bénéficier d’un débit de 100 mégabits paraît tout à fait normal (en Belgique du moins).

En 2026, la vitesse ne constituera plus un problème. L’accès aux réseaux, aux flux d’information et aux bases de données sera instantané, peu importe l’endroit où vous vous trouvez dans le monde. Les smartphones et les tablettes qui nous permettent aujourd’hui de rester connectés en permanence apparaîtront dans quinze ans aussi obsolètes et archaïques que les Remington de nos collègues ancestraux. Être connecté à Internet sera une commodité au même titre que l’air que nous respirons, et l’information nous parviendra de 36 nouvelles façons.

Des sociétés comme Apple, par exemple, commercialiseront des habits “intelligents” et certains éléments électroniques vous seront même implantés directement dans le corps.
Comme très souvent en matière de technologie, c’est l’armée qui est à l’origine de ces développements. Les pilotes d’avion disposent depuis longtemps déjà d’un environnement visuel “augmenté” (head-up displays – HUD), de toutes les informations nécessaires à l’accomplissement de leur mission. L’intégration de ce même dispositif dans les voitures de luxe marquera le début de la transition de cette technologie vers un usage mainstream.

Les claviers seront remplacés par les commandes vocales, les gestes et le tactile. Les écrans deviendront des projections que vous pourrez manipuler en 2D ou en 3D. L’information sera de plus en plus contextuelle et viendra se superposer à la réalité, voire s’y intégrera, la transformant en réalité virtuelle dans laquelle nous jouerons à des jeux hybrides.

Le futur n’est bien sûr pas qu’une histoire de gadgets plus ou moins sophistiqués. La nature de cette information omniprésente va elle aussi muter, posant la question de l’organisation de ces flux.

La personnalisation de l’information

Les médias disposent tous, ou presque, de leur propre application via laquelle ils portent à la connaissance du public les contenus produits et sélectionnés par leur staff éditorial. Mais des applications comme Flipboard sont en train de changer la donne. Conçues en dehors du sérail médiatique traditionnel, ces applications transforment en un véritable magazine multimédia personnalisé le flux des articles, photos et vidéos recommandés par les individus de votre réseaux: vos “amis” et “followers”.

Certains articles viennent de The New York Times, d’autres du Wall Street Journal et de TechCrunch. Les algorithmes de ces services apprennent à vous connaître, à reconnaître les articles que vous lisez et enregistrent combien de votre précieux temps vous leur consacrez. Facebook n’affiche dans votre newsfeed que les statuts des personnes qui sont les plus importantes à vos yeux, en tout cas selon l’algorithme de Facebook. La personnalisation de l’information est d’ores et déjà une réalité, et ne va aller qu’en s’amplifiant.

Dans son livre The Filter Bubble, Eli Pariser explique comment Google calcule les résultats de vos recherches non seulement selon les termes de celles-ci mais aussi en fonction de l’ordinateur et du navigateur que vous utilisez, de l’endroit où vous vous trouvez dans le monde, etc. Ce qui veut dire qu’un individu effectuant la même recherche que vous, avec les mêmes mots-clés, recevra selon toute évidence des résultats différents des vôtres. Trouver quelque chose sur le web qui ne sera pas adapté et personnalisé à vos goûts relèvera de plus en plus de l’exception.

Le temps des mass-médias paternalistes qui vous suggéraient toujours les mêmes infos, qui que vous soyez, où des journalistes omniscients décidant seuls de ce qu’il était “bon et important” de savoir, est révolu.

Mais, comme le souligne également Eli Pariser dans son intervention à TED, le danger de cette persocialisation à outrance de l’information est de s’enfermer dans une bulle de confort, n’étant in fine confronté qu’à des infos que moi et mon réseau “aimons”, nous privant de l’accès à celles que nous devrions peut-être avoir.

Il y a des garde-fous humains. Et il y a les algorithmes. Nous en savons encore moins sur ces algorithmes que sur les éditeurs humains. Nous pouvons avoir une idée de la sélection éditoriale du New York Times, mais de nombreuses personnes ne sont même pas au courant que Google leur montre des résultats différents, qui reposent sur de prétendus critères personnels, de même qu’ils ne sont pas toujours conscients de la sélection des statuts opérée par Facebook.

Le code utilisé par les grandes compagnies pour filtrer ce que nous voyons a une importance politique. Si nous voulons conserver un Internet qui nous confronte à une diversité de points de vue et à des histoires, des faits, qui nous surprennent et nous éclairent, nous devons être conscients de ces débats autour des algorithmes et des filtres. Si nous n’y prêtons pas attention, nous serons programmés dans notre dos.

Au-delà de tous ces filtres, humains, réticulaires et algorithmiques, nous trouvons un flux d’informations toujours plus conséquent. Tweets, statuts mis à jour, billets d’experts sur des blogs; témoins et acteurs nous immergent, seconde après seconde.

Je suis sûr qu’en 2026, il y aura quelque chose que nous appellerons “journalisme”: des gens qui ont la passion de certains sujets, aimant sélectionner, vérifier et commenter, en apportant des éléments de contexte. La BBC a déjà un desk spécialisé qui analyse images et textes diffusés sur les réseaux sociaux: ils vérifient si une photo spécifique a bien pu être prise à l’endroit et au moment prétendus, pour ne donner qu’un exemple. Presque chaque jour, émergent de nouveaux outils de curation pour les journalistes et les blogueurs, qui facilitent l’utilisation des médias sociaux.

“La transparence est la nouvelle objectivité”

La curation de l’information est une activité à forte valeur ajoutée. Peu importe si ces “curateurs” se désignent comme journalistes , blogueurs, éditeurs de presse ou éditeurs en ligne: l’importance se place dans la qualité de la curation et dans le débat sans fin suscité par ces pratiques.

Quiconque a l’énergie et le temps de jeter un oeil aux flux d’informations brutes serait capable de voir la façon dont la curation ajoute, omet ou modifie les choses. Non seulement nous serions capables de l’apprécier, mais nous sommes également invités à améliorer ou à directement participer à certains projets de curation – comme Quora.

Blogueurs et journalistes qui déclarent clairement leur positionnement par rapport à l’actualité qu’ils couvrent, y compris quand ils promettent dans un même temps de représenter d’autres points de vue, seront considérés comme plus crédibles. Ceux qui seront ouverts sur leur pratique de la curation y gagneront un avantage. Comme le note Jeff Jarvis: “la transparence est la nouvelle objectivité”.

En mai 2026, les articles de fond d’un journal atteindront notre communauté de bien des façons. Je ne pense vraiment pas que le journal imprimé aura la même pertinence qu’aujourd’hui, et les gens souriront quand ils verront des captures d’écran des sites actuels. Mais il y aura toujours des informations et des discussions, des gens essayant de couvrir ce qui est essentiel dans le flot d’informations et tentant de trouver la réalité à travers les codes des algorithmes.

En préparant ce post, j’ai beaucoup appris en discutant sur Twitter, Facebook, LinkedIn, The Well, Quora… Dans un souci de transparence, j’ai annoncé ces préparations. Vous trouverez des liens vers les vidéos et articles originaux, ainsi que vers les choses finalement mises de côté pour ce billet, qui peuvent néanmoins être intéressantes pour d’autres explorations.

Article initialement publié sur Mixed realities, et dans le quotidien De Tijd sous le titre “Finding reality while looking through code”. Roland Legrand est News Manager chez Mediafin, qui édite notamment le quotidien économique De Tijd.

Traduction Damien Van Achter et Andréa Fradin.

Illustrations CC FlickR: NightRPStar, cdrummbks, Martenbjork

Référencement, viralité: l’ère des bulles d’internautes

Boumbox — Sat, 07 May 2011 14:20:05 +0000

La plupart des gens ne le savent pas, et ce ne sont certainement pas les consultants en référencement qui vont le leur dire, mais on ne peut pratiquement plus être « le premier résultat sur Google ». C’est fini depuis 2009. « Le référencement est un mensonge ».

Fin 2009, Google a en effet généralisé la personnalisation des résultats : désormais, même si vous n’avez pas de compte Google, que vous n’êtes pas logué (( identifié à votre compte )) , du moment que vous ne faites pas des trucs de parano geek total (ou d’internaute moyen d’il y a cinq ans), comme effacer vos cookies et aller regarder dans les options de Google, vos résultats de recherches seront customisés en fonction de toutes ces choses que Google sait sur vous.

En clair, ça veut dire que quand vous vous étonnez de voir votre site, ou le site de votre pote si bien classé par Google, ça n’est pas forcément le cas pour le reste du monde, et quand quelqu’un vous montre le truc bizarre que Google lui a suggéré en disant « les gens sont bizarres »… c’est sûrement lui qui a quelques trucs bizarres dans son historique web.

Plus embêtant, ça veut aussi dire que si vous êtes du genre voyageur, quand vous allez taper « Égypte » les premiers résultats qui apparaîtront seront probablement des offres de Promovacances ou Last Minute, alors qu’un autre utilisateur obtiendra peut-être la page Wikipedia. Ou bien les derniers résultats Google News. Ou Google Images. Moi quand je tape « Égypte » dans Google, j’ai droit à des gifs porno. Mais c’est juste moi, ça m’arrive tout le temps, ne vous inquiétez pas.

On appelle ça la Filter Bubble : plus le web est personnalisé, plus vous vous retrouvez enfermé, prisonnier de vos propres tendances. Vous ne voyez plus le monde qu’avec des œillères et vous le remarquez d’autant moins qu’elles ont été faites pour vous cacher ce que vous ne voulez pas voir. Même les réseaux sociaux vous renferment : si vous n’interagissez pas beaucoup avec un « ami » sur Facebook, s’il propose du contenu qui ne vous « engage » pas suffisamment, Facebook le fait disparaître de votre newsfeed.

Il y a une différence fondamentale entre les vieux algorithmes de recommandation encore utilisés par la plupart des sites d’e-commerce qui vous disaient simplement “les gens qui ont acheté X ont aussi acheté Y” et les algorithmes d’aujourd’hui qui prennent en compte des dizaines de paramètres personnels pour chaque utilisateur et qui, à la manière de Google Instant, peuvent trouver pour vous ce que vous cherchez avant que vous ayez fini de le taper. « Dans dix ans, on rira du temps où l’on devait taper une recherche dans Google pour trouver ce qu’on voulait », disent les vendeurs de personnalisation. Et dans vingt ans on rira peut être de l’époque où l’on réfléchissait par nous-même avant de rechercher ce que l’on voulait ?

Des titres de tabloïd ?

Les sites de contenu commencent tout juste à se détourner d’une logique de référencement, cette époque où leur capacité à « remonter sur Google » dictait la forme de leur produit. En gros, pour moi, en tant que journaliste, ça voulait dire que je devais donner des titres pas très rigolos à mes articles, où les mots clés devaient absolument apparaître clairement, et qu’il fallait que je les replace encore dans le début de l’article, dans les intertitres, etc… Au risque de se retrouver avec des articles didactiques et sans style : on écrivait comme des robots parce qu’on écrivait pour des robots, les crawlers de Google.

Aujourd’hui, donc, ces mêmes sites passent à une logique de partage : ils cherchent à produire du contenu qui va « devenir viral » sur les médias sociaux. Ça veut dire qu’il faut des titres chocs, peu importe le contenu de l’article, beaucoup vont partager sans le lire. Ça veut aussi dire qu’il faut produire du contenu sur des sujets qui intéressent vraiment les gens : “la petite culotte de Kate Middleton” , “Carla Bruni est-elle enceinte ?”. Il faut devenir démagogue, il faut devenir un tabloïd. C’est le modèle du Huffington Post.

Mais l’avenir n’est pas à la démagogie, pas de ce genre là en tout cas. L’avenir est à la personnalisation, et donc aux micro-niches. Faire appel au plus petit dénominateur commun, c’est quand même manquer une grosse partie de la population. Plus la partie du web perçue se réduira à mesure que nos œillères deviendront de plus en plus perfectionnées, plus la viralité deviendra un objectif difficile à atteindre.

La personnalisation du web, le « behavioural targeting » ou quel que soit le nom que vous donniez à ce phénomène, c’est en train de donner une deuxième jeunesse à la longue traîne, et c’est le prochain cauchemar des sites de contenu. Et de la démocratie, aussi, mais on s’en fout, ça fait longtemps qu’on sait qu’elle ne rapportera plus une thune.

Article initialement publié sur Boumbox.

Photo Flickr CC par Stéfan

Quand Hal joue à Jeopardy

Duncan — Tue, 12 Apr 2011 15:07:47 +0000

En février dernier, les amateurs de La roue de la fortune, du Millionnaire et d’Une famille en or ont tremblé : Watson, le superordinateur conçu par IBM avait vaincu les deux champions américains de Jeopardy!. Le combat de l’homme contre la machine franchissait une nouvelle étape. Mais IBM n’en est pas à son coup d’essai. En 1997, il avait conçu l’ordinateur Deep Blue qui avait battu le champion d’échec Gary Kasparov.

Pourtant, curieusement, battre un champion d’échec est plus facile pour une machine que de battre un champion de Jeopardy!. Les principes de résolutions d’un problème d’échec relève de la recherche opérationnelle « relativement » simple. Les algorithmes utilisés, l’élagage alpha-beta ou l’algorithme Negascout peuvent en effet se résumer en quelques lignes de pseudo-code. Par contre, pour gagner à Jeopardy! la tâche est plus complexe.

Cliquer ici pour voir la vidéo.

Jeopardy! est un jeu de questions/réponses

La réponse est : Qu’est ce que Jeopardy! ?

Jeopardy! est un jeu très populaire aux Etats-Unis qui a eu son heure de gloire en France, avec l’inénarrable Philippe Risoli à la présentation. L’originalité de Jeopardy! repose sur le fait que la réponse est la question :

Par exemple, le présentateur propose :

C’est l’homme le plus classe du monde

Et le candidat doit trouver :

Qui est Georges Abitbol ?

Pour être à égalité avec les humains, il a été décidé que Watson ne pourrait se servir que des connaissances stockées dans sa base de données et ne pouvait donc effectuer de recherches sur internet.

Les algorithmes utilisés pour résoudre ce type de problème relèvent donc d’une autre branche du domaine de l’intelligence artificielle que la résolution du jeu d’échec : le natural language processing, qui consiste à analyser correctement le langage humain. L’un des items les plus connus de cette discipline est le fameux test de Turing.

Pour autant, malgré le côté sexy et impressionnant, est-ce-que ce challenge d’IBM est une réelle avancée dans le domaine des intelligences artificielles ? Deux aspects sont à considérer. Pour gagner au Jeopardy!, il faut bien sûr trouver la bonne réponse mais aussi pouvoir répondre avant les autres candidats. Ces deux aspects renvoient à deux questions différentes mais imbriquées.

Quels sont les algorithmes utilisés ?
Comment ces algorithmes ont été implémentés ?

C’est l’algorithme utilisé par Watson

La réponse est : Qu’est ce que DeepQA ?

D’une manière très très grossière, répondre à une question revient à piocher des mots-clés dans ladite question, puis les mettre en relation par le biais de différents algorithmes pour extraire de la base de données à disposition les informations pertinentes.

Pour parvenir à produire un algorithme convenable, les équipes d’IBM ne sont pas parties de zéro et ont bien évidemment bénéficié de l’état de l’art. Deux outils ont tout d’abord été appliqués au challenge Jeopardy! :

- PIQUANT, une première solution de natural language processing développée quelque années auparavant par IBM

- OpenEphyra, une autre solution développée par l’Université Carnegie Mellon, en partenariat avec IBM

Toutefois, les performances de ces algorithmes ne satisfaisaient pas aux critères pour gagner. IBM a donc développé un nouvel algorithme : DeepQA

DeepQA est un pipeline modulaire

La réponse est : Quelle est l’architecture de DeepQA ?

A l’image de l’architecture de PIQUANT ou d’OpenEphyra, la clé du succès pour aboutir au résultat escompté est d’avoir conçu DeepQA comme un pipeline complet et modulaire pour y intégrer différents composants. Pour parvenir à cette architecture souple, le framework Appache UIMA qui intègre ces composants a été utilisé. Il avait été développé quelques années plus tôt par la même équipe.

Le processus de réponse de DeepQA peut alors se décomposer en divers blocs. A chaque étape, des dizaines d’algorithmes différents sont mobilisés. Certains provenant directement de la littérature, certains de PIQUANT ou OpenEphyra, certains ont été améliorés, d’autres ont été imaginés par l’équipe de IBM.

Architecture de DeepQA

En suivant le graphique ci-dessus, le processus de réponse peut être décomposer de la sorte :

Analyse de la question (Question analysis) : le système effectue une analyse syntaxique en extrayant des mots-clés pour déterminer comment la question sera traitée
Décomposition de la requête (Query decomposition) : la question est décomposée en sous-problèmes traités séparément
Génération d’hypothèses (Hypothetis generation) : le système propose plusieurs réponses possibles en cherchant dans sa base de donnée
Filtrage grossier (Soft filtering) : Afin de gérer au mieux les ressources de calcul, un premier tri est effectué pour éliminer les réponses les moins pertinentes
Évaluation des hypothèses et des preuves (Hypothesis and evidence scoring) : les réponses candidates restantes sont analysées plus en détail
Synthèse finale et classification (Synthesis and Final merging and ranking) : parmi toutes les réponses possibles, le système calcule la confiance accordée à chaque réponse, et classe celles-ci pour obtenir la plus probable
Réponse et confiance (Answer and confidence) : la réponse finale est donnée avec un niveau de confiance que le système a calculé

Tout la difficulté a été de gérer ce patchwork d’algorithmes. C’est pourquoi un gros travail a été accompli pour doter le système d’une métrique mesurant la pertinence des résultats apportées par les différentes méthodes.

Le code a été porté sur un supercalculateur

La réponse est : Comment la rapidité de Watson a été améliorée ?

La première mouture du code permettait de répondre à une question en 2 heures. Ce qui est bien insuffisant pour vaincre un compétiteur humain. Pour pouvoir répondre en moins de 3 secondes, le code a été porté sur un cluster (IBM bien sûr), regroupement de plusieurs ordinateurs appelés nœuds, travaillant de concert à la résolution du problème.

Le cluster mis à disposition est une belle bête de compétition : 90 noeuds Power 750 contenant chacun 4 processeurs octo-coeurs de 3.5 GHz ; le tout comportant 2,880 coeurs et 16 TeraOctet de mémoire RAM pour une puissance théorique de 80 teraflops (soit 80×10¹²ou 80 millions de millions d’opérations par seconde).

Lorsque l’on regarde le top500 des ordinateurs les plus puissants au monde, cela le classerait aux alentours de la 110ème place. Cette puissance était d’ailleurs trop importante au regard des besoins. C’est ce qu’affirme Edward Epstein, chef du département « information non structurée » à IBM research, dont dépend le projet Watson. Durant le jeu, Watson n’a utilisé au plus que 30% des processeurs disponibles.

Porter un code sur un supercalculateur et en optimiser les performances et une tâche désormais classique dans la recherche et l’industrie. Cette étape là ne présente pas de verrous technologiques mais demande un travail important et également beaucoup d’astuces.

Afin d’en optimiser les performances :

les données ont été mise à disposition en RAM et non sur les disques dures pour accélérer les temps d’accès
le code comportant 750,000 lignes a été parallélisé
le processus d’allocation de la mémoire, avec une architecture NUMA, a été optimisé

NaN

La réponse est : Est ce que c’est nouveau ?

Au vu de ce qui précède, le challenge Jeopardy! n’apporte pas d’avancées fondamentales dans le domaine théorique du Natural Language Processing. IBM n’a effectivement pas apporté de solution miracle au problème ou d’algorithmes révolutionnaires mais c’est appuyé sur les nombreux travaux qui existaient déjà (y compris ceux de l’entreprise elle-même).

Pour autant, il apporte bien des nouveautés. Produire une machine capable de gagner à Jeopardy! n’avait jamais été réalisé. L’intégration dans un pipeline n’avait jamais atteint ce degré d’efficacité. De plus, ce pipeline et la méthode proposée peuvent être réutilisés pour aborder d’autres domaines moins futiles.

Les limites entre ingénierie et science sont floues mais IBM apporte bien sa contribution au domaine. En fait, l’apport d’IBM est conforme au fonctionnement classique de la recherche scientifique.

C’est avant tout un très beau projet de communication

La réponse est : Que représente le le challenge Jeopardy! pour IBM ?

Sous mon clavier le terme de communication n’est pas une critique. Le travail fourni est réel et conséquent et sur bien des points du domaine, il a permis d’apporter des améliorations incrémentales indéniables. Le challenge Jeopardy! a été conçu et conduit comme un projet industriel de recherche dont l’objectif premier est de faire parler de l’entreprise. La résolution d’une véritable problématique scientifique vient en second plan.

C’est d’ailleurs le but avoué[pdf] de David Ferruci, le chef du projet Watson :

Roughly three years ago,IBM Research was looking for a major research challenge to rival the scientific and popular interest of Deep Blue, the computer chess-playing champion [..], that also would have clear relevance to IBM business interests.

IBM construit en effet sa stratégie de communication sur une image d’innovation radicale. Cette image permet de conquérir des marchés en faisant parler de l’entreprise. IBM se place ainsi comme un acteur majeur du Natural Language Processing et promet dans un second temps des applications concrètes, comme l’aide au diagnostic médical. Durant ces trois ans, IBM s’est aussi rapproché des acteurs scientifiques du domaines en montant par exemple un workshop sur le sujet en 2008, ce qui lui a permis de rassembler autours de lui la communauté de chercheurs du domaine.

Sur le long terme, une telle stratégie permet d’attirer des talents et des collaborations avec de brillants éléments qui rêvent de travailler avec IBM. En interne, cela est source de satisfaction et de cohésion pour tous les éléments du groupe y compris ceux qui travaillent très loin de ces sujets. Travailler dans une entreprise ayant une bonne image est valorisant. C’est également un élément de motivation et de promotion interne. Il permet de faire miroiter à des ingénieurs, qui ont une tâche routinière au quotidien, l’opportunité de pouvoir un jour rejoindre ce type de projets au sein du groupe.

Dans ce cas là, ne pourrait-on pas dire que Watson est un projet qui permet à IBM de gagner sur de nombreux tableaux ? Tout comme à Jeopardy!, la réponse est dans la question.

Pour aller plus loin :

Building Watson: An Overview of the DeepQA Project [pdf], AI Magazine Vol 31, N°3, p. 59-79, l’article principal utilisé pour ce billet. Rédigé par l’équipe en charge de Watson, il explique leur démarche et le fonctionnement détaillé de deepQA.

La page d’accueil d’IBM research sur ses activités de natural language processing

Le blog d’IBM research

La page Quora sur le Watson Jeopardy Challenge

La page wikipedia (eng) sur Watson

Watson Takes a Turn on Wall Street, résumé de la rencontre entre Edwar Epstein et Michael Feldman, éditeur de HPCwire.

Elémentaire, mon cher Watson , le billet de de Choux Romanesco

>> Photo Flickr CC-BY-NC-SA par jntolva

>> Article initialement publié sur Nanostelia

Fermes de contenus: Google aurait donc sifflé la fin de la récré?

Benoit Darcy — Tue, 01 Mar 2011 10:31:14 +0000

Depuis quelques mois, une tendance s’élève sur le web : celle de remettre en cause la pertinence des résultats fournis par Google. C’est un fait, dans un contexte où le moteur de recherche compte pour 60 à 90% du trafic entrant pour les sites de contenu, un écosystème entier s’est développé.

D’un côté des sociétés de services en référencement, délivrant des prestations de SEO (search engine optimization) et de SEM (search engine marketing) à leurs clients. La plupart sont honnêtes, certaines ont des méthodes moins orthodoxes. Google encadre notamment les pratiques de référencement payant par le biais d’un programme de certification à sa plateforme AdWords (SEM). Elles conseillent toutes sortes de sites (médias, e-commerce notamment), dans leur approche du référencement dans le but de gagner des positions sur des mots-clés stratégique pour le client. Elles sont aussi intermédiaires dans l’investissement de rondelettes sommes visant à « acheter du trafic » sur des requêtes ciblées. Le secteur du voyage en est un exemple frappant. Les voyagistes en ligne investissent massivement pour transformer en client un prospect qui aura recherché “voyage italie venise pas cher“. Un business florissant qui fait la fortune de Google et qui vous aura sûrement permis de passer de sympathiques vacances à prix modéré. Fair enough.

De l’autre côté des “fermes de contenus“, c’est-à-dire des sociétés qui proposent, par le biais de différents sites à vocation éditoriale (souvent segmentés en magazines thématiques), la production de contenus de manière industrialisée, à la demande. L’objectif ? Réunir une masse de contenus importante en volume et répondant à des requêtes Google populaires. Il s’agit de prendre les premières places sur un nombre élevé de requêtes, en récolter ainsi l’audience générée, et la monétiser.

Un modèle américain qui s’exporte en France

La production éditoriale est en général confiée à des contributeurs externes rémunérés une bouchée de pain : journalistes débutants, retraités, célibataires en mal d’occupation, etc. Tous gagnent au mieux quelques centaines d’euros pour arrondir leurs fins de mois. Quelques-uns arrivent à dégager un revenu significatif et se retrouvent porte-drapeau d’un nouveau modèle permettant de s’enrichir en écrivant quelques articles l’après-midi après le thé… La réalité est assez différente.

Certaines sociétés emploient également des permanents dont le but est de produire beaucoup. Énormément même. Un véritable travail de stakhanoviste qui commence même à trouver quelques réticences de la part d’employés qui témoignent une fois partis. C’est le cas de Marshall Kirkpatrick, employé par AOL, un acteur historique du web encore moribond il y a quelques mois qui à coups d’acquisitions (Engadget, TechCrunch [en], et plus récemment le Huffington Post), tente de se repositionner sur le contenu grâce à une stratégie très proche de celle des fermes de contenus.

C’est justement aux États-Unis que la tendance est la plus lourde. La concurrence est déjà rude sur le secteur, des sociétés comme Demand Media, Suite 101, Associated Content (Yahoo), et autres se disputent l’énorme gâteau offert par tout ce trafic venant de Google. L’offre de Demand Media s’avère particulièrement révélatrice du système. Créée par un ancien de MySpace, cette société exploite des sites de contenus thématiques : Trails [en] pour les fans de loisirs outdoor, TypeF [en] pour les passionnés de mode, Cracked [en] pour les peoples et l’univers du cinéma et des séries TV, il y en a presque pour tous les goûts ! Le tout est savamment packagé [en] dans des offres commerciales permettant de tirer parti de l’audience et de son profil de la manière la plus juteuse qui soit.

En France, le rapprochement récent entre Wikio et Overblog et le lancement de Wikio Expert permet désormais de produire du contenu à la demande et à destination de sites comme les-experts.com (l’un des équivalents français de eHow.com, le fer de lance de Demand Media), mais aussi, fruit de la synergie avec Overblog/TF1 : Plurielles, Automoto, ou Excessif. C’est le modèle qui me semble le plus proche en France de la tendance amorcée aux États Unis, plus encore que les sites du groupe CommentçaMarche maintenant rapprochés de Benchmark Group. Pour compléter ce tableau français, parlons aussi du groupe Melty, spécialisé dans le contenu à destination des « jeunes » et qui a développé une technologie permettant de répondre au mieux aux attentes éditoriales. L’idée est de détecter les sujets à buzz et de produire du contenu correspondant, à destination d’un public adolescent. Récemment, Pierre Chappaz, patron du groupe Wikio a même pris une participation dans Melty…

Mode opératoire

En y regardant de plus près, le mécanisme de fonctionnement de ces magazines est identique : il s’agit de détecter les attentes supposées des lecteurs (c’est-à-dire les sujets les plus recherchés et susceptibles de générer du trafic) pour écrire, à la demande, des articles y répondant. Le mode opératoire chez Demand Media est décrit dans cet article des Échos :

Pour déterminer quels sujets doivent être traités, l’algorithme de Demand Media prend en compte les termes les plus recherchés sur Internet, les mots clés les plus demandés par les publicitaires, et l’existence ou non d’articles relatifs à ce sujet sur le Web. Il met en balance ce que veulent savoir les internautes et combien les annonceurs sont prêts à payer pour apparaître à côté de ces sujets.

Une fois la demande identifiée par l’algorithme, les sujets à traiter sont mis en ligne sur Demand Studio, la plate-forme par laquelle passent les 10.000 rédacteurs et vidéastes freelance qui fournissent à la société articles et vidéos. Il suffit à ces derniers de s’inscrire sur le site internet du Studio et d’attendre les commandes de sujets qui s’y affichent – parfois 62.000 suggestions en un seul jour. Payés à l’article (10 dollars) ou à la vidéo (20 dollars), ils peuvent réserver 10 articles ou 40 vidéos à la fois. Au vu du tarif, bien sûr, c’est la quantité et pas la qualité qui prime.

Voilà qui fait peur. Et c’est précisément là où Google hausse le ton. La valeur de son moteur de recherche ne tient que par la pertinence des pages de résultat. Si le monde entier s’est mis à utiliser Google plutôt qu’un autre vers 2002 ou 2003, c’est d’abord parce que la qualité des résultats permettait de trouver instantanément une information recherchée mais surtout parce que le résultat une fois cliqué satisfaisait l’utilisateur. Pour certaines requêtes, ceci semble arriver de moins en moins et selon Google, les fermes de contenus en sont responsables, celles-ci spammant l’index du moteur de recherche à longueur de journée avec des dizaines voire des centaines d’articles divers et variés. La plupart médiocres.

Comment décorer un pot à fleur pour moins de 3$ ?

C’est bien tout l’objet du débat : la médiocrité des contenus. Certes, il convient de ne pas mettre tout le monde dans le même panier, mais jugez plutôt. Que dire de ce tutoriel [en] pour décorer un pot de fleurs pour moins de 3 dollars, ou de ces conseils [en] pour venir à bout de la migraine ? Que penser aussi de cet article intitulé Comment réparer un chauffage ? vous conseillant d’appeler finalement un plombier, ou de ces astuces pour apprendre à « bien faire des abdos » où l’on apprend que « lorsque l’on force durant un exercice, en général, on compense ou déplace le travail des abdominaux, sur le dos ou les muscles du cou. Cela va créer des tensions ». Ahem.

Autant d’articles qui ne répondent pas à leur promesse éditoriale, et autant de raisons que peut trouver un utilisateur de Google pour remettre en cause la qualité de son moteur de recherche. Pour le géant du web, c’en est trop.

Traitement de faveur

Google a donc tranché et mis à jour son algorithme de manière drastique. Une update sur mesure visant à limiter le spam. Google est pragmatique : en envoyant moins de trafic aux fermes de contenus, il rend leurs efforts financièrement inintéressants, et résout le problème. Le changement d’algorithme est détaillé dans un billet officiel [en] et s’accompagne d’une extension Chrome [en] permettant aux utilisateurs de « signaler » un contenu médiocre pour ne plus le voir apparaitre dans les résultats de recherche. Attention, ces changements concernent la version américaine du moteur. Rien ne confirme ou n’infirme pour l’instant que l’opération va être dupliquée en France.

En quelques jours, le résultat est sans appel, environ 12% des résultats de recherche sont impactés aux États-Unis [en]. Jamais Google n’avait opéré un changement aussi important. Sistrix, une société spécialisé dans l’analyse de mot-clés a mesuré l’impact du changement et publie une liste des sites les plus impactés par la modification.

Le top 25 des perdants selon Sistrix

On y retrouve Suite101, Associated Content, mais aussi plusieurs marques éditoriales de Demand Media comme Trails ou Answerbag. Le service Quantcast permet de confirmer la tendance, en particulier pour Suite101 par exemple.

Un plaidoyer pour l’esprit critique

Faut-il se réjouir ? Oui et non. Oui parce qu’à l’heure où certains intellectuels du web bâtissent de grandes théories sur la curation de contenus, il est plutôt intéressant de constater que la notion de qualité des contenus est l’objet de toutes les attentions. Non car c’est une fois encore un acteur qui décide, l’hégémonique Google à qui on pourrait ici faire porter les traits d’un acteur philanthropique, ce qui serait une erreur à mon sens. Google agit ainsi dans le seul but de sauvegarder son business.

Plus que jamais, c’est l’esprit critique des internautes qu’il faut stimuler. Dans le web d’avant 2000, on voyait fleurir les boutons « ce site est mieux vu les yeux ouverts » parodiant ainsi les indications invitant l’internaute à naviguer plutôt sur Internet Explorer ou plutôt sur Netscape en fonction du codage du site… Je trouve que cette phrase a toujours cours : il est important, sur le web, de garder les yeux bien ouverts et de conserver son esprit critique. Une richesse humaine que Google n’a pas encore modélisé complétement.

Profitons-en…

–
billet initialement publié sur Zdar.net (zdar sur Twitter)

photos cc Flickr par Paul Keller et Joost J. Baker.

À défaut de réduire la collecte des données, comment les altérer?

Hubert Guillaud — Sat, 05 Feb 2011 10:30:26 +0000

Toutes les données sont devenues personnelles, écrivions-nous il n’y a pas si longtemps, montrant combien anonymiser les données devenait difficile, à l’heure où les champs de données eux-mêmes génèrent de l’identifiabilité. Paul Ohm (blog, [en]), dans un article important sur l’étonnant échec de l’anonymisation [en] annonçait déjà, qu’il n’y aurait pas de solutions miracles : “les mesures qui sont prises augmenteront la confidentialité ou réduiront l’utilité des données, mais il n’y aura aucun moyen de garantir à la fois une utilité maximale des données et une confidentialité maximale.”

Dans la Technology Review [en] on apprend que des chercheurs du Laboratoire de protection des renseignements médicaux [en] de l’université Vanderbilt ont créé un algorithme pour altérer des données génétiques ou médicales afin de les anonymiser tout en permettant aux chercheurs de les utiliser.

Les enregistrements médicaux comportent de nombreuses informations sur les patients, allant de leur âge à leur historique médical. Quand ces données sont utilisées par des chercheurs, elles sont “anonymisées”, c’est-à-dire qu’on enlève les identifiants directs comme le nom ou l’adresse, mais pas bien sûr les diagnostics et leurs historiques. Le problème est qu’il n’est pas difficile d’utiliser ces historiques pour ré-identifier une personne. Dans l’article publié dans Proceedings of the National Academy of Sciences par Bradley Malin [en] et ses collègues, ceux-ci estiment qu’ils sont capables d’identifier 96 % des patients en se basant seulement sur leurs historiques médicaux.

Pour résoudre ce problème, l’équipe du Laboratoire de protection des renseignements médicaux a conçu un algorithme capable de chercher dans une base de données les combinaisons de diagnostic qui distinguent un patient d’un autre et de les substituer par d’autres. Ainsi, le code qui distingue une ostéoporose post-ménopause pourrait devenir une simple ostéoporose… L’algorithme injecte des informations altérées afin de rendre les enregistrements des patients non identifiables. L’algorithme serait également capable d’ajuster le niveau d’anonymisation aux besoins des chercheurs, selon leurs recherches.

Quelques limites

Cette nouvelle approche comporte néanmoins quelques limites estiment les chercheurs : le système fonctionne mieux quand les chercheurs ont un but précis, afin que les bonnes données, qu’ils cherchent à exploiter, soient préservées par le système. Ce qui signifie qu’une même extraction ne pourrait pas servir à plusieurs recherches. Inversement, accéder à plusieurs extractions d’un même ensemble devrait certainement permettre, en les croisant, de rétablir les données altérées…

Si l’avenir de la science dépend de la façon de tirer parti d’informations existantes dans des silos de données, l’anonymisation de l’information demeure une question primordiale. Comme souvent, les chercheurs semblent pragmatiques : il leur faut maximiser le bénéfice scientifique tout en contrôlant les risques quant à la vie privée.

L’intérêt en tout cas de l’algorithme mis au point par les chercheurs, est de permettre d’aller plus loin qu’une fausse anonymisation des données et de montrer que la science prend le problème au sérieux. Reste que plutôt que d’augmenter la confidentialité des données, on devine que c’est l’autre option sur laquelle tout le monde va travailler : trouver les moyens d’en réduire l’utilité à minima. C’est la piste que tracent ces premières recherches… Il est possible que ce ne soient pas les dernières.

—

Article initialement publié sur InternetActu en avril 2010

Image CC Flickr sombraala

Noomiz: un myspace français ?

Admin — Sun, 23 May 2010 21:42:23 +0000

Calculer et prendre en compte la façon dont se propage une chanson sur les réseaux sociaux est une des clefs incontournables pour vendre de la musique, surtout sur Internet. C’est ce que ce propose Noomiz, qui table sur un nouvel algorithme pour proposer aux artistes une plateforme de blogging efficace et des solutions de marketing digital.

Ouvrir un myspace, c’est bien. Mais sans parler du design hideux de la plateforme, les possibilités et fonctionnalités du site en termes de gestion de communauté et de viralité ne sont finalement issues que de son effet de marché (ie. sa large utilisation). Myspace ayant clairement raté le tournant du web social, les artistes ont tout intérêt à envisager d’autres solutions, incluant des fonctionnalités plus riches en terme de suivi et de gestion.

Présentation de cette initiative rafraîchissante.

Une solution de blogging

Sans se hisser au niveau de l’excellent Bandcamp, Noomiz propose une interface de blogging plutôt originale et intéressante, où les items (dates de concerts, news) sont organisés sur la page d’accueil par simple “glisser/ déposer” dans la page. Cependant, le tout est codé en flash, ce qui pose question à l’heure de l’avènement des iPhones et autres tablettes.

L’autre force du service c’est de prévoir (pour l’instant du moins) une sélection à l’entrée, ce qui a au moins le mérite de ne diffuser sur la plateforme que des profils et des groupes de bonne qualité et éviter les spams ou les profils non musicaux qui pullulent sur Myspace.

Les membres peuvent également partager ou exporter de widgets personnalisables (comme des players audio ou vidéo) et gratuits.

Des débuts prometteurs

Même si les chiffres officiels sont inconnus, on parle d’un millier de visiteurs uniques par jour alors que le site est encore en beta privée. Cela s’ajoute à l’autre bon millier de profils et de blogs d’artistes de bonne qualité créés.

Rencontre avec des professionnels

L’autre particularité de Noomiz est que la plateforme sert d’interface entre des professionnels (Valéry Zeitoun, Marc Thonon, Julien Creuzard…) et artistes. Un terrain glissant ?

On se souvient évidemment de l’initiative piteuse d’Universal, My Music Pro. Ce service de coaching par téléphone proposait aux artistes d’y aller de leur poche pour s’entretenir, par téléphone, avec des “experts” du monde de la musique. Ingés-son, directeurs artistique ou managers vendaient leurs services à qui voulait bien dépenser quelques euros par minute d’entretien.

On est ici bien loin de ce modèle clientéliste et faussement 2.0, puisque les rencontres entre professionnels et musiciens hébergés sur le plateforme Noomiz sont décidées par le site, sans logique financière ou marchande. Surtout, l’artiste choisi ne débourse pas un sou. Le service ne refait pas l’erreur des labels participatifs en laissant le travail de sélection musicale entre les mains de professionnels… aidés par un algorithme.

L’algorithme

C’est sans doute l’innovation clé de la plateforme. Il prend en compte quatre facteurs et attribue en conséquence des “points” aux artistes :

> Audience (Volume / Comportement)
> Réseau / Amis
> Partage / Widgets
> Activité scénique

Si on jette une oreille attentive au “top” qui découle de cet algo, on s’aperçoit qu’il marche plutôt bien. Même si tout n’est pas d’une qualité exceptionnelle, on a droit a de belles pépites (Mondrian ,Captain Kid, Cercueil, FuryKane, Kitsch Device, par exemple). Ce qui est intéressant, c’est bel et bien le volet “partage / widget” de l’algorithme, qui permet de prendre en compte un aspect devenu crucial dans le marketing digital: la progression et la propagation de l’artiste sur les réseaux sociaux et sur les widgets “embeddables”.

Des conseils particuliers

Juste pour le plaisir, une vidéo qui a le mérite de prendre le parti d’une communication décalée.

Cliquer ici pour voir la vidéo.

L’interrogation demeure néanmoins quant au modèle économique de Noomiz, notamment à moyen-terme si les coûts de gestion augmentent avec la popularité du service. Les perspectives sont pourtant là : on peut par exemple envisager une monétisation de l’algorithme si ce dernier fait ses preuves, ou une prise de bénéfice sur les profits générés par un artiste estampillé “Noomiz”.

Sans être pleinement révolutionnaire mais loin des fumisteries faussement digitales des majors et des labels participatifs rouillés, Noomiz est probablement une des solutions – gratuite – les plus crédibles aujourd’hui pour un artiste français qui veut utiliser le web à bon escient.

__
Merci à Valéry pour ses précieuses indications. Il est le manager de Clarys, un groupe qu’il a inscrit sur Noomiz. Son test et son verdict à cette adresse.

Crédit Photo Flickr : ivanzuber.

[Màj 25/05 : les services des professionnels sont facturés à la minute par My Music Pro, et non par heure]