La Liberté – Ils minent les chiffres et récoltent l’or

Texte intégral de l’article de La Liberté, paru le 4 juillet 2017.
https://www.laliberte.ch/news/regions/canton/ils-minent-les-chiffres-et-recoltent-l-or-398411

Photo ©Vincent Murith

 

Les statisticiens gruériens Brice Repond et Xavier Bays viennent de gagner la Data Mining Cup, à Berlin

STÉPHANE SANCHEZ

Gruyère »   Ils sont allés à la mine. Et ils sont revenus avec un prix prestigieux. Avec trois collègues de l’Ecole polytechnique de Lausanne, le Bullois Brice Repond et Xavier Bays, d’Epagny, viennent de remporter la Data Mining Cup 2017, à Berlin. Une compétition qui réunissait 201 équipes issues de 150 universités et hautes écoles techniques, venues de 48 pays. L’équipe des deux ingénieurs en mathématiques et statistiques, qui viennent d’empocher leur master, a notamment battu celle d’Oxford et celle de l’Iowa (USA), pourtant spécialiste.

Le data mining? C’est l’art d’extraire des informations ou de faire des prédictions à partir de quantités massives de données. En l’occurrence, le concours reposait sur 2 millions d’observations tirées d’un site de vente de médicaments en ligne. Les équipes connaissaient les produits consultés durant quatre mois. Elles connaissaient aussi les achats effectués, mais seulement durant les trois premiers mois. Mission: élaborer un modèle pour prédire les achats du quatrième mois. Soit environ 500 000 transactions, connues du seul organisateur.

Deux pièges évités

«On a trouvé le modèle qui présentait l’erreur la plus faible», explique Brice Repond. «Ce qui a fait la différence, c’est la manière dont nous avons analysé les données et le recul que nous avons pris. Nous avons réalisé que les produits achetés étaient régulièrement groupés, ce qui faisait exploser leurs probabilités d’achat. Seules quatre équipes ont repéré cet aspect.»

Xavier Bays rebondit: «Les données des vingt-cinq premiers jours nous semblaient différentes et incomplètes. Nous avons pris le parti peu académique de les ignorer. Beaucoup les ont conservées, ce qui a biaisé leurs prédictions.»

L’équipe, qui comprenait aussi la Roumaine Lavinia ­Ghita, l’Iranien Melvin Kianmanesh Rad et le Vaudois Loris Michel, avait six semaines pour résoudre le problème. «C’était intense, addictif même: nous avons parfois planché quinze heures d’affilée. Chacun apportait ses solutions et ses intuitions, que les autres challengeaient.» Une stratégie mise sur pied avec l’expérience, certains membres (dont Brice Repond) ayant déjà participé à des éditions précédentes du concours, pour terminer 4e il y a deux ans et 10e l’an passé.

Le prix est honorifique: 2000 francs. «Mais cela crée des contacts et ça peut servir de tremplin», expliquent les deux Gruériens de 25 ans, qui ont déjà un projet. «En août, nous allons créer ensemble une entreprise de data mining, Statistical Design and Innovation, à Epagny.» Plusieurs clients sont déjà sur les rangs: «Nous allons travailler sur la prédiction de la valeur de revente des voitures endommagées. Et aussi sur l’optimisation du processus d’extraction d’or», dévoilent les deux anciens élèves du Collège du Sud.

Des outils méconnus

«La plupart des entreprises font de la statistique, mais avec des outils qui datent des années 1950», poursuit Xavier Bays. «L’explosion de la puissance de calcul des ordinateurs, le développement des algorithmes (suites d’opérations) et l’apparition des réseaux neuronaux et du machine learning (l’apprentissage par la machine elle-même) ont tout changé.»

Les deux ingénieurs ont eu l’occasion de faire des stages à Paris, Brice Repond pour plancher sur la valeur d’épave des voitures, Xavier Bays pour explorer le potentiel des données relatives aux ressources humaines d’une entreprise. «En France, les sociétés sont friandes de ces travaux. En Suisse, c’est un domaine que seules les grandes entreprises con­naissent. Les plus petites disposent de données, mais ne savent pas qu’elles peuvent les valoriser, ni comment.»