Rakuten Rewards passe à l’entrepôt de données cloud

Pour réduire les coûts matériels et faciliter la gestion de ses actifs, la filiale américaine de Rakuten, gant japonais du commerce électronique, a libéré Hadoop pour passer à une solution Snowflake.

Basée à San Mateo, en Californie, Rakuten Rewards est une entreprise de bonus de fidélité en ligne. Elle gagne de l’argent grâce à des liens marketing d’affiliation sur le Web. En retour, les membres collectent des points et reçoivent des récompenses en dollars chaque fois qu’ils effectuent un achat auprès d’un vendeur partenaire. Il est clair que cette circulation permet de collecter beaucoup de données sur les utilisateurs: des centaines de téraoctets en stockage actif et plus en stockage passif. En 2018, l’entreprise souhaitait qu’un plus grand nombre d’utilisateurs aient accès à ces informations sans utiliser Python ou Scala et en réduisant les coûts d’investissement. Inévitablement, elle a commencé à s’intéresser au cloud.

Anciennement connue sous le nom d’Ebates, la société a été acquise en 2014 par le géant japonais du commerce électronique Rakuten. Depuis lors, il a connu une croissance rapide, l’obligeant à moderniser sa technologie et à se concentrer davantage sur les données pour attirer et fidéliser les clients. Tout d’abord, il a modernisé son architecture. Rakuten Rewards a commencé à déplacer son Big Data SQL, principalement sur site, vers Hadoop, également sur site, au cours des trois dernières années avant d’opter pour un entrepôt de données cloud exploité par Snowflake.

Mise à l’échelle des serveurs SQL affectés

“Les serveurs SQL ne permettent pas une évolutivité satisfaisante, nous avons donc installé Hadoop sur site avec Cloudera, en utilisant Spark et Python pour exécuter ETL et améliorer un peu les performances”, a déclaré Mark Stange -Tregear, vice-président de l’analyse. chez Rakuten Rewards. “La gestion d’une structure Hadoop n’est pas anodine, elle est même assez complexe. Donc, lorsque les entrepôts de données cloud sont arrivés sur le marché, nous avons décidé de déplacer nos données et de construire cet entrepôt d’entreprise centralisé et plus encore avec des données”, a-t-il ajouté. à.

Mark Litwintschik, ancien développeur et conseiller en big data chez Bloomberg, a déclaré dans son article de blog: “La fin de Hadoop? Le monde a commencé à s’éloigner de la plate-forme après les jours heureux du début des années 2010. Aujourd’hui, les infrastructures cloud , qui licencient des équipes d’ingénierie des données, de plus en plus populaires auprès des entreprises qui cherchent à réduire les coûts d’inactivité sur site et à rationaliser généralement leurs activités d’analyse.

Desserrer Hadoop

À la mi-2018, Mark Stange-Tregear et l’ingénieur clé des données Joji John ont donc décidé d’initier une migration de données importante de leurs systèmes centraux vers l’entrepôt de données dans le cloud Snowflake, en plus de l’infrastructure de cloud public (AWS) d’Amazon Web Services. La couche de rapport et certains des ensembles de données les plus utilisés de l’entreprise ont été déplacés en premier. Suivi de l’ETL et des tâches de production de données réelles. Toutes ces opérations ont été achevées fin 2019, à l’exception de la migration de certaines informations plus sensibles liées aux ressources humaines et aux cartes de crédit. Avec cette migration vers le cloud, Rakuten a amélioré l’évolutivité. L’entreprise est mieux à même de s’adapter aux pics et aux diminutions d’activités qui varient selon les périodes de shopping.

Snowflake permet également à Rakuten Rewards de segmenter son lac de données en une gamme d’entrepôts de différentes formes et tailles pour répondre aux besoins des différentes équipes, et même d’en créer de nouveaux pour des projets ad hoc, sans que les équipes rivalisent lorsqu’elles ont de la mémoire ou utilisez la capacité des processeurs sur le même cluster. Auparavant, “une grande requête SQL d’un utilisateur pouvait bloquer ou supprimer efficacement les demandes d’autres utilisateurs, ou interrompre une partie du traitement ETL”, a déclaré Stange-Tregear. «Au fur et à mesure que la société grandissait et que nos données augmentaient de façon exponentielle, l’interrogation prenait de plus en plus de temps. Pour éviter ces problèmes, nous avons essayé de répliquer les données sur différentes machines, mais nous avons introduit d’autres problèmes car nous avons maintenant la réplication et la synchronisation des mégadonnées. “

Accès aux données pour tous les analystes

Maintenant, Rakuten peut traiter plus facilement les segments de clientèle et revenir à l’historique complet du processus d’achat pour un utilisateur donné chaque jour. Le système peut ensuite remodeler leurs intérêts pour améliorer le ciblage marketing ou les recommandations de modèles. Il peut donc se concentrer sur l’offre du client lorsqu’il envisage d’acheter une nouvelle paire de chaussures, au lieu de lui laisser le temps d’y réfléchir. “Nous pouvons répéter le processus plusieurs fois par jour pour des dizaines de millions de comptes”, a encore déclaré Stange-Tregear. “Ensuite, vous devez collecter toutes ces données pour chaque utilisateur dans un modèle JSON afin de pouvoir réévaluer le profil de chaque membre plusieurs fois par jour et interroger ce profil avec quelques règles SQL.”

Ces méthodes rendent l’analyse et les données détaillées accessibles à tous, aussi bien aux data scientists possédant des compétences Python ou Spark qu’à tout analyste familiarisé avec SQL. «Il est plus facile de trouver des personnes codant en SQL qu’en Scala, Python et Spark», admet Stange-Tregear. “De nos jours, mon équipe d’analystes – certains avec plus de compétences en Python qu’en Scala – peut plus facilement créer des pipelines de données pour le reporting, l’analyse et même des fonctionnalités techniques, car ils viennent dans un package SQL agréable.” Autres tâches de Big Data, telles que le traitement des paiements, prennent désormais beaucoup moins de temps grâce à de meilleures performances du cloud. “Le traitement de centaines de millions de dollars représente beaucoup de travail”, a déclaré Stange-Tregear. “Il fallait auparavant des semaines pour traiter ces cycles trimestriels. Aujourd’hui, nous pouvons recalibrer ces données en quelques jours et En traitement. “

La vie après Hadoop

Tous ces efforts s’accompagnent également d’une certaine rentabilité. Mark Stange-Tregear, Joji John et le CFO reçoivent désormais des tableaux quotidiens des coûts quotidiens de traitement des données ventilés par fonction métier. “Nous pouvons voir le coût réel de chaque fonctionnalité et la rendre cohérente dans le temps”, explique Stange-Tregear. «Nous pouvons facilement suivre nos dépenses, voir où nous pouvons optimiser nos coûts et connaître immédiatement les coûts des nouvelles charges de travail. C’était très difficile avec Hadoop ». Comme de nombreuses entreprises avant elle, Rakuten Rewards a tiré le meilleur parti de son investissement Hadoop. Mais lorsque l’entreprise a été en mesure de trouver une solution qui facilitait la maintenance de sa plate-forme – et pour plus d’utilisateurs – les avantages dépassaient de loin les coûts.