Accueil » News » les 9 types d’algorithmes les plus pertinents en entreprise

les 9 types d’algorithmes les plus pertinents en entreprise

  • par

Pour certains, l’explication suivante semble évidente: un seul algorithme ne répond pas à tous les problèmes. Selon le type de données et les objectifs de votre organisation, certains modèles seront plus adaptés. Par exemple, un algorithme de régression linéaire est plus facile à former et à déployer que d’autres, mais il n’est peut-être pas préférable de faire des prédictions complexes.

Suite de l’article ci-dessous

Les neuf algorithmes d’apprentissage automatique ci-dessous sont les plus couramment utilisés par les entreprises pour former leurs modèles. Ceux-ci non seulement soutiennent des objectifs différents, mais dépendent également de différentes méthodes d’apprentissage: supervisé, non supervisé, semi-supervisé ou par renforcement. Si nécessaire, ces techniques peuvent être combinées.

Algorithmes d’apprentissage guidé

Les modèles d’apprentissage guidés nécessitent beaucoup de travail préparatoire pour les scientifiques des données. Les jeux de données d’entrée doivent être étiquetés, tandis que les paramètres de sortie doivent indiquer les résultats attendus. Vous devez également ajuster la précision pendant le processus d’apprentissage.

Régression linéaire

Sans aucun doute, les algorithmes de régression linéaire sont les plus couramment utilisés par les équipes de science des données. Il s’agit de créer des connexions simples entre deux variables dans un ensemble de données. Un ensemble d’entrées et leurs sorties associées sont examinés et quantifiés pour indiquer une relation, par exemple, comment le changement d’une variable affecte l’autre. Les régressions linéaires sont représentées sous forme de lignes dans un graphique.

La popularité de la régression linéaire s’explique par sa simplicité. L’algorithme est facile à expliquer, relativement transparent et il y a peu de paramètres à configurer. Connu dans la pratique de la statistique, ce type d’algorithme est souvent utilisé pour prédire les ventes ou les risques.

La régression linéaire est la meilleure solution lorsque « vous voulez prédire votre valeur ou une classe », a déclaré Shekhar Vemuri, directeur technique de Clairvoyant, un cabinet de conseil en analyse.

Machine à vecteur de support (SVM)

Les machines vectorielles de support (SVM) sont des algorithmes qui séparent les données en classes. Pendant l’entraînement, un SVM trouve une ligne qui sépare les données du jeu en classes spécifiques et maximise les marges (les distances entre les limites de séparation et les échantillons les plus proches) de chaque classe. Après avoir appris les lignes de classification, le modèle peut ensuite les appliquer aux nouvelles données.

Les spécialistes placent le SVM dans la catégorie « classificateurs linéaires »: l’algorithme est idéal pour identifier les classes simples qu’il sépare avec des vecteurs appelés hyperplans. Il est également possible de programmer l’algorithme pour des données non linéaires, qui ne peuvent pas être clairement séparées par des vecteurs. Mais avec des données d’entraînement hyper complexes – visages, traits de personnalité, génomes et matériel génétique – les systèmes de classe deviennent plus petits et plus difficiles à identifier et ont besoin d’un peu plus d’aide humaine.

Les machines à vecteurs de support sont largement utilisées dans le monde financier. Ils offrent une grande précision sur les données actuelles et futures. Les modèles associés peuvent être utilisés pour comparer virtuellement les performances financières virtuelles, la valeur et le retour sur investissement.

Les SVM dits non linéaires sont souvent utilisés pour classer les images (vision par ordinateur) ou les mots, phrases et entités (PNL).

Arbre de décision

Un algorithme d’arbre de décision cartographie les données en branches pour montrer les résultats possibles de différentes actions. Il classe et prédit les variables de réponse en fonction des décisions précédentes.

Cette méthode visuelle a fait ses preuves. Les résultats des arbres de décision sont faciles à expliquer. Les scientifiques des données citoyens n’auront aucun problème à les interpréter. Les décisions et leur impact probable sur un résultat final sont facilement visibles même si les jeux de données d’entrée sont incomplets.

Cependant, les arbres de décision deviennent difficiles à lire lorsqu’ils sont associés à de grandes quantités de données et à des variables complexes. Par conséquent, ils sont utilisés pour des décisions à faibles enjeux, telles que l’anticipation des changements de taux d’emprunt ou des réponses du marché lorsqu’une entreprise modifie une partie importante de l’un de ses produits.

« Les arbres de décision restent populaires car ils peuvent décrire plusieurs résultats sans impliquer les scientifiques des données », a déclaré Jeff Fried, directeur de la gestion des produits chez InterSystems.

Algorithmes d’apprentissage non contrôlés

Les algorithmes dits non gardés ne sont pas formés par le data scientist. Ils dépendent de méthodes d’apprentissage approfondies pour identifier les modèles en les peignant en observant des jeux de données d’apprentissage non codés et des corrélations. Les modèles formés avec cette méthode ne visent pas à trouver un résultat ou à identifier des données spécifiques.

Algorithmes Apriori

Cet algorithme d’exploration de données recherche les affinités entre deux éléments d’un ensemble de données pour déterminer s’il existe une corrélation négative ou positive entre eux.

L’algorithme Apriori est largement utilisé par les équipes commerciales qui souhaitent savoir quels produits un client peut acheter d’un autre. Si un pourcentage élevé de clients qui achètent du pain achètent également du beurre, l’algorithme peut conclure que l’achat du produit A (pain) est souvent suivi de celui du produit B (beurre). Ces données peuvent être référencées dans des ensembles de données, des points de données et des ratios d’achat.

Un tel algorithme peut également déterminer que l’acquisition d’un élément A a 10% de devises étrangères pour stimuler l’achat d’un produit C. Les équipes marketing peuvent utiliser ces informations pour développer des stratégies de mise en page des produits dans un magasin, par exemple. Les algorithmes Apriori sont particulièrement appréciés par les géants du commerce électronique comme Amazon et Alibaba. Les éditeurs de moteurs de recherche les utilisent pour prédire la prochaine demande d’un utilisateur, tandis que Netflix l’utilise comme outil de recommandation pour afficher le contenu suivant.

La distribution en K-means (K-means)

L’algorithme K-means utilise une méthode itérative pour trier les points de données en groupes en fonction de caractéristiques similaires. Par exemple, un modèle de ce type regrouperait les résultats Web du mot talisman en un groupe qui se rapporte à un objet doté de propriétés de protection et un autre au modèle de voiture du groupe Renault, la berline Renault Talisman.

La distribution en K moyennes a la réputation d’être précise, alors qu’elle est capable de gérer des groupes de données en un temps relativement court. Ce type d’algorithme est également utilisé par les éditeurs de moteurs de recherche pour fournir des résultats pertinents ou par les entreprises qui cherchent à classer le comportement des utilisateurs. Cette technique est également efficace dans le cadre de l’analyse des performances informatiques.

Algorithmes d’apprentissage semi-guidés

Les méthodes d’apprentissage semi-guidées combinent des données étiquetées et non étiquetées. Les algorithmes de ce type se nourrissent de certaines informations grâce à des catégories labellisées, des suggestions et des exemples. Ils créent ensuite leurs propres étiquettes en explorant les données elles-mêmes, selon un diagramme rudimentaire ou les indications des data scientists.

Réseaux antagonistes génératifs

Les réseaux contradictoires génératifs (GAN) sont des modèles qui imitent la distribution des données. Deux réseaux sont mis en concurrence pour déterminer la meilleure solution à un problème. L’un des réseaux de neurones, appelé générateur, se nourrit des données d’entrée pour générer une sortie passable, tandis que le second, le discriminateur, s’appuie sur la sortie du premier pour identifier et corriger les erreurs. Ce processus est répété autant de fois que nécessaire pour trouver une réponse idéale à un problème.

Dans l’industrie, la fabrication de pièces est l’un des scénarios possibles, bien que les informations d’entrée soient limitées.

Un ingénieur précise les dimensions et les paramètres (ses données d’entrée) pour créer la structure d’une pièce (le résultat) qu’il imprimera ensuite en trois dimensions. Ce processus vous permet d’itérer jusqu’à ce que vous trouviez la forme, la structure ou les matériaux idéaux pour le mettre en production. Dans la production audiovisuelle (notamment dans l’industrie du jeu vidéo) cette technique permet de générer des visages, des objets ou des morceaux de musique.

Classification bayésienne naïve

Le classificateur bayésien naïf (Naive Bayes) est basé sur le théorème de Bayes basé sur des probabilités conditionnelles. Cet algorithme est utilisé par les chercheurs pour reconnaître des classes d’objets sur des ensembles de données étiquetés. Ensuite, l’algorithme est entraîné sur des données non balisées. À la fin de ce cycle, les chercheurs associent les labels et recommencent la formation. Cette technique est principalement utilisée dans le contexte du traitement du langage naturel ou pour étiqueter des jeux de données sans utiliser de services tels qu’Amazon Mechanical Turk. Certains éditeurs, notamment le logiciel TIBCO, utilisent la classification bayésienne naïve dans leurs produits (TIBCO Cloud Metadata).

Renforcement de l’apprentissage

Le renforcement des algorithmes d’apprentissage est basé sur des systèmes de récompense et de punition. L’algorithme se voit attribuer une cible et essaie de l’approcher pour une récompense maximale. Il est basé sur des informations limitées et apprend des actions précédentes. Ces algorithmes peuvent dépendre d’un schéma (un modèle); ils doivent ensuite suivre des étapes prédéfinies et le nombre d’erreurs et d’essais est limité. D’autres ne s’appuient pas sur un diagramme et l’interprètent à chaque nouvelle tentative.

Q-Learning

Les algorithmes de Q-Learning recherchent la meilleure méthode (une politique optimale) pour atteindre un certain objectif, tout en essayant d’obtenir un maximum de récompenses. Ils essaient autant d’actions que possible par état du système sans avoir aucune connaissance initiale de l’environnement. Un tel algorithme peut être construit pour obtenir des récompenses rapidement ou pour atteindre un objectif important.

Q-Learning est souvent associé à des modèles d’apprentissage en profondeur dans des projets de recherche, y compris celui de Google DeepMind. Cette technique est ensuite disponible dans plusieurs algorithmes, dont le «gradient de politique déterministe profond» (DDPG) ou «l’expérience rétrospective» (HER).

Algorithme basé sur un modèle

Contrairement à Q-Learning, les algorithmes basés sur des modèles ont une liberté limitée pour créer des états et des actions. Cependant, cela garantit une plus grande efficacité statistique. Ils sont formés avec des données spécifiques et des actions de base de l’environnement grâce à une formation guidée. Cela accélère essentiellement l’apprentissage. Un tel algorithme peut servir de lieu de stockage pour l’utilisation de jumeaux numériques.

Il est possible de combiner cette méthode avec Q Learning, comme l’ont fait les chercheurs de DeepMind pour créer MuZero.