Tous les Projets

35+ projets ML dans tous les domaines — tous de qualité production, entièrement documentés

42 projets au total

IEEE-CIS Fraud Detection
En Vedette
Détection de Fraude

Détection de Fraude IEEE-CIS

Pipeline ML complet sur 590K transactions, 433 caractéristiques. LightGBM AUC 0.9648 — ensemble de stacking LGB+XGB+CatBoost+RF avec ingénierie de caractéristiques comportementales avancées.

AUC: 0.9648
LightGBMXGBoostCatBoostStackingFeature Engineering
IA GénérativeDéploiementEn Vedette

Plateforme de Génération d'Images IA (Ofoto)

Déploiement en production de Stable Diffusion (Automatic1111 + ControlNet) avec backend FastAPI, frontend Vue.js — 500+ requêtes simultanées, 99,9% disponibilité, -35% latence, -40% temps de release.

99.9% uptime, -35% latency
Stable DiffusionControlNetFastAPIVue.jsDocker
Agents IAEn Vedette

Agent Commercial IA sur WhatsApp

Agent IA de vente sur WhatsApp Business. Classifie les messages (Vente/Support/Hors-sujet), interroge la BD Supabase, utilise Ollama/Llama3.1 localement, bilingue FR/AR, mémoire conversationnelle. -90% du temps de traitement manuel.

-90% processing time
n8nLLMWhatsAppOllamaLlama3.1
Breast Cancer Ultrasound Segmentation
En Vedette
IA MédicaleVision par Ordinateur

Segmentation d'Échographies du Cancer du Sein

Benchmark de 9 architectures de segmentation sur 780 images BUSI. DeepLabV3+ en tête avec Dice 0,7863, IoU 0,6483. FCN → SimpleUNet → SegNet → Attention-UNet → TransUNet → ResNet34-UNet → EfficientNet-UNet → DeepLabV3+ → Swin-UNet.

Dice: 0.7863 | IoU: 0.6483
U-NetDeepLabV3+ASPPSegmentationPyTorch
Ethereum Blockchain Fraud Detection
En Vedette
Détection de Fraude

Détection de Fraude sur la Blockchain Ethereum

Détection de fraude blockchain sur 9 841 adresses Ethereum. XGBoost+LightGBM+CatBoost+Stacking avec Optuna HPO (40 essais) et SHAP. AUC 0,9973, F1 0,9658 au seuil optimal 0,85.

AUC: 0.9973 | F1: 0.9658
XGBoostLightGBMCatBoostSMOTEOptuna
English → French Neural Machine Translation
En Vedette
NLP

Traduction Automatique Neuronale Anglais → Français

NMT économe en mémoire sur un dataset de 6 Go sans crash RAM. Seq2Seq personnalisé + fine-tuning HuggingFace mBART/Helsinki-NLP. Correction de 5 bugs critiques en amont (GradientTape, overflow tokenizer, API dépréciée).

Seq2SeqmBARTMarianMTHuggingFaceNMT
Twitter Sentiment Analysis
NLP

Analyse de Sentiment Twitter

Pipeline NLP de 6 modèles sur 74K tweets. DistilBERT atteint 96,6% de précision. LR+TF-IDF à 85%. LSTM/Bi-LSTM/CNN atteignent 87–88%. 4 classes : Positif, Négatif, Neutre, Non pertinent.

96.6% accuracy (DistilBERT)
DistilBERTLSTMBi-LSTMTF-IDFSentiment
Fake News Detection
NLP

Détection de Fausses Nouvelles

Pipeline NLP de 13 modèles sur 44 898 articles. Soft Voting Ensemble & Stacking atteignent 99,86% de précision, AUC=1,0. Seulement 2 erreurs sur l'ensemble de test complet. DistilBERT à 99,87% sur 6K sous-ensemble.

99.86% accuracy | AUC: 1.0000
LinearSVCTF-IDFXGBoostLightGBMDistilBERT
Human Activity Recognition (HAR)
Vision par Ordinateur

Reconnaissance d'Activité Humaine (HAR)

Benchmark de 14 modèles sur 9 299 lectures de capteurs UCI. SVM linéaire en tête à 96,1%. t-SNE montre des clusters d'activité nets. PCA retient 95% de variance à ~95 composantes. Confusion Assis/Debout est la principale source d'erreurs.

96.1% accuracy (SVM Linear)
SVMXGBoostLightGBMPCAt-SNE
Telco Customer Churn Prediction
Détection de Fraude

Prédiction de Résiliation Client Télécom

Pipeline churn en 3 phases sur 7 043 clients. XGBoost optimisé Optuna : AUC 0,8484, F1 0,5947. Phase 1 : 5 baselines → Phase 2 : ensembles de boosting → Phase 3 : 100 essais Optuna + SHAP. Durée d'abonnement & type de contrat dominent.

AUC: 0.8484 (Optuna XGBoost)
XGBoostLightGBMCatBoostOptunaSHAP
Vehicle Insurance Claim Fraud
Détection de Fraude

Fraude aux Réclamations d'Assurance Véhicule

Pipeline de fraude de 16 modèles pour 15 420 réclamations (5,99% de fraude). AdaBoost maximise le rappel (89,2%). XGBoost RandomizedSearchCV : CV AUC 0,9847. SHAP : Fault (37,9%) est le principal indicateur de fraude.

AUC: 0.9847 (CV) | Recall: 89.2% (AdaBoost)
XGBoostSMOTESHAPInsuranceRandomizedSearchCV
Face Recognition Person Search
Vision par Ordinateur

Recherche de Personnes par Reconnaissance Faciale

Reconnaissance faciale zero-shot avec embeddings ResNet-50 (VGGFace2) préentraînés. Recherche de 13 233 images LFW via distance euclidienne 128D. 18/19 correspondances correctes au seuil 0,55. Aucun entraînement requis.

18/19 matches — 94.7% recall at threshold 0.55
Face RecognitiondlibResNet-50VGGFace2LFW
Facial Emotion Recognition
Vision par Ordinateur

Reconnaissance des Émotions Faciales

Reconnaissance de 7 émotions sur RAF-DB (12 271 images). Ensemble ResNet50+ViT-Small+EfficientNetB3 atteint 86,57%. Apprentissage par transfert en 2 phases. GradCAM confirme la focalisation sur bouche/sourcils/yeux.

86.57% accuracy (ensemble)
ResNet50ViT-SmallEfficientNetB3GradCAMRAF-DB
YOLOv8 Smart Parking Detection
Vision par Ordinateur

Détection de Stationnement Intelligent YOLOv8

Occupation des places de stationnement (libre vs occupée) avec YOLOv8n. Test mAP50=0,942, mAP50-95=0,798. Arrêt anticipé à l'époque 74. 30 images annotées CVAT (22/4/4). Inférence : 9 libres + 21 occupées par lot @ 41,2ms.

Test mAP50: 0.942 | Val mAP50: 0.994
YOLOv8Object DetectionCVATParkingReal-time
Cancer Detection — YOLOv8 (n/s/m)
IA MédicaleVision par Ordinateur

Détection du Cancer — YOLOv8 (n/s/m)

Benchmark de 3 variantes YOLOv8 pour la localisation du cancer. YOLOv8m : test mAP50=0,6782, Précision=0,7633, F1=0,6941. 1 968 images d'entraînement. Export ONNX (49,8 Mo) + TorchScript (99,1 Mo).

mAP50: 0.6782 (YOLOv8m test)
YOLOv8Object DetectionMedical ImagingONNXCancer
YOLOv8 Animals Detection
Vision par Ordinateur

Détection d'Animaux YOLOv8

Détection d'animaux en 80 classes avec YOLOv8n. mAP@0,5=0,668, mAP@0,5:0,95=0,560. Meilleur : Tigre (0,967), Moineau (0,953). Difficile : Calmar (0,009). ONNX (12,3 Mo). 29 071 images pour 80 espèces.

mAP@0.5: 0.668 | Tiger: 0.967
YOLOv8Object Detection80-classWildlifeONNX
Plant Disease Classification
Vision par Ordinateur

Classification des Maladies des Plantes

Benchmark PlantVillage à 15 classes. MobileNetV2 meilleur individuel : 92,86%. Ensemble (MobileNetV2+EfficientNetB3+ResNet50) test : 83,43%. Déséquilibre 42,5×. Correction d'un bug de réinitialisation du générateur qui causait l'effondrement de l'ensemble.

92.86% (MobileNetV2) | 83.43% (ensemble test)
MobileNetV2EfficientNetB3ResNet50EnsembleAgriculture
Butterfly Species Classification
Vision par Ordinateur

Classification d'Espèces de Papillons

Pipeline multi-modèle en 4 phases pour la classification de 75 espèces. CNN vanille → TL préentraîné → architecture hybride parallèle/séquentielle → têtes auxiliaires multi-perte. Grad-CAM confirme la focalisation sur les motifs d'ailes.

CNNTransfer LearningMulti-lossGrad-CAMt-SNE
Chest CT Scan Cancer Classification
IA Médicale

Classification du Cancer sur Scanner CT Thoracique

Classification du cancer pulmonaire en 4 classes sur 613 images CT. MobileNetV2 meilleur : 66,03% de précision test. 16 modèles : HOG+8 classiques + CNN personnalisés + TL. MC-Dropout signale les cas incertains pour révision par radiologue.

66.03% test accuracy (MobileNetV2)
MobileNetV2CT ScanCancerMC-DropoutHOG
TACO Trash Detection & Segmentation
Vision par Ordinateur

Détection et Segmentation de Déchets TACO

Benchmark de 5 modèles sur 1 500 images de déchets (4 784 annotations, 60 catégories). RT-DETR-L meilleur : mAP50=0,2778, Précision=0,4833. Perte Faster R-CNN converge de 0,76→0,11. YOLOv8n/s/l + RT-DETR + Faster R-CNN.

RT-DETR-L mAP50: 0.2778
RT-DETRYOLOv8Faster R-CNNTACOEnvironmental AI
Sign Language Digits Classification
Vision par Ordinateur

Classification des Chiffres en Langue des Signes

CNN pour la reconnaissance de chiffres en langue des signes (0–9) sur 2 062 images équilibrées. 96,13% de précision de validation à l'époque 23, F1 entraînement=0,98. CNN à 3 couches avec BatchNorm + Dropout. Exporté en H5 pour déploiement.

96.13% validation accuracy
CNNSign LanguageAccessibilityBatchNormKeras
Breast Cancer Classification (Wisconsin)
IA Médicale

Classification du Cancer du Sein (Wisconsin)

Benchmark de 14 modèles sur le dataset Wisconsin (569 échantillons). Voting Ensemble : 99,12% de précision. CatBoost : AUC 0,9990. Extra Trees : 98,25%. RF + SVM ajustés via RandomizedSearchCV/GridSearchCV. SHAP : concave_points_worst domine.

99.12% (Voting) | AUC: 0.9990 (CatBoost)
CatBoostXGBoostLightGBMSHAPSVM
Book Recommender Systems — Full Taxonomy
NLP

Systèmes de Recommandation de Livres — Taxonomie Complète

Taxonomie complète des systèmes de recommandation sur BookCrossing (1,1M d'évaluations) : User-CF, Item-CF, SVD/NMF/ALS, basé contenu, hybride, NCF, AutoRec, GRU4Rec. User-CF RMSE 1,6645, P@10 0,6629, R@10 0,6910.

Collaborative FilteringSVDNCFGRU4RecMatrix Factorization
Hourly Energy Consumption Forecasting
Séries Temporelles

Prévision de la Consommation d'Énergie Horaire

Benchmark de 10 modèles sur 145 366 enregistrements horaires PJM (2002–2018). LightGBM meilleur : MAE=210,8 MW, RMSE=285,4 MW, MAPE=0,66%. Prophet échoue (MAPE=10,25%). BiLSTM MAPE=2,17%. 26 caractéristiques lag/rolling/cycliques.

LightGBM RMSE: 285.4 MW | MAPE: 0.66%
LightGBMXGBoostBiLSTMProphetLag Features
EURUSD Forecasting — 30+ Models (Quantum · GNN · Diffusion · GA)
Séries Temporelles

Prévision EURUSD — 30+ Modèles (Quantique · GNN · Diffusion · AG)

Benchmark EURUSD le plus complet : 30+ modèles dont ML Quantique (QSVM/QNN/QAE/VQC), Algorithmes Génétiques (7 variantes + Chromosomes Neuronaux), GNN, Neural SDE, Diffusion DDPM, Informer, PatchTST, TFT. Méthodologie delta-target. Optimisation multi-objectif NSGA-2.

30+ models | Quantum · GA · GNN · Diffusion
Genetic AlgorithmsQuantum MLGNNDiffusion DDPMNeural SDE
COVID-19 Outbreak Prediction
Séries Temporelles

Prédiction de l'Épidémie de COVID-19

Pipeline sans fuite sur 188 enregistrements quotidiens (Jan–Jul 2020). Cible = nouveaux cas quotidiens (stationnaire). CV Walk-forward TimeSeriesSplit. Modèle SEIR + ARIMA + XGBoost + LSTM + Transformer. Corrige la fuite sur les données cumulées.

SEIRLSTMTransformerEpidemiologyWalk-forward
Weather Pattern Detection
Séries Temporelles

Détection de Motifs Météorologiques

Pipeline à 9 méthodes sur 96 453 enregistrements horaires. K-Means (sil=0,45, K=3), DBSCAN, Isolation Forest (1 930 anomalies), LightGBM macro F1=0,74, 1D-CNN 94,85%, LSTM Autoencoder, Prophet (16 jours d'anomalies).

LightGBM macro F1: 0.74 | 1D-CNN: 94.85% | IF: 1,930 anomalies
K-MeansDBSCANIsolation ForestLightGBM1D-CNN
DataCo Smart Supply Chain ML
Séries Temporelles

ML sur la Chaîne d'Approvisionnement DataCo

ML sans fuite sur 180 519 commandes. LightGBM AUC 0,8563 (livraison tardive). Gradient Boosting R²=0,9996 (régression profit). Suppression des colonnes post-exécution qui gonflent à AUC=1,0 dans la plupart des solutions publiées.

Classification AUC: 0.8563 | Regression R²: 0.9996
XGBoostLightGBMSupply ChainLeakage-FreeClassification
LinkedIn Job Postings ML Pipeline
NLP

Pipeline ML sur Offres d'Emploi LinkedIn

Pipeline ML complet sur 123 849 offres LinkedIn (2023–2024). Prédiction de salaire, analyse de demande de compétences (213K paires), NLP sur descriptions. 7 fichiers CSV joints. Normalisation des périodes de paye (horaire→annuel).

NLPSalary PredictionXGBoostLightGBMLabor Market
Advanced Game Playing — Deep RL
Apprentissage par Renforcement

Jeux Avancés — Deep RL

Double Dueling DQN + PER (SumTree). CartPole-v1 résolu à l'épisode 300 (MA-100=441,1, meilleure éval 497,2/500). LunarLander-v3 résolu à l'épisode 207 (MA-100=202). Réseau de 134 275 paramètres avec LayerNorm.

CartPole solved ep 300 | LunarLander solved ep 207
Double DQNDueling DQNPERSumTreeCartPole
IoT Network Security Anomaly Detection
Détection de Fraude

Détection d'Anomalies Réseau IoT

Détection d'intrusion sur systèmes embarqués avec déséquilibre extrême (10% anomalies). BiLSTM+Attention : PR-AUC=0,186, Rappel=33,3%. Augmentation 5× (Gaussien/MixUp/masquage). Incertitude MC-Dropout. Perte focale.

BiLSTM PR-AUC: 0.186 | Recall: 33.3%
BiLSTMAnomaly DetectionIoTFocal LossMC-Dropout
Poetry Generation — BERT / GPT-2 / T5 Fine-tuned
NLPIA Générative

Génération de Poésie — BERT / GPT-2 / T5 Fine-tuné

Fine-tuning de BERT, GPT-2 et T5 sur le corpus Poetry Foundation pour la génération créative de poèmes. 10 checkpoints sauvegardés. Analyse de diversité lexicale par poète. Beam search + sampling par température. Dashboard comparant les 3 architectures.

GPT-2BERTT5Fine-tuningPoetry
Handwritten Name Recognition
Vision par OrdinateurNLP

Reconnaissance de Noms Manuscrits

Benchmark OCR sur 66K images. TrOCR (ViT+GPT-2, 334M) meilleur : CER=0,0481, 80% de correspondance exacte. CRNN-ResNet34 : CER=0,0502. Optimisations AMP + torch.compile + accumulation de gradients.

TrOCR CER=0.0481 | 80% exact-match
TrOCRCRNNCTC LossBiLSTMResNet34
Food Delivery Time Prediction
Séries Temporelles

Prédiction du Temps de Livraison Alimentaire

Benchmark de régression sur 16 modèles. La Régression Linéaire gagne étonnamment : RMSE=8,76 min, R²=0,829. XGBoost ajusté : RMSE=9,19. Distance & trafic dominent. Caractéristiques d'interaction capturent les non-linéarités.

Linear Regression RMSE: 8.76 min | R²: 0.829
RegressionXGBoostLightGBMFeature EngineeringFood Delivery
Household Power Consumption Forecasting
Séries Temporelles

Prévision de la Consommation Électrique des Ménages

Séries temporelles multi-modèles sur 2,9M enregistrements UCI (2006–2010). ARIMA, SARIMA, Prophet, LSTM sur Global_active_power. STL révèle des motifs quotidiens+hebdomadaires. Ensemble avec pondération inverse-RMSE.

LSTMARIMASARIMAProphetSTL Decomposition
Historical Product Demand Forecasting
Séries Temporelles

Prévision Historique de la Demande de Produits

Benchmark de 19 modèles : TS classique → ML → DL → ensemble. CatBoost R²=0,7125 (meilleur). ML écrase TS classique (SMAPE 115–130% vs 35–40% pour TS, mais R² négatif pour TS). CV walk-forward avec Optuna.

CatBoost R²=0.7125 | Quantile Reg MAE=8,511
CatBoostXGBoostLightGBMLSTMTFT
Synthetic Speech Commands Classification
NLP

Classification de Commandes Vocales Synthétiques

CNN audio à 30 classes atteint 100% de précision test sur 41 849 échantillons. Mel-spectrogram (64 bins) + SpecAugment. CNN à 4 blocs, 1,25M paramètres. Précision val atteint 100% à l'époque 8. Label smoothing 0,1.

100% test accuracy | F1=1.00 all 30 classes
Audio CNNMel-SpectrogramSpecAugmentSpeech Recognition30-class
Line Detection (Computer Vision)
Vision par Ordinateur

Détection de Lignes (Vision par Ordinateur)

Benchmark de CV classique : Hough Standard (2,53ms, 22 lignes), Hough Probabiliste (4,29ms, 47 segments), LSD (23,98ms, 422 segments). Hough 6–10× plus rapide. Images dashcam Udacity + images synthétiques. Pipeline HSV+ROI.

Standard Hough: 2.53ms/frame (270+ FPS)
Hough TransformLSDCanny EdgeLane DetectionOpenCV
IA Générative

Génération de Visages Anime (DCGAN)

DCGAN entraîné 100 époques sur Tesla T4 sur 43K images anime. Pile ConvTranspose2d (100→512→256→128→64→3). β₁=0,5, lissage des étiquettes, StepLR. Interpolation latente slerp pour des transitions fluides.

Stable generation after 100 epochs on 43K images
DCGANGANPyTorchGenerative AISlerp
Agents IABackend

Moteur de Recommandation E-commerce (n8n)

Backend de recommandation en production : n8n + PostgreSQL, 4 modes (tendances/co-achat/personnalisé/réachat), 74 nœuds, API webhook, planificateur quotidien. Aucun serveur personnalisé requis.

n8nPostgreSQLMarket BasketRecommendationWebhooks
Agents IA

Système Multi-Agents RAG (n8n + Pinecone)

n8n à 109 nœuds : PDF Google Drive → store vectoriel Pinecone → embeddings Cohere → Agent IA Ollama → scraping Airtop → acteurs Apify. 5 sous-workflows. RAG complet + mémoire conversationnelle.

RAGPineconen8nCohereOllama
BackendDéploiement

Architecture Microservices (Spring Boot)

Microservices de production : Spring Boot, streaming d'événements Apache Kafka, auth OAuth2/Keycloak, appels inter-services gRPC, passerelle API, Docker. Conception orientée événements avec isolation PostgreSQL par service.

Spring BootKafkaKeycloakgRPCDocker

Besoin d'un ingénieur IA ou data scientist ?

Je conçois des modèles ML sur mesure, des agents IA, de la vision par ordinateur et de l'automatisation — de l'idée à la production.