Tous les Projets
NLP

Pipeline ML sur Offres d'Emploi LinkedIn

Pipeline ML complet sur 123 849 offres LinkedIn (2023–2024). Prédiction de salaire, analyse de demande de compétences (213K paires), NLP sur descriptions. 7 fichiers CSV joints. Normalisation des périodes de paye (horaire→annuel).

Jeu de Données

123 849 offres d'emploi LinkedIn, 7 fichiers CSV relationnels

Approche

Jointure 7 fichiers → extraction de caractéristiques NLP → régression salariale + analyse de demande de compétences

Stack Technique
PythonPandasScikit-learnXGBoostLightGBMTF-IDFNLTK
Mots-clés
NLPSalary PredictionXGBoostLightGBMLabor MarketTF-IDF
Visualisations6 Graphiques
Analyse Approfondie

Pipeline ML bout-en-bout sur un grand dataset LinkedIn avec une structure relationnelle riche.

Jeu de données (7 fichiers joints)

FichierLignesInfo
postings.csv123 849Titre, entreprise, description, lieu
companies.csv24 473Taille, industrie, abonnés
salaries.csv40 785Fourchettes (32,9% de couverture des offres)
job_skills.csv213 768Correspondances compétence→emploi

Normalisation des Périodes de Paye

  • Annuel : 23K (direct)
  • Horaire : 16K (× 2 080 → annuel)
  • Mensuel : 539 (× 12)
  • Hebdomadaire : 180 (× 52)

Tâche 1 : Prédiction de Salaire (Régression) Features : normalisation période de paye, TF-IDF sur descriptions, taille entreprise, séniorité depuis le titre. Principaux prédicteurs : titre de poste, taille entreprise, lieu, compétences requises, séniorité.

Tâche 2 : Analyse de la Demande en Compétences 213 768 paires compétence-emploi → fréquence + pondération TF-IDF. Les plus demandées : Python, SQL, Communication, Gestion de Projet, Machine Learning. En forte croissance 2023–2024 : LLMs, Prompt Engineering, Bases de Données Vectorielles.

Tâche 3 : Insights Marché

  • Plus de 85% des offres concentrées dans les grandes villes US/Europe
  • Prime Data Science : 3–4× vs salaire de base Opérations
  • Prime télétravail : +12 000 $ en moyenne pour les postes totalement à distance

Mise en Garde Importante Seulement 32,9% des offres ont des données salariales — le biais de sélection rend le modèle non représentatif du marché global.