Pipeline ML sur Offres d'Emploi LinkedIn
Pipeline ML complet sur 123 849 offres LinkedIn (2023–2024). Prédiction de salaire, analyse de demande de compétences (213K paires), NLP sur descriptions. 7 fichiers CSV joints. Normalisation des périodes de paye (horaire→annuel).
123 849 offres d'emploi LinkedIn, 7 fichiers CSV relationnels
Jointure 7 fichiers → extraction de caractéristiques NLP → régression salariale + analyse de demande de compétences
Pipeline ML bout-en-bout sur un grand dataset LinkedIn avec une structure relationnelle riche.
Jeu de données (7 fichiers joints)
| Fichier | Lignes | Info |
|---|---|---|
| postings.csv | 123 849 | Titre, entreprise, description, lieu |
| companies.csv | 24 473 | Taille, industrie, abonnés |
| salaries.csv | 40 785 | Fourchettes (32,9% de couverture des offres) |
| job_skills.csv | 213 768 | Correspondances compétence→emploi |
Normalisation des Périodes de Paye
- ▸Annuel : 23K (direct)
- ▸Horaire : 16K (× 2 080 → annuel)
- ▸Mensuel : 539 (× 12)
- ▸Hebdomadaire : 180 (× 52)
Tâche 1 : Prédiction de Salaire (Régression) Features : normalisation période de paye, TF-IDF sur descriptions, taille entreprise, séniorité depuis le titre. Principaux prédicteurs : titre de poste, taille entreprise, lieu, compétences requises, séniorité.
Tâche 2 : Analyse de la Demande en Compétences 213 768 paires compétence-emploi → fréquence + pondération TF-IDF. Les plus demandées : Python, SQL, Communication, Gestion de Projet, Machine Learning. En forte croissance 2023–2024 : LLMs, Prompt Engineering, Bases de Données Vectorielles.
Tâche 3 : Insights Marché
- ▸Plus de 85% des offres concentrées dans les grandes villes US/Europe
- ▸Prime Data Science : 3–4× vs salaire de base Opérations
- ▸Prime télétravail : +12 000 $ en moyenne pour les postes totalement à distance
Mise en Garde Importante Seulement 32,9% des offres ont des données salariales — le biais de sélection rend le modèle non représentatif du marché global.