خط أنابيب ML على إعلانات وظائف LinkedIn
خط أنابيب ML كامل على 123,849 إعلان وظيفي من LinkedIn (2023-2024). التنبؤ بالراتب، تحليل الطلب على المهارات (213K زوجاً)، NLP على الأوصاف. 7 ملفات CSV مرتبطة. تطبيع فترات الدفع (ساعي→سنوي).
123,849 إعلان وظيفي من LinkedIn، 7 ملفات CSV ترابطية
دمج 7 ملفات → استخراج ميزات NLP → انحدار الراتب + تحليل الطلب على المهارات
خط أنابيب ML من النهاية إلى النهاية على مجموعة بيانات LinkedIn كبيرة مع بنية علائقية غنية.
مجموعة البيانات (7 ملفات مرتبطة)
| الملف | الصفوف | المعلومات |
|---|---|---|
| postings.csv | 123,849 | العنوان، الشركة، الوصف، الموقع |
| companies.csv | 24,473 | الحجم، الصناعة، المتابعون |
| salaries.csv | 40,785 | النطاقات (تغطية 32.9%) |
| job_skills.csv | 213,768 | تعيينات المهارة→الوظيفة |
تطبيع فترات الدفع سنوي: 23K | ساعي: 16K (×2,080) | شهري: 539 (×12) | أسبوعي: 180 (×52)
المهمة 1: التنبؤ بالراتب — TF-IDF + حجم الشركة + الأقدمية من العنوان
المهمة 2: تحليل الطلب على المهارات — 213,768 زوج → الأعلى طلباً: Python، SQL، التواصل، إدارة المشاريع، ML
المهمة 3: رؤى السوق — 85%+ الوظائف في أكبر مدن US/أوروبا. علاوة Data Science: 3-4× مقارنة بالعمليات.
تحذير مهم 32.9% فقط من الوظائف لديها بيانات راتب — تحيز الاختيار يجعل النموذج غير تمثيلي للسوق الكامل.