كل المشاريع
معالجة اللغات

خط أنابيب ML على إعلانات وظائف LinkedIn

خط أنابيب ML كامل على 123,849 إعلان وظيفي من LinkedIn (2023-2024). التنبؤ بالراتب، تحليل الطلب على المهارات (213K زوجاً)، NLP على الأوصاف. 7 ملفات CSV مرتبطة. تطبيع فترات الدفع (ساعي→سنوي).

مجموعة البيانات

123,849 إعلان وظيفي من LinkedIn، 7 ملفات CSV ترابطية

المنهجية

دمج 7 ملفات → استخراج ميزات NLP → انحدار الراتب + تحليل الطلب على المهارات

المكدس التقني
PythonPandasScikit-learnXGBoostLightGBMTF-IDFNLTK
الكلمات المفتاحية
NLPSalary PredictionXGBoostLightGBMLabor MarketTF-IDF
المرئيات6 مخططات
التعمق

خط أنابيب ML من النهاية إلى النهاية على مجموعة بيانات LinkedIn كبيرة مع بنية علائقية غنية.

مجموعة البيانات (7 ملفات مرتبطة)

الملفالصفوفالمعلومات
postings.csv123,849العنوان، الشركة، الوصف، الموقع
companies.csv24,473الحجم، الصناعة، المتابعون
salaries.csv40,785النطاقات (تغطية 32.9%)
job_skills.csv213,768تعيينات المهارة→الوظيفة

تطبيع فترات الدفع سنوي: 23K | ساعي: 16K (×2,080) | شهري: 539 (×12) | أسبوعي: 180 (×52)

المهمة 1: التنبؤ بالراتب — TF-IDF + حجم الشركة + الأقدمية من العنوان

المهمة 2: تحليل الطلب على المهارات — 213,768 زوج → الأعلى طلباً: Python، SQL، التواصل، إدارة المشاريع، ML

المهمة 3: رؤى السوق — 85%+ الوظائف في أكبر مدن US/أوروبا. علاوة Data Science: 3-4× مقارنة بالعمليات.

تحذير مهم 32.9% فقط من الوظائف لديها بيانات راتب — تحيز الاختيار يجعل النموذج غير تمثيلي للسوق الكامل.