Posts

Showing posts with the label Data Science

K-fold cross-validation

Image
  K-fold cross-validation هو method بنستخدمها عشان ن evaluate ال performance لل machine learning model بتاعنا طب ازاي نستخدم ال method دي: بنقسم الداتا اللي عندنا ل k-folds متساوية في العدد وبنعمل training للموديل على كل ال folds دي ماعدا واحدة كل مره بنتسته عليها وبنفضل نكرر ال process دي مع استخدام كل جزء من الداتا مره واحدة بس في ال testing وبنحسب ال average بتاع ال accuracy عشان نجيب ال accuracy النهائية الطريقة دي بتوفر تقدير لل performance مظبوط اكتر وبتمنع ان يحصل Overfitting أثناء ال training من خلال استخدام groups فرعية مختلفة من الداتا أثناء ال training وال testing

Data preprocessing

Image
 ال data preprocessing بتتضمن : 1. Handling missing data وده بيتم بطريقتين اما انك تعوض عن ال missing values دي بال mean او ال median او ال mode يا اما ت drop ال row كله    2. Encoding categorical variables ودي بتيم فيها تحويل ال catigories ل numerical values عن طريق ال label encoding او ال one hot encoding 3. Scaling/ Normalization ودي بيتم فيها توحيد المدى بتاع كل ال features عشان الموديل ميهتمش ب Feature على حساب التانية 4. Outlier Detection ودي بيتم فيها تحديد ال outliers وازالتها سواء بال Z scores او ال IQR method 5. Data Splitting وهنا بتقسم الداتا ل training set و testing set 6. Feature Engineering  ودي بتعمل فيها features جديدة او بت select important features من ال features اللي already موجودة  7. Handling Imbalanced Data  لو الداتا عندك غير متوازنة بتستخدم SMOTE عشان تعيد توازن الداتا  من خلال ال steps اللي قولنا عليهم دول هتضمن ان عندك clean data جاهزة عشان ت train عليها ال model