| تعداد نشریات | 127 |
| تعداد شمارهها | 7,124 |
| تعداد مقالات | 76,627 |
| تعداد مشاهده مقاله | 153,608,243 |
| تعداد دریافت فایل اصل مقاله | 115,724,785 |
پیشبینی ارزش مشتریان بانکی با یادگیری ماشین: رویکرد نوین مبتنیبر نمونهگیری مصنوعی تطبیقی و اهمیت ویژگیها | ||
| مدیریت بازرگانی | ||
| مقالات آماده انتشار، پذیرفته شده، انتشار آنلاین از تاریخ 20 اردیبهشت 1405 | ||
| نوع مقاله: مقاله علمی پژوهشی | ||
| شناسه دیجیتال (DOI): 10.22059/jibm.2025.387468.4891 | ||
| نویسندگان | ||
| احمد جعفرنژاد* 1؛ آرمان رضاسلطانی2؛ امیرمحمد خانی2؛ سیده هدی حسینیان3 | ||
| 1استاد، گروه مدیریت صنعتی، دانشکده مدیریت، دانشگاه تهران، تهران، ایران. | ||
| 2دانشجوی دکتری، گروه مدیریت صنعتی، دانشکده مدیریت، دانشگاه تهران، تهران، ایران. | ||
| 3دانشجو دکتری، گروه مدیریت صنعتی، پردیس بین المللی کیش، دانشگاه تهران، تهران، ایران. | ||
| چکیده | ||
| هدف: پیشبینی دقیق ارزش مشتریان در صنعت بانکداری یکی از چالشهای اساسی است که میتواند به تصمیمگیری بهینه در حوزه مدیریت مشتریان و تخصیص منابع کمک کند. این تحقیق با هدف توسعه یک رویکرد جامع برای پیشبینی ارزش مشتریان بانکی انجام شده است. تمرکز اصلی این مطالعه بر مدیریت چالش عدمتعادل دادهها، بهبود عملکرد مدلهای یادگیری ماشین، و انتخاب ویژگیهای کلیدی موثر بر پیشبینی ارزش مشتریان برای کاربردهای واقعی در محیطهای بانکی است. روششناسی: در این پژوهش، دادههای مربوط به 2هزار مشتری یک بانک، شامل 14 ویژگی کلیدی مرتبط با تراکنشها و رفتار مشتریان، مورد تحلیل قرار گرفت. مراحل تحقیق شامل پیشپردازش دادهها، انتخاب ویژگیهای مهم، و مدیریت عدم تعادل دادهها با استفاده از تکنیک ADASYNبود. انتخاب ویژگیهای مهم با استفاده از ترکیب تحلیل همبستگی و روش Feature Importance مبتنی بر الگوریتم Random Forest انجام شد. در این فرآیند، ابتدا ویژگیهایی با همبستگی بالا شناسایی شدند و سپس بر اساس میزان اهمیت آنها، ویژگیهای کلیدی انتخاب شدند. سپس، 11 الگوریتم یادگیری ماشین، از جمله CatBoost، XGBoost، Random Forest، LightGBM و سایر مدلهای خطی و غیرخطی، برای پیشبینی ارزش مشتریان بهکار گرفته شد. بهمنظور بهینهسازی عملکرد مدلها، از چارچوب Optuna برای تنظیم خودکارهایپرپارامترها و از اعتبارسنجی متقاطع پنجبرابری برای ارزیابی دقیق مدلها استفاده شد. عملکرد مدلها براساس 4 شاخص ارزیابی اصلی شامل صحت (Accuracy)، دقت (Precision)، فراخوانی (Recall) و امتیاز F1 سنجیده شد. یافتهها: نتایج نشان داد که الگوریتمهای مبتنیبر یادگیری جمعی بهترین عملکرد را در پیشبینی ارزش مشتریان ارائه میدهند. مدل CatBoost با امتیاز F1 برابر 9324/0 و صحت 909/0 بهعنوان بهترین مدل شناسایی شد. این مدل توانست تعادلی مناسب میان دقت و فراخوانی ایجاد کند، بهگونهای که دقت مدل در پیشبینی مشتریان ارزشمند به 9677/0 و فراخوانی آن به 8998/0 رسید. مدلهای XGBoost و Random Forest نیز عملکردی مشابه با CatBoost داشتند و امتیاز F1 آنها به ترتیب 9322/0 و 932/0 بود. استفاده از رویکرد ترکیبی جهت انتخاب ویژگیها و استفاده از روش ADASYN برای ایجاد تعادل در دادهها، نقش مهمی در بهبود عملکرد این مدلها ایفا کرد. نتیجهگیری : مطالعه حاضر نشان داد که استفاده از رویکردهای نوین یادگیری ماشین همراه با تکنیکهای پیشپردازش تطبیقی مانند ADASYN میتواند بهطور قابلتوجهی عملکرد مدلهای پیشبینی ارزش مشتری را بهبود بخشد. انتخاب دقیق ویژگیها با استفاده از ترکیب تحلیل همبستگی و اهمیت ویژگیها مبتنیبر الگوریتم Random Forest نقش مهمی در بهبود عملکرد مدلها داشت. این فرآیند با شناسایی و حذف ویژگیهای تکراری و کماهمیت، مدلها را قادر ساخت تا با تمرکز بر اطلاعات کلیدی و مؤثر، دقت پیشبینی را افزایش دهند. مدلهای یادگیری جمعی مانند CatBoost، XGBoost و Random Forest به دلیل دقت بالا و توانایی در مدیریت دادههای پیچیده و نامتعادل، بهترین گزینهها برای کاربرد در محیطهای بانکی هستند. این تحقیق با رفع محدودیتهای پژوهشهای پیشین و ارائه رویکردی جامع برای مدیریت دادههای نامتعادل و انتخاب ویژگیهای کلیدی، گامی مؤثر در جهت بهینهسازی استراتژیهای مدیریت مشتریان در صنعت بانکداری برداشته است. نتایج بهدستآمده میتواند به بانکها کمک کند تا با شناسایی دقیق مشتریان ارزشمند، سیاستهای بهتری برای حفظ مشتریان و تخصیص منابع تدوین نمایند. | ||
| کلیدواژهها | ||
| یادگیری ماشین؛ پیشبینی ارزش مشتری؛ نامتعادلی دادهها؛ ADASYN؛ CatBoost | ||
| عنوان مقاله [English] | ||
| Predicting Customer Value in Banking Using Machine Learning: A Novel Approach Based on Adaptive Synthetic Sampling and Feature Importance | ||
| نویسندگان [English] | ||
| Ahmad Jafarnjad1؛ Arman Rezasoltani2؛ Amir Mohammad Khani2؛ Sayedeh Hoda Hosseinian3 | ||
| 1Prof., Department of Industrial Management, Faculty of Management, University of Tehran, Tehran, Iran. | ||
| 2Ph.D. Candidate, Department of Industrial Management, Faculty of Management, University of Tehran, Tehran, Iran. | ||
| 3Ph.D. candidate, Department of Industrial Management, Faculty of Kish International Campus, University of Tehran, Tehran, Iran. | ||
| چکیده [English] | ||
| Objective: Accurate prediction of customer value in the banking industry is one of the fundamental challenges that can contribute to optimal decision-making in customer management and resource allocation. This study aims to develop a comprehensive approach for predicting the value of banking customers. The primary focus of this research is on addressing the challenge of imbalanced data, improving the performance of machine learning models, and selecting key features that are effective in predicting customer value for real-world applications in banking environments. Methodology: In this paper, the data of one of the banks involving 2000 customers and 14 features are correlated to the transaction and customers’ activity. The requirements of data preprocessing were done, followed by the selection of the features as well as data imbalance and applying ADASYN technique. The analysis of the correlation between the variables and the Feature Importance method according to the results of the Random Forest algorithm was also used to complete the feature selection. In this process of the algorithm, features with high correlation have been obtained and the final usual features have been selected. After that, the 11 machine learning algorithms such as CatBoost, XGBoost, Random Forest, LightGBM, and linear and nonlinear models were used to predict the customer value. For the better performance of the presented models, the Optuna was adopted for hyper-parameter tuning while the cross-validation analysis was applied into five fold for precise model estimation. Among the four tests that were used to evaluate the performance of the models, accuracy, precision, recall, and F1 score tests were used. Findings: The results showed that ensemble learning-based algorithms provided the best performance in predicting customer value. The CatBoost model, with an F1 Score of 0.9324 and an accuracy of 0.909, was identified as the best-performing model. This model achieved a proper balance between precision and recall, with a precision of 0.9677 and a recall of 0.8998 in predicting valuable customers. The XGBoost and Random Forest models also demonstrated similar performance to CatBoost, with F1 Scores of 0.9322 and 0.932, respectively. The use of a combined approach for feature selection and the application of the ADASYN method for data balancing played a significant role in improving the performance of these models. Conclusion: These results show that a different approach to data preprocessing with the help of the ADASYN algorithm in combination with modern machine learning methods can positively affect the effectiveness of models predicting customer value. The correlated variables selection and the feature importance based on the Random Forest was important in improving the general performance of the models. This revolution allowed strengthening the work of models through the elimination of features and information that had less impact in the final decisions, making the latter more precise. Based on the results of its evaluation, it can be concluded that ensemble learning models, therefore CatBoost, XGBoost, and Random Forest, are the most appropriate for banking settings because of its efficiency and effectiveness in dealing with large-scale, complex, and imbalanced datasets. Thus, the current paper has oriented itself on extending the previous research studies, addressing the issues of imbalanced data and feature selection to enhance the customer management in the banking sector, which contributed to the development of an efficient approach to the challenge. The results are useful for the definition of the criteria for the identification of the banks’ high value costumer base and the formulation of improved policies regarding their retention and servicing. | ||
| کلیدواژهها [English] | ||
| Machine Learning, Customer Value Prediction, Data Imbalance, ADASYN, CatBoost | ||
|
آمار تعداد مشاهده مقاله: 60 |
||