روشی برای بازیابی اطلاعات از داده‌های گم‌شده با استفاده از تکنیک‌های داده‌کاوی و الگوریتم ژنتیک

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه بزرگمهر قائنات، قائنات، ایران.

2 استادیار، پژوهشگاه ارتباطات و فناوری اطلاعات، تهران، ایران.

چکیده

هدف: در ادبیات آماری، اصطلاحات مختلف و غالباً مترادفی برای مفهوم داده‌های گم‌شده وجود دارد. این اصطلاحات عبارتند از داده‌های گم‌شده، داده‌های از دست رفته، داده‌های ناقص، و داده‌های بی‌پاسخ. در آمار، داده‌های گم‌شده یا مقدارهای گم‌شده زمانی رخ می‌دهند که هیچ مقدار داده‌ای برای یک متغیر در یک مشاهده ذخیره نشده باشد. داده‌ها
اغلب در تحقیقات اقتصادی، جامعه‌شناسی، و علوم سیاسی از بین می‌روند، زیرا دولت یا نهادهای خصوصی ممکن است گزارش‌های حساس را ناقص ارائه دهند، یا ممکن است برخی از افراد شرکت‌کننده در مطالعه از ادامۀ همکاری انصراف دهند، یا از پاسخ دادن به برخی از سؤالات اجتناب کنند، یا محققین، تکنسین‌ها، و جمع‌آوری‌کننده‌های داده‌ها ممکن است اشتباهاتی را انجام دهند که منجر به گم‌شدن داده‌ها شود. داده‌های گم‌شده می‌توانند باعث ایجاد اغتشاش در توزیع متغیر شوند، یعنی می‌توانند باعث بیش‌برازش یا کم‌برازش مدل‌ها شوند. داده‌های گم‌شده می‌توانند باعث یک سوگیری (اریبی) در مجموعه داده شوند و تجزیه و تحلیل آماری را به‌سوی نتایج اریب سوق داده و نهایتاً دستیابی به یک نتیجه‌گیری مفید از داده‌های جمع‌آوری شده را با مشکل مواجه سازند و می‌توانند منجر به تجزیه‌وتحلیل نادرست مدل شوند. پیش از این، برای غلبه بر مشکل داده‌های گم‌شده مرسوم‌ترین روش، حذف داده‌های گم‌شده بود که منجر به داده‌هایی با کیفیت پایین و به تبع آن تحلیل و استخراج نتایج دارای سوگیری می‌شد. امروزه با پیشرفت‌های علمی در حوزه‌های گوناگون و پیدایش روش‌های توانمند آماری، می‌توان پیش از مد‌ل‌سازی داده‌های ناکامل، مقادیر گم‌شده را با مقادیر مناسب جای‌گذاری یا برآورد کرد. با توجه به اهمیت گفته شدۀ در موضوع مواجهه و مدیریت داده‌های گم‌شده، پژوهش حاضر با هدف ارائۀ روشی برای بهبود دقت بازیابی اطلاعات و دانش از داده‌های گم‌شده انجام شده است.
روش: در روش پیشنهادی از تکنیک‌های داده‌کاوی شامل خوشه‌بندی و رگرسیون، و همچنین از الگوریتم‌های مکاشفه‌ای شامل الگوریتم ژنتیک استفاده شده است. در روش‌های موجود، برای جایگزینی دادۀ از دست رفته، از کل مجموعه داده استفاده می‌شود. این موضوع سبب در نظر گرفتن رکوردهای غیر مشابه رکورد مربوط به دادۀ از دست رفته خواهد شد. لذا منجر به نتایج اشتباه خواهد شد. در الگوریتم پیشنهادی، از خوشه‌بندی برای شناسایی رکوردهای مشابه استفاده شده است. سپس، برای هر خوشه، میزان داده‌های گم‌شدۀ هر صفت (ستون) از مجموعه داده محاسبه شده است. بر اساس میزان دادۀ از دست رفته، از مدل رگرسیون یا از الگوریتم ژنتیک برای بازیابی اطلاعات از دست رفته استفاده شده است.
یافته‌ها: نتایج پیاده‌سازی روش پیشنهادی بر روی یک مجموعه داده که حاوی داده‌های گم‌شده به صورت تصادفی بودند نشان داد میزان خطای الگوریتم پیشنهادی برابر 27 درصد است که نسبت به روش استفاده از میانگین، میانه؛ و مد که دارای خطای 56.5 درصد، و روش استفاده از رگرسیون که دارای خطای 34.6 درصد، و روش ماشین بردار پشتیبان (SVM) که دارای خطای 42.1 درصد بود، دقت بالاتری در جانهی داده‌های گم‌شده داشته است.
نتیجه‌گیری: در روش‌های موجود، برای جایگزینی دادۀ از دست رفته، از کل مجموعه داده استفاده می‌شود. این موضوع سبب در نظر گرفتن رکوردهای غیر مشابه رکورد مربوط به دادۀ از دست رفته خواهد شد. لذا منجر به نتایج اشتباه خواهد شد. در الگوریتم پیشنهادی، از خوشه‌بندی برای شناسایی رکوردهای مشابه، و محاسبۀ دادۀ از دست رفته بر اساس رکوردهای مشابه موجود در خوشه، استفاده شده است. همچنین، در الگوریتم پیشنهادی، حذف داده‌های پرت، تعیین تعداد خوشه‌های بهینه و غیره در نظر گرفته شده است. این موضوع سبب خواهد شد، داده‌های غیرعادی تأثیری در محاسبۀ داده‌های از دست رفته نداشته باشند. در الگوریتم پیشنهادی، برای هر خوشه، صفاتی (ستون‌ها) که بیش از یک سوم دادۀ از دست رفته دارند، حذف می‌شوند. این موضوع سبب جلوگیری از تأثیر داده‌های غیرقابل اطمینان در محاسبۀ داده‌های از دست رفته خواهد شد. همچنین، از مدل رگرسیون در خوشه استفاده می‌شود که سبب می‌شود در محاسبۀ داده‌های از دست رفته، فیلدهای مربوط در صفات (ستون‌های) دیگر نیز در نظر گرفته شوند. استفاده از الگوریتم ژنتیک در روش پیشنهادی، که منجر به استفادۀ تلفیقی از میانگین، میانه، مد، و مدل رگرسیون می‌شود، سبب دستیابی به نتایج قابل قبول‌تری خواهد شد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A Method to Information Retrieval from Missing Data Using Data Mining Techniques and Genetic Algorithm

نویسندگان [English]

  • Mohammad Moradi 1
  • Mojtaba Mazoochi 2
1 Assistant Professor, Department of Computer Engineering, Faculty of Engineering, Bozorgmehr University of Qaenat, Qaenat, Iran.
2 Assistant Professor, ICT Research Institute (ITRC), Tehran, Iran.
چکیده [English]

Purpose: In statistical literature, various terms—often used interchangeably—refer to the concept of missing data. These include missing data, lost data, incomplete data, nonresponse data, and others. In statistics, missing data or missing values occur when no data values are recorded for a variable in a given observation. Data are often lost in economic, sociological, and political science research because government or private entities may provide incomplete reports, some study participants may withdraw from participation or avoid answering certain questions, or researchers, technicians, and data collectors may make errors that result in data loss. Missing data can disrupt the distribution of variables, potentially causing model overfitting or underfitting. They can also introduce bias into a dataset, thereby skewing statistical analyses toward biased results and making it difficult to draw meaningful conclusions from the collected data. Moreover, they can lead to incorrect model analysis. Traditionally, the most common method for addressing missing data was simply to remove them, which resulted in low-quality datasets and consequently biased analyses and findings. Today, with scientific advances in various fields and the emergence of powerful statistical methods, missing values in incomplete datasets can be appropriately imputed or estimated prior to modeling. Given the importance of managing missing data, the present study aims to propose a method for improving the accuracy of information and knowledge retrieval from missing data.
Method: The proposed method employs data mining techniques, including clustering and regression, as well as heuristic algorithms such as genetic algorithms. In existing methods, the entire dataset is used to impute missing values. This approach often includes records that are dissimilar to the one with missing data, leading to inaccurate results. In the proposed algorithm, clustering is used to identify similar records. Then, for each cluster, the proportion of missing data for each attribute (column) is calculated. Based on this proportion, either a regression model or a genetic algorithm is applied to recover the missing data.
Findings: The implementation of the proposed method on a dataset with randomly missing data showed that the error rate of the algorithm was 27%. This rate was significantly lower than those of other methods: mean, median, and mode substitution methods (56.5%), the regression method (34.6%), and the support vector machine (SVM) method (42.1%). These results demonstrate higher accuracy in imputing missing data.
Conclusion: Existing methods use the entire dataset to replace missing values, which often leads to the inclusion of dissimilar records and consequently produces inaccurate results. The proposed algorithm addresses this issue by employing clustering to identify similar records and estimate missing data based on records within the same cluster. Additionally, the algorithm incorporates outlier removal, determination of the optimal number of clusters, and other refinements to ensure that abnormal data do not influence the estimation of missing values. Attributes (columns) with more than one-third missing data are removed to prevent unreliable data from affecting the estimation process. Furthermore, regression models within clusters consider related attributes when estimating missing values. The integration of a genetic algorithm, which combines mean, median, mode, and regression models, results in more reliable and accurate outcomes.

کلیدواژه‌ها [English]

  • Information recovery
  • Missing Data
  • Data Mining
  • Genetic Algorithm
  • Clustering
  • Regression Model
رشیدی‌نژاد، آ. (1394). مقایسه براورد میانگین جامعه بر اساس روش‌های جانهی نسبتی در آمارگیری‌های نمونه‌ای. نشریه بررسی‌های آمار رسمی ایران. 1(86)، 51-64.
باقی یزدل، ر.، جمالی، ا.، خدایی، ا.، حبیبی، م. (1395). روش‌های برخورد با داده‌های گم‌شده: مزایا، معایب، رویکردهای نظری و معرفی نرم‌افزارها. نامه آموزش عالی. 9(33)، 11-37.
فصیحی، ب.، عزیزی، ح.، قلیزاده گزور، ز. (1400). تحلیل پوششی داده‌ها با داده‌های گمشده. پژوهش‌های نوین در تصمیم‌گیری، 6(1)، 201-229.                                              https://doi.org/ 20.1001.1.24766291.1400.6.1.9.7
کاظمی، ا.، کریملو، م.، رهگذر، م. (1390). مروری بر داده‌های گم‌شده. مجله مطالعات ناتوانی. ۱(۱)،۴۷-۵۲.
https://doi.org/20.1001.1.23222840.1390.1.1.3.1
CAPTCHA Image