روشی به‌منظور بازیابی اطلاعات از داده‌های گم‌شده با استفاده از تکنیک‌های داده‌کاوی و الگوریتم ژنتیک

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه بزرگمهر قائنات، قائنات، ایران.

2 استادیار، پژوهشگاه ارتباطات و فناوری اطلاعات، تهران، ایران.

10.22091/stim.2024.10668.2092

چکیده

چکیده

هدف: در ادبیات آماری، اصطلاحات مختلف و غالباً مترادفی برای مفهوم داده‌های گم‌شده وجود دارد. این اصطلاحات عبارتند از داده‌های گم‌شده، داده‌های از دست رفته، داده‌های ناقص و داده‌های بی‌پاسخ. در آمار، داده‌های گم‌شده یا مقدارهای گم‌شده زمانی رخ می‌دهد که هیچ مقدار داده‌ای برای یک متغیر در یک مشاهده ذخیره نشده باشد. داده‌ها اغلب در تحقیقات اقتصادی، جامعه‌شناسی و علوم سیاسی از بین می‌روند، زیرا دولت یا نهادهای خصوصی ممکن است گزارش‌های حساس را ناقص ارائه دهند، یا ممکن است برخی از افراد شرکت‌کننده در مطالعه از ادامه همکاری انصراف دهند، یا از پاسخ دادن به برخی از سوالات اجتناب کنند، یا محققین، تکنسین‌ها و جمع‌آوری‌کننده داده‌ها ممکن است اشتباهاتی را انجام دهند که منجر به گم‌شدن داده‌ها شود. داده‌های گم‌شده می‌توانند باعث ایجاد اغتشاش در توزیع متغیر شوند، یعنی می‌توانند باعث بیش‌برازش یا کم‌برازش مدل‌ها شوند. داده‌های گم‌شده می‌توانند باعث یک سوگیری (اریبی) در مجموعه داده شوند و بنابراین تجزیه و تحلیل آماری را به‌سوی نتایج اریب سوق داده و نهایتاً دستیابی به یک نتیجه‌گیری مفید از داده‌های جمع‌آوری شده را با مشکل مواجه می‌سازد و می‌توانند منجر به تجزیه‌وتحلیل نادرست مدل شوند. پیش از این، برای غلبه بر مشکل داده‌های گم‌شده مرسوم‌ترین روش، حذف داده‌های گم‌شده بود که منجر به داده‌هایی با کیفیت پایین و به تبع آن تحلیل و استخراج نتایج دارای سوگیری می‌شد. امروزه با پیشرفت‌های علمی در حوزه‌های گوناگون و پیدایش روش‌های توانمند آماری، می‌توان پیش از مد‌ل‌سازی داده‌های ناکامل، مقادیر گم‌شده را با مقادیر مناسب جایگذاری یا برآورد کرد. با توجه به اهمیت ذکر شده موضوع مواجهه و مدیریت داده‌های گم‌شده، پژوهش حاضر با هدف ارائه روشی به‌منظور بهبود دقت بازیابی اطلاعات و دانش از داده‌های گم‌شده انجام شده است.

روش: در روش پیشنهادی از تکنیک‌های داده کاوی شامل خوشه‌بندی و رگرسیون، و همچنین از الگوریتم‌های هیوریستیک شامل الگوریتم ژنتیک استفاده شده است. در روش‌های موجود، برای جایگزینی داده از دست رفته، از کل مجموعه داده استفاده می‌شود. این موضوع سبب در نظر گرفتن رکوردهای غیر مشابه رکورد مربوط به داده از دست رفته خواهد شد. لذا منجر به نتایج اشتباه خواهد شد. در الگوریتم پیشنهادی، از خوشه‌بندی به منظور شناسایی رکوردهای مشابه استفاده شده است. سپس، برای هر خوشه، میزان داده‌های گم‌شده هر صفت (ستون) از مجموعه داده مورد محاسبه قرار گرفته است. بر اساس میزان داده از دست رفته، از مدل رگرسیون یا از الگوریتم ژنتیک به‌منظور بازیابی اطلاعات از دست رفته استفاده شده است.

یافته‌ها: نتایج پیاده‌سازی روش پیشنهادی بر روی یک مجموعه داده که حاوی داده‌های گم‌شده به صورت تصادفی بودند نشان داد میزان خطای الگوریتم پیشنهادی برابر 27 درصد است که نسبت به روش استفاده از میانگین، میانه و مد که دارای خطای 56.5 درصد، و روش استفاده از رگرسیون که دارای خطای 34.6 درصد، و روش ماشین بردار پشتیبان (SVM) که دارای خطای 42.1 درصد بود، دقت بالاتری در جانهی داده‌های گم‌شده داشته است.

نتیجه‌گیری: در روش‌های موجود، برای جایگزینی داده از دست رفته، از کل مجموعه داده استفاده می‌شود. این موضوع سبب در نظر گرفتن رکوردهای غیر مشابه رکورد مربوط به داده از دست رفته خواهد شد. لذا منجر به نتایج اشتباه خواهد شد. در الگوریتم پیشنهادی، از خوشه‌بندی به منظور شناسایی رکوردهای مشابه، و محاسبه داده از دست رفته بر اساس رکوردهای مشابه موجود در خوشه، استفاده شده است. همچنین، در الگوریتم پیشنهادی، حذف داده‌های پرت، تعیین تعداد خوشه‌های بهینه و غیره در نظر گرفته شده است. این موضوع سبب خواهد شد، داده‌های غیر عادی تاثیری در محاسبه داده‌های از دست رفته نداشته باشند. در الگوریتم پیشنهادی، برای هر خوشه، صفاتی (ستون‌ها) که بیش از یک سوم داده از دست رفته دارند حذف می‌شوند. این موضوع سبب جلوگیری از تاثیر داده‌های غیر قابل اطمینان در محاسبه داده‌های از دست رفته خواهد شد. همچنین، از مدل رگرسیون در خوشه استفاده می‌شود که سبب می‌شود در محاسبه داده‌های از دست رفته، فیلدهای مربوط در صفات (ستون‌های) دیگر نیز در نظر گرفته شود. استفاده از الگوریتم ژنتیک در روش پیشنهادی، که منجر به استفاده تلفیقی از میانگین، میانه، مد و مدل رگرسیون می‌شود، سبب دستیابی به نتایج قابل قبول‌تری خواهد شد.

کلیدواژه‌ها: بازیابی اطلاعات، داده‌های گم‌شده، داده‌کاوی، الگوریتم ژنتیک، خوشه‌بندی، مدل رگرسیون.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A Method to Information Retrieval from Missing Data Using Data Mining Techniques and Genetic Algorithm

نویسندگان [English]

  • Mohammad Moradi 1
  • Mojtaba Mazoochi 2
1 Assistant Professor, Department of Computer Engineering, Faculty of Engineering, Bozorgmehr University of Qaenat, Qaenat, Iran.
2 Assistant Professor, ICT Research Institute (ITRC), Tehran, Iran.
چکیده [English]

Abstract

Purpose: In the statistical literature, there are different and often synonymous terms for the concept of missing data. These terms include missing data, incomplete data, etc. In statistics, missing data or missing values occur when no data values are stored for a variable in an observation. Data are often lost in economic, sociological, and political science research because government or private entities may provide sensitive reports incompletely, or some study participants may refuse to continue cooperating, or may not respond to some questions, or researchers, technicians, and data collectors may make mistakes that result in missing data. Missing data can cause disturbance in the distribution of the variable, that is, it can cause models to overfit or underfit. Missing data can cause a bias in the data set and therefore lead the statistical analysis to biased results and ultimately make it difficult to reach a useful conclusion from the collected data and can lead to incorrect analysis of the model. Previously, to overcome the problem of missing data, the most common method was to remove missing data, which led to low-quality data and, as a result, biased analysis. Today, with scientific advances in various fields and the emergence of powerful statistical methods, it is possible to substitute or estimate missing values with appropriate values before modeling incomplete data. Considering the mentioned importance of the issue of exposure and management of missing data, the present research was done with the aim of providing a method to improve the accuracy of information and knowledge retrieval from missing data.

Method: In the proposed method, data mining techniques including clustering and regression, as well as heuristic algorithms including genetic algorithm are used. In the existing methods, the whole data set is used to retrieval the missing data. This issue will cause the consideration of records that are not similar to the record related to the missing data. Therefore, it will lead to wrong results. In the proposed algorithm, clustering is used to identify similar records. Then, for each cluster, the amount of missing data of each attribute (column) of the data set has been calculated. Based on the amount of missing data, a regression model or a genetic algorithm has been used to retrieval the missing data.

Findings: The results of the implementation of the proposed method on a data set that contained randomly missing data showed that the error rate of the proposed algorithm is 27%, compared to the method of using the mean, median, and mode, which has an error of 56.5%, and the method of using regression, which has an error of 34.6%, and the support vector machine (SVM) method, which has an error of 42.1%, has a higher accuracy in missing data.

Conclusion: In the existing methods, the entire data set is used to retrieval the missing data. This issue will cause the consideration of records that are not similar to the record related to the missing data. Therefore, it will lead to wrong results. In the proposed algorithm, clustering is used to identify similar records, and to calculate missing data based on similar records in the cluster. Also, in the proposed algorithm, outlier data removal, determining the number of optimal clusters, etc. are considered. This issue will cause abnormal data to have no effect on the calculation of missing data. In the proposed algorithm, for each cluster, attributes (columns) that have more than one third of missing data are removed. This issue will prevent the influence of unreliable data in the calculation of missing data. Also, the regression model is used in the cluster, which causes the relevant fields in other attributes (columns) to be considered in the calculation of missing data. The use of genetic algorithm in the proposed method, which leads to the combined use of mean, median, mode and regression model, will lead to more acceptable results.



Keywords: Information Retrieval, Missing Data, Data Mining, Genetic Algorithm, Clustering, Regression Model.

کلیدواژه‌ها [English]

  • Information Retrieval
  • Missing Data
  • Data Mining
  • Genetic Algorithm
  • Clustering
  • Regression Model
CAPTCHA Image