توسعه یک روش انتخاب مشخصه مبتنی بر نظریه اطلاعات و الگوریتم ژنتیک

نوع مقاله : مقاله پژوهشی

نویسندگان

1 کارشناس ارشد، دانشگاه صنعتی قم، قم، ایران

2 دانشیار ، گروه مهندسی صنایع، دانشکده فنی و مهندسی، دانشگاه قم

3 دانشجوی دکتری، دانشکده مهندسی صنایع، دانشگاه علم و صنعت ایران، تهران، ایران

چکیده

چکیده- این مجموعه داده‌ها علاوه بر داشتن مقادیر مفید، شامل داده‌های پرت، حشو ، مازاد و بی‌ربط نیز هستند. در مواجهه با مجموعه داده‌های با ابعاد بالا، کاهش ابعاد یک گام پیش‌پردازشی مهم برای حصول دقت بالا، کارایی و مقیاس‌پذیری در مسائل رده‌بندی است. در این مطالعه یک الگوریتم انتخاب مشخصه مبتنی بر یک معیار جدید، جهت تشخیص اطلاعات متقابل بین مشخصه ها و رده هدف پیشنهاد شده است. علاوه بر در نظر گرفتن معیار جدید اطلاعات متقابل، به منظور بهبود سرعت روش پیشنهادی، از یک الگوریتم فراابتکاری مبتنی بر الگوریتم ژنتیک استفاده شده است. روش پیشنهادی محدودیت‌های روش‌های انتخاب مشخصه پیشین که باعث انتخاب مشخصه‌های نامرتبط و حشو در زمان بالا می‌شود را کاهش داده و باعث افزایش دقت رده‌بند می‌شود. عملکرد این روش برروی مجموعه داده‌هایی با ابعاد مختلف، که تعداد مشخصه‌ها در آن‌ها از 13 تا 60 متفاوت بوده، ارزیابی شده است.ارزیابی روش پیشنهادی در مقایسه با روش‌های مشابه از لحاظ دقت رده‌بند بررسی شده و نتایج نویدبخشی حاصل شده است.

در این مطالعه یک روش انتخاب ‌مشخصه مبتنی بر معیار جدید محاسبه اطلاعات متقابل بین مشخصه های منتخب و مشخصه هدف پیشنهاد شده است. روش پیشنهادی محدودیت‌های روش‌های انتخاب مشخصه موجود که باعث انتخاب مشخصه‌های نامرتبط و حشو می‌شود را کاهش داده و باعث افزایش دقت رده‌بند می‌شود. در کنار این معیار، به منظور افزایش سرعت روش پیشنهادی، یک الگوریتم فراابتکاری مبتنی بر الگوریتم ژنتیک مورد استفاده قرار گرفته است. جهت بررسی کارایی، مجموعه داده‌های مختلف پایگاه UCI ابتدا برروی روش پیشنهادی و سپس برروی کلاسبندKNN اعمال شدند و نتایج مقایسه روش‌های مختلف از نقطه نظر دقت رده‌بند گزارش شده است که در سطح رضایت کننده ای قرار دارند.

در مواجهه با مجموعه داده‌های با ابعاد بالا، کاهش ابعاد یک گام پیش‌پردازشی مهم برای حصول دقت بالا، کارایی و مقیاس‌پذیری در اغلب مسائل اقتباس دانش از میان داده‌ها است. در این تحقیق برای کاهش ابعاد داده‌ها ابتدا رابطه‌ای ارائه شده است که می‌تواند روابط بین ویژگی‌ها و توابع هدف را مبتنی بر واقعیت در نظر بگیرد و از طرفی نیز پیچیدگی محاسبه را کاهش دهد. رابطه مذکور از روابط زیر مجموعه بهره اطلاعاتی است که در آن روابط بین ویژگی‌ها و تابع هدف به صورت مقایسات زوجی تشخیص داده می‌شود. همچنین با توجه به زمان‌بر بودن روش پیشنهادی در اابعاد بالا به دلیل افزایش تعداد ویژگی‌های اصلی و اولیه مسئله و افزایش مقایسات زوجی بین ویژگی‌ها و همچنین توابع هدف آن‌ها از یک الگوریتم فراابتکاری مبتنی الگوریتم ژنتیک استفاده شده است تا زمان انتخاب مشخصه‌های منتخب را کاهش دهد. پس از محاسبه معیار ارائه شده و تعیین ویژگی‌هایی که بیشترین تأثیر را در تشخیص مؤلفه هدف مسئله دارند، مشخصه‌های منتخب از مجموعه اصلی ویژگی‌ها تعیین می‌گردد. سپس ویژپی‌های انتخاب شده وارد رده‌بند KNN شده تا دقت رده‌بندی داد‌ه‌ها با ابعاد انتخاب شده تعیین و اعتبار‌سنجی گردد. روش پیشنهادی با روش‌های mRMR, DISR, JMI, NJMIM در مجموعه داده‌های متفاوت اعمال شده است. متوسط دقت‌های به دست آمده از خروجی‌های روش پیشنهادی 65.32 و 74.51 و 70.88 و 58.2 درصد می‌باشد که حاکی از کارآمدی روش پیشنهادی است. طبق نتایج به جز در مورد مجموعه داده sonar که نتیجه‌ای بهتر از روش پیشنهادی داشته است، متوسط عملکرد روش پیشنهادی بهتر از DISR, JMI, NJMIM و مشابه mRmRبوده است، در مورد مجموعه داده‌های دیگر متوسط دقت روش پیشنهادی بهتر از همه روش‌ها بوده است. روش پیشنهادی فوق می‌تواند با ترکیب با الگوریتم‌های یادگیری ماشین دارای عملکرد بهتری شود. همچنین می‌توان از ترکیب روش‌های فراابتکاری جهت بهبود مسئله استفاده کرد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A feature selection method based on information theory and genetic algorithm

نویسندگان [English]

  • mehdi jabbari 1
  • Jalal Rezaeenour 2
  • Amir Hossein Akbari 3
1 MSc. Qom university of technology, Qom. Iran
2 دانشیار ، گروه مهندسی صنایع، دانشکده فنی و مهندسی، دانشگاه قم
3 Phd Student, School of Industrial Engineering, Iran University of Science and Technology,, Tehran, Iran
چکیده [English]

Dealing with the high dimensional datasets, dimension reduction as a pre-processing approach can assist to provide high accuracy, efficiency and scaling procedure particularly in classification problems. In this study, an algorithm for feature selection based on the information theory has been proposed focusing on the dimensionality reduction in classification task. In this approach mutual information between candidate features and label class is measured by considering a new optimal metric. Next to the new MI metric, the meta heuristic algorithm based on genetic algorithm has been applied to increase the speed and efficiency of the proposed method. This approach is applied on the datasets with different dimensions from 13 to 60. The evaluation results show the promising results in term of classification accuracy in comparison with other similar methods. the proposed method has been studied with the mRMR, DISR, JMI, NJMIM data based and the gap between this data contrasted with proposed algorithm.

Dealing with the high dimensional datasets, dimension reduction as a pre-processing approach can assist to provide high accuracy, efficiency and scaling procedure particularly in classification problems. In this study, an algorithm for feature selection based on the information theory has been proposed focusing on the dimensionality reduction in classification task. In this approach mutual information between candidate features and label class is measured by considering a new optimal metric. Next to the new MI metric, the meta heuristic algorithm based on genetic algorithm has been applied to increase the speed and efficiency of the proposed method. This approach is applied on the datasets with different dimensions from 13 to 60. The evaluation results show the promising results in term of classification accuracy in comparison with other similar methods. the proposed method has been studied with the mRMR, DISR, JMI, NJMIM data based and the gap between this data contrasted with proposed algorithm.

Dealing with the high dimensional datasets, dimension reduction as a pre-processing approach can assist to provide high accuracy, efficiency and scaling procedure particularly in classification problems. In this study, an algorithm for feature selection based on the information theory has been proposed focusing on the dimensionality reduction in classification task. In this approach mutual information between candidate features and label class is measured by considering a new optimal metric. Next to the new MI metric, the meta heuristic algorithm based on genetic algorithm has been applied to increase the speed and efficiency of the proposed method. This approach is applied on the datasets with different dimensions from 13 to 60. The evaluation results show the promising results in term of classification accuracy in comparison with other similar methods. the proposed method has been studied with the mRMR, DISR, JMI, NJMIM data based and the gap between this data contrasted with proposed algorithm.

Dealing with the high dimensional datasets, dimension reduction as a pre-processing approach can assist to provide high accuracy, efficiency and scaling procedure particularly in classification problems. In this study, an algorithm for feature selection based on the information theory has been proposed focusing on the dimensionality reduction in classification task. In this approach mutual information between candidate features and label class is measured by considering a new optimal metric. Next to the new MI metric, the meta heuristic algorithm based on genetic algorithm has been applied to increase the speed and efficiency of the proposed method. This approach is applied on the datasets with different dimensions from 13 to 60. The evaluation results show the promising results in term of classification accuracy in comparison with other similar methods.

کلیدواژه‌ها [English]

  • Feature selection
  • Data pre-processing
  • Information theory
  • Genetic Algorithm
  • Classification
  • Data mining
CAPTCHA Image