مرور نظام‌مند کیفیت داده در فرایندکاوی

نوع مقاله : مقاله مروری

نویسندگان

1 دانشجوی دکتری، گروه مهندسی فناوری اطلاعات، دانشکده مهندسی صنایع و سیستم‌ها، دانشگاه تربیت مدرس، تهران، ایران

2 استاد، گروه مدیریت سیستم و بهره‌وری، دانشکده مهندسی صنایع و سیستم‌ها، دانشگاه تربیت مدرس، تهران، ایران.

3 دانشیار، گروه مهندسی صنایع، دانشکده مهندسی صنایع و سیستم‌ها، دانشگاه تربیت مدرس، تهران، ایران.

4 دانشیار، گروه مهندسی سیستم‌های اقتصادی و اجتماعی، دانشکده مهندسی صنایع و سیستم‌ها، دانشگاه تربیت مدرس، تهران، ایران.

چکیده

هدف: فرایندکاوی ارتباط میان دو زمینه داده‌کاوی و یادگیری ماشین، با رویکردهای مدیریت فرایند کسب‌وکار را فراهم می‌سازد. یک فرایند کسب‌وکار ترتیبی از فعالیت‌های مستقل و به هم مرتبط است، که در هنگام انجام هر کدام از فعالیت‌های پیش‌بینی شده، از یک یا چند منبع (شامل زمان، افراد، هزینه و ...) برای تبدیل ورودی‌ها (داده، مواد و ...) به خروجی‌های مورد نیاز استفاده می‌‌کند. با استفاده از روش‌های فرایندکاوی می‌‌توان رفتار حقیقی سازمان‌ها شامل عملکرد افراد، بخش‌ها و منابع را بررسی نمود. نتایج حاصل از فرایندکاوی که به صورت معمول شامل مدل‌های فرایند کسب‌وکار است را می‌‌توان با مستندات و الزامات سازمان‌ها مقایسه کرد. بدین‌سان امکان بررسی، نظارت و بهبود فرایندها امکان‌پذیر خواهد شد. مبنای عمل روش‌های فرایندکاوی براساس نگاره‌های رویداد ذخیره شده در سامانه‌های اطلاعاتی است. استفاده از فرایندکاوی بدون وجود داده‌های ورودی باکیفیت، به یافته‌هایی باورپذیر در مورد فرایندهای کسب‌وکار یک سازمان منجر نخواهد شد. از این‌رو در سال‌های گذشته ارزیابی و افزایش کیفیت داده‌های ورودی به روش‌های فرایندکاوی، مورد توجه پژوهشگران قرار گرفته است. در این راستا، هدف پژوهش حاضر شناخت و گروه‌بندی مهم‌ترین مشکلات کیفیت داده و بازشناخت رویکردهای ارائه شده برای حل این چالش در فرایندکاوی است.
روش‌: روش مورد استفاده در این پژوهش از نوع مرور نظام‌مند بوده که با هدف واکاوی همه شواهد معتبر، برای پاسخگویی به سوالات پژوهش مورد استفاده قرار گرفته است. در این مطالعه به بررسی و کاوش 102 مطالعه دانشگاهی در بین سال‌های 2007 تا 2021 میلادی پرداخته‌ شده است که شامل پژوهش‌های انتشار یافته در همایش‌ها، مجلات و همچنین تعدادی پایان‌نامه می‌باشند. بدین منظور از یک روش پژوهش نظا‌م‌مند سه بخشی استفاده شده است. در بخش اول که شامل تعریف پژوهش بوده، ابتدا زمینه پژوهش تعریف شده و سپس اهداف و پرسش‌های پژوهش مشخص شده‌اند. در گام نهایی این بخش، دامنه پژوهش تعیین گردیده است. در بخش دوم، روش‌شناسی پژوهش معین شده و معیارهایی برای وارد کردن مطالعات یافت شده به فرایند بررسی نهایی، مشخص شده‌اند. سپس این مطالعات از لحاظ ارجاعات مورد بررسی قرار گرفته و در پایان دسته‌بندی شده‌اند. در بخش سوم که به ارزیابی پژوهش‌های جمع‌آوری شده اختصاص یافته است، پژوهش‌های نهایی مطالعه شده و سپس بر مبنای کاوش آن‌ها، یافته‌ها و نتایج حاصل تعیین گردیده‌اند. با بررسی جامع پژوهش‌های گردآوری شده، داده‌ها و شواهد مهم استخراج گردیده و جداول و نمودارهای مورد نیاز نیز رسم شده‌اند.
یافته‌‌ها: براساس بررسی پژوهش‌های انجام شده، توجه به چالش‌های کیفیت داده در فرایندکاوی در سال‌های اخیر افزایش یافته است. بیشترین حجم از مطالعات در سال‌های 2019 و 2020 میلادی منتشر شده‌اند. همچنین مشخص شد که بیشتر مقالات به ترتیب در سه پایگاه علمی Springer، IEEE و Elsevier انتشار یافته‌اند. 51 درصد از مطالعات مورد بررسی در همایش‌ها و کنفرانس‌های معتبر ارائه شده‌اند. 36 درصد از پژوهش‌ها در مجلات معتبر علمی انتشار یافته و 13 درصد از مطالعات از طریق پایان‌نامه‌ها و گزارشات دانشگاهی انعکاس یافته‌اند. برآیندهای حاصل از مطالعه مقالات منتخب نشان داد که 20 مشکل کیفیت داده که می‌توانند در داده‌های ورودی پدید آیند، در ادبیات مورد کنکاش قرار گرفته‌اند. این چالش‌ها در پنج سطح مسیر فرایند، رویداد، مورد، فعالیت و برچسب زمانی طبقه‌بندی شده و چهار رویکرد بنیادین که برای ارزیابی و حل چالش‌های کیفیت داده در فرایندکاوی به کار گرفته شده‌اند، مشخص گردیدند که شامل: چارچوب‌های ارزیابی کیفیت داده، پیش‌پردازش، کشف ناهنجاری، و ترمیم می‌باشند. یافته‌ها نشان می‌دهد که روش‌های پیش‌پردازش که هدف آن‌ها حذف رفتارهای آشفته و کم تکرار از داده‌های ورودی است، بیشتر از دیگر رویکردها مورد توجه واقع شده‌اند. همچنین در سال‌های اخیر کشف ناهنجاری‌ و بازسازی رویدادهای گمشده به جستاری جذاب در زمینه فرایندکاوی تبدیل شده‌اند. یکی دیگر از نتایج مهم، بررسی مطالعات مربوط به زمینه کیفیت داده در فرایندکاوی، استفاده از حجم وسیعی از رویکردها و روش‌ها برای حل چالش‌های کیفیت داده است. بررسی‌ها نشان داد که استفاده از شبکه‌های پتری، نقش پر رنگی در همه پژوهش‌های منتخب به عنوان یک رهیافت ریاضی مد نظر پژوهشگران داشته است.
نتیجه‌گیری: داده‌های مورد نیاز روش‌های فرایندکاوی می‌تواند از مکان‌های مختلفی به دست آید. یکی از مزایای بزرگ فرایندکاوی این است که مختص به یک نوع سامانه خاص نیست. هر سامانه مبتنی بر گردش کار، فروش بلیط، مدیریت منابع‌، پایگاه و انبارهای داده، سامانه‌های قدیمی و حتی داده‌هایی که به صورت دستی جمع‌آوری شده‌اند، تا زمانی که با استفاده از ویژگی‌های شناسه مورد، فعالیت و برچسب زمانی قابل تفکیک باشند، قابل تجزیه و تحلیل هستند. اما در مسائل دنیای واقعی، بیشتر داده‌ها برای اهداف فرایندکاوی جمع‌آوری نشده‌اند یا مناسب استفاده برای تحلیل‌های فرایندکاوی نیستند. به خصوص داده‌هایی که به صورت دستی ثبت شده‌اند یا داده‌هایی که در بین سامانه‌های جزیره‌ای مختلف پراکنده‌ شده‌اند، می‌توانند حاوی خطا باشند. با وجود تلاش‌های مناسب برای بهبود کیفیت داده‌های ورودی در فرایندکاوی، همچنان توسعه چارچوب‌ها و روش‌های کارآمد با هدف شناسایی، ارزیابی و حل چالش‌های کیفیت داده در فرایندهای کسب‌وکار واقعی که بیشتر اوقات از حجم و پیچیدگی بالایی برخوردارند، پیشنهاد می‌گردد. نتایج این پژوهش می‌تواند به عنوان دورنمایی جدید برای پژوهشگران و متخصصان علم داده و تحلیل‌گران کسب‌وکار مورد استفاده قرار گیرد.
 

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Data Quality in Process Mining: A Systematic Review

نویسندگان [English]

  • Ahmad Salehi 1
  • Mohammad Aghdasi 2
  • Toktam Khatibi 3
  • Majid SheikhMohammadI 4
1 Ph.D., Student, Department of Information Technology Engineering, Faculty of Industrial and Systems Engineering, Tarbiat Modares University, Tehran, Iran
2 Professor, Department of Systems and Productivity Management. Faculty of Industrial and Systems Engineering, Tarbiat Modares University, Tehran, Iran
3 Associate Professor, Department of Industrial Engineering, Faculty of Industrial and Systems Engineering, Tarbiat Modares University, Tehran, Iran
4 Associate Professor, Department of Socio-economic Systems, Faculty of Industrial and Systems Engineering, Tarbiat Modares University, Tehran, Iran.
چکیده [English]

Purpose: Process mining connects the disciplines of data mining and machine learning to business process management techniques. A business process is a series of independent and interdependent activities that transform inputs (data, materials, etc.) using one or more resources (such as time, employees, and money). It utilizes the necessary outputs. It is possible to examine the actual behavior of organizations, including the performance of individuals, departments, and resources, using process analysis techniques. The results of the process analysis, which typically includes the organization's business process models, can be compared to the organization's documents and requirements. Thus, processes will be able to be compared, reviewed, monitored, and enhanced. Process mining methods operate based on event logs stored in information systems. Using process mining without high-quality input data will not result in accurate conclusions about an organization's business processes. In recent years, researchers have focused on the evaluation and enhancement of the quality of input data using process mining techniques. The objective of this study is to identify and categorize the most significant data quality issues, as well as recognize the approaches proposed to address this challenge in process mining.
Methods: This research employs a systematic review with the intent of analyzing all valid evidence in order to answer the research questions. This study investigates 102 academic studies published between 2007 and 2021, including conference papers, journal articles, and theses. Towards this end, a systematic three-part research methodology was employed. In the first section, which included the research definition, the research field was defined first, followed by the research objectives and queries. In the concluding step of this section, the research's scope is defined. In the second section, the research methodology and entry criteria for the studies discovered during the search for scientific resources are defined. Finally, the identified studies are evaluated in terms of their citations and classified. In the third section, which is devoted to the evaluation of the research, the concluding research of the study is conducted, and then, based on the investigation of the preceding studies, the findings and conclusions are determined. Important data and evidence were extracted from the collated research, allowing for the creation of the necessary tables and graphs.
Findings: In recent years, researchers have paid more attention to data quality challenges in the process mining, according to the findings of recent research. In 2019 and 2020, the greatest number of studies will have been published. It was also discovered that the majority of articles were published in three scientific databases, namely Springer, IEEE, and Elsevier. 51% of the studies examined were presented at prestigious conferences. 36% of the studies were published in prestigious scientific journals, while the remaining 13% were represented in dissertations and university reports. The study of the selected articles revealed that 20 data quality issues that can arise in the input data have been investigated in the literature. These challenges have been categorized into five levels: trace, event, case, activity, and timestamps, and four foundational approaches have been identified that have been used to evaluate and resolve data quality challenges in the mining process. 1) data quality frameworks 2) preprocessing 3) anomaly detection 4) repair. Our findings indicate that preprocessing techniques that seek to remove chaotic and infrequent behaviors from the event log have received more attention than other techniques. In addition, these results demonstrate that, in recent years, the discovery of anomalies and the reconstruction of missing events have become popular research topics within the field of process mining. Examining studies related to the field of data quality in the data mining process reveals an abundance of approaches and methods for addressing data quality challenges. Investigations revealed that the use of colorful Petri nets as a mathematical method has been considered in all selected research projects.
Conclusions: The data needed for process mining methods can be obtained from various sources. One of the major advantages of process mining is that it is not limited to a specific type of system. Any workflow-based system, such as ticketing, resource management, databases, data warehouses, legacy systems, and even manually collected data, can be analyzed as long as it can be separated using case ID, activity, and timestamp attributes. In real-world scenarios, most data is not collected for process mining purposes or is unsuitable for use in process mining analyses. Especially data that is recorded manually or scattered among various isolated systems can contain errors. Despite the efforts made to improve the quality of input data in the mining process, it is still necessary to develop efficient frameworks and methods to identify, evaluate, and address data quality challenges in real business processes, which are often characterized by high volume and complexity. The results of this research can offer a fresh perspective for researchers, data science specialists, and business analysts.
 

کلیدواژه‌ها [English]

  •  Information Systems
  • Business Process Management
  • Process Mining
  • Data Quality
  • Event Log
حسینی، س.، مصلح، ع.، حسینی، م. (1397). تحلیل فرآیندهای الکترونیکی با استفاده از تکنیک فرآیندکاوی (مورد مطالعه: فرآیند ترفیع پایه اعضای هیئت علمی دانشگاه خلیج فارس). چشم‌انداز مدیریت صنعتی، 8(29): 113-135.
خجسته، ف.، کاهانی، م.، بهکمال، ب. (1399) شناسایی رانش مفهومی در نگاره‌های فرایند کسب‌وکار با استفاده از یادگیری عمیق. پردازش علائم و داده‌ها، ۱۷(۴): ۴۸-۳۳.
خدیور، آ.، فیروزی، ف.، نیاکان، ل. (1399). ارزیابی ریسک و بررسی انطباق با قواعد کسب وکار در بیمه با کمک تکنیک فرایندکاوی مطالعه موردی: فرایند خسارت بیمه شخص ثالث. پژوهشنامه بیمه (صنعت بیمه)، 35(2): 65-33.
خوش‌خوی‌نیلاش، ‌ا.، تمجید‌یامچلو، ع.، راد، ‌ر. (1400). تحلیل عملکرد و بهبود فرایندهای ارائه تسهیلات سرمایه در گردش بانک صنعت و معدن با رویکرد فرایندکاوی. مطالعات مدیریت کسب و کار هوشمند، 36(1): 39-70.
شامی زنجانی، م.، نبیبی، ف.، ایران دوست، ش. (1399). ناخدایی دیجیتال: راهنمای تحول سازمان‌ها در عصر دیجیتال. تهران: انتشارات آریانا قلم.
علیزاده، ف.، هادوی‌نژاد، م. (1398). فرایندکاوی نخبه‌ستیزی در سازمان براساس طرح نگاشت تفسیری نظریه داده‌بنیاد. پژوهش‌های مدیریت منابع سازمانی، 9(1): 165-183.
مصطفایی دولت‌آباد، خ.، آذر، ع.، مقبل باعرض، ع.، پرویزیان، ک. (1398). ارزیابی فرایندکاوی در کشف مدل فرایندهای نیمه اتوماتیک صنعت بانکداری (مورد مطالعه فرایند صدور ضمانت‌نامه بانکی). مطالعات مدیریت صنعتی، 17(52): 1-37.
ون در آلست، و. (1394). فرایندکاوی: کشف، تطبیق و بهبود فرایندهای کسب‌وکار. ترجمه س.ح. سیادت و ر. همتی گشتاسب. تهران: دانشگاه شهید بهشتی.
CAPTCHA Image