ارزیابی کیفیت پایگاههای داده علمی با استفاده از الگوریتمهای هوش مصنوعی: مطالعه موردی پایگاههای فارسی و بین المللی

نوع مقاله : مقاله پژوهشی

نویسنده

عضو هیات علمی دانشگاه قم

چکیده

پایگاههای داده علمی به عنوان یکی از مهمترین اجزای زیرساخت اطلاعاتی نظام علمی و پژوهشی ، نقش تعیین کننده ای در تولید، سازماندهی، بازیابی و ارزیابی دانش ایفا می کنند. این پایگاهها مبنای انجام پژوهش های علمی، تحلیل های علم سنجی ، ارزیابی عملکرد پژوهشگران و نهادهای علمی و همچنین تدوین سیاستهای کلان علمی در سطح ملی و بین المللی هستند. کیفیت داده‌ها ، و فراداده های ثبت شده در این پایگاهها تاثیر مستقیمی بر اعتبار نتایج پژوهش‌ها ، دقت تحلیل های کمی علم سنجی و اثر بخشی تصمیم گیری های مبتنی بر شواهد دارد. با توجه به رشد فزاینده تولیدات علمی ، افزایش تنوع منابع اطلاعاتی و گسترش پایگاههای داده فارسی و بین المللی ، نیاز به رویکردهای نظام مند ، دقیق ، عینی و مقیاس پذیر برای ارزیابی کیفیت این پایگاهها بیش از پیش احساس می شود. .روشهای سنتی ارزیابی کیفیت پایگاههای داده که عمدتا مبتنی بر قضاوتهای انساتی و بررسی های محدود نمونه ای هستند به دلیل حجم بالای داده ها و پیچیدگی ساختار اطلاعاتی ، کارایی و دقت لازم را ندارند.

هدف: هدف اصلی این پژوهش توسعه چارچوبی نوین و علمی مبتنی بر الگوریتمهای هوش مصنوعی برای ارزیابی کیفیت پایگاههای داده علمی است . این پژوهش می‌کوشد با شناسایی و تحلیل نقاط قوت وضعف پایگاههای داده فارسی در مقایسه با پایگاههای بین المللی معتبر ضمن ارائه تصویری روشن از وضعیت موجود ، راهکارهایی علمی برای ارتقای کیفیت خدمات اطلاعاتی این پایگاهها ارائه دهد و چارچوبی قابل استناد برای استفاده پزوهشگران ، مدیران پایگاهها و سیاستگذاران حیطه علم سنجی فراهم نماید.

روش: پژوهش حاضر از نظر هدف کاربردی و از نظر ماهیت و روش توصیفی – تحلیلی است. جامعه پژوهش شامل پایگاههای داده علمی فارسی و بین الملل فعال در حوزه نمایه سازی و اشاعه تولیدات علمی است.در این پژوهش پایگاههای داده فارسی شامل پایگاه اطلاعات علمی جهاد دانشگاهی ( SID) ، مگ ایران و نورمگز و پایگاههای بین المللی شامل Scopus, Web of science به عنوان نمونه‌ ‌های مورد بررسی انتخاب شدند.داده های پژوهش از طریق استخراج رکوردهای کتابشناختی و فراداده های مرتبط با مقالات علمی موجود در این پایگاه گردآوری شد. به منظور ارزیابی کیفیت پایگاهها مجموعه ای از شاخص های کلیدی کیفیت شامل دقت، داده ها ، جامعیت اطلاعات ، انسجام و استاندارد سازی فراداده ، به روز بودن داده ها ، قابلیت بازیابی اطلاعات ، و نرخ داده های تکراری تعیین شد .برای تحلیل داده ها و ارزیابی عینی شاخص ها از الگوریتمهای هوش مصنوعی و یادگیری ماشین به منظور تحلیل خطاهای فراداده ، شناسایی رکوردهای تکراری ، ارزیابی همسانی اطلاعات توصیفی و سنجش کارایی بازیابی اطلاعات استفاده شد. به کارگیری این رویکرد ها امکان پردازش حجم بالای داده ها ، کاهش دخالت قضاوت انسانی و افزایش دقت و مقیاس پذیری فرایند ارزیابی کیفیت را فراهم نمود



یافته‌ها: یافته‌های پژوهش نشان داد که پایگاههای بین المللی در اغلب شاخص های کیفیت عملکرد مطلوب تری دارند. به طور مشخص میانگین دقت داده ها در پایگاه اسکوپوس برابر با 96 درصد و در وب آو ساینس حدود 95 درصد برآورد شد در حالی که این شاخص ها در پایگاههای فارسی به طور میانگین 85 درصد بود. از نظر انسجام فراداده ، پایگاههای بین المللی امتیاز 94 درصد را کسب کرند، در حالی که این امتیاز برای پایگاههای فارسی 80 درصد گزارش شد. همچنین نرخ داده های تکراری در پایگاههای فارسی به طور متوسط5 درصد برآورد گردیددر حالی که این میزان در پایگاههای بین المللی کمتر از 2 درصد بود. در شاخص به روز بودن اطلاعات نیز پایگاههای بین المللی با میانگین تاخیر زمانی کمتر از سه ماه عملکرد بهتری نسبت به پایگاههای فارسی با تاخیر 5 ماهه داشتند.



نتیجه‌گیری:پژوهش حاضر نشان می دهد که استفاده از الگوریتمهای هوش مصنوعی می تواند ابزار موثری برای ارزیابی عینی و مقیاس پذیر کیفیت پایگاههای داده علمی باشد . اگرچه پایگاههای فارسی نقش مهمی در دسترسی به تولیدات علمی بومی ایفا می کنند ، اما برای دستیابی به استانداردهای بین المللی نیازمند بهبود در ساختار فراداده ، کاهش خطاهای اطلاعاتی ، تسریع فرایند به روز رسانی و به کارگیری گسترده فناوریهای هوشمند هستند. چارچوب ارائه شده در این پژوهش می تواند به عنوان مبنایی علمی برای انتخاب بهینه پایگاههای داده توسط پژوهشگران و نیز بهبود سیاستگذاریهای اطلاعات علمی مورد استفاده قرار گیرد. به کارگیری این چارچوب می تواند به بهبود کیفیت فراداده ، کاهش خطاها، و داده های تکراری ، افزایش قابلیت بازیابی اطلاعات و در نهایت اعتبار و کارآمدی پایگاههای داده علمی به ویژه پایگاههای فارسی منجر شود. این پژوهش بر ضرورت سرمایه گذاری هدفمند در توسعه زیرساختهای هوشمند اطلاعاتی و بهره گیری از فناوریهای نوین در مدیریت دانش علمی تاکید می کند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Evaluation of the quality of scientific database using Artificial intelligence Algorithm: A case study of Persian and international database

نویسنده [English]

  • Tahereh Gholami
Department of Knowledge and Information Science, Faculty of Literature and Humanities, University of Qom
چکیده [English]

of intelligent information infrastructures and the use of new technologies in scientific Scientific databases, as one of the most important components of the information infrastructure of the scientific and research system, play a decisive role in the production, organization, retrieval, and evaluation of knowledge. These databases are the basis for conducting scientific research, scientometric analyses, evaluating the performance of researchers and scientific institutions, and formulating macro-scientific policies at the national and international levels. The quality of data and metadata recorded in these databases has a direct impact on the validity of research results, the accuracy of quantitative scientometric analyses, and the effectiveness of evidence-based decision-making. Given the increasing growth of scientific production, the increasing diversity of information sources, and the expansion of Persian and international databases, the need for systematic, accurate, objective, and scalable approaches to assess the quality of these databases is increasingly felt. Traditional methods for assessing the quality of databases, which are mainly based on human judgments and limited sample surveys, do not have the necessary efficiency and accuracy due to the large volume of data and the complexity of the information structure.

Objective: The main objective of this research is to develop a new and scientific framework based on artificial intelligence algorithms for assessing the quality of scientific databases. This study attempts to identify and analyze the strengths and weaknesses of Persian databases in comparison with reputable international databases, while providing a clear picture of the current situation, and to provide scientific solutions for improving the quality of information services of these databases and to provide a reliable framework for use by researchers, database managers, and policymakers in the field of scientometrics.



Method: The present study is applied in terms of its purpose and descriptive-analytical in terms of its nature and method. The research community includes Persian and international scientific databases active in the field of indexing and dissemination of scientific products. In this study, Persian databases including the Scientific Information Database of the Academic Jihad (SID), Mag Iran, and Normags, and international databases including Scopus and Web of Science were selected as the samples under study. Research data were collected by extracting bibliographic records and metadata related to scientific articles available in this database. In order to assess the quality of the databases, a set of key quality indicators were determined, including accuracy, data, information comprehensiveness, metadata consistency and standardization, data up-to-dateness, information retrieval capability, and duplicate data rate. For data analysis and objective evaluation of the indicators, artificial intelligence and machine learning algorithms were used to analyze metadata errors, identify duplicate records, evaluate the similarity of descriptive information, and measure the efficiency of information retrieval. The use of these approaches enabled the processing of large volumes of data, reduced the interference of human judgment, and increased the accuracy and scalability of the quality assessment process.



Findings: The findings of the study showed that international databases perform better in most quality indicators. Specifically, the average data accuracy in Scopus was estimated to be 96 percent and in Web of Science to be about 95 percent, while these indicators were on average 85 percent in Persian databases. In terms of metadata integrity, international databases scored 94 percent, while this score was reported to be 80 percent for Persian databases. Also, the rate of duplicate data in Persian databases was estimated to be 5 percent on average, while this rate was less than 2 percent in international databases. In the information up-to-dateness index, international databases with an average time delay of less than three months performed better than Persian databases with a 5-month delay.

Conclusion: The present study shows that the use of artificial intelligence algorithms can be an effective tool for objective and scalable assessment of the quality of scientific databases. Although Persian databases play an important role in accessing local scientific productions, they need to improve the metadata structure, reduce information errors, accelerate the update process, and widely use smart technologies to achieve international standards. The framework presented in this study can be used as a scientific basis for the optimal selection of databases by researchers and also to improve scientific information policies. The application of this framework can lead to improved metadata quality, reduced errors and duplicate data, increased data retrieval capabilities, and ultimately the credibility and efficiency of scientific databases, especially Persian databases. This study emphasizes the need for targeted investment in the development knowledge management.

کلیدواژه‌ها [English]

  • : Quality assessment
  • scientific databases
  • artificial intelligence
  • machine learning
  • Persian databases
  • international databases
  • scientometrics
CAPTCHA Image