بررسی راهکارهای جستجو و بازیابی معنایی متون فارسی و عربی

نوع مقاله : مقاله پژوهشی

نویسنده

استادیار، گروه اشاعه اطلاعات و تبادل دانش، پژوهشگاه علوم و فرهنگ اسلامی، قم، ایران.

10.22091/stim.2024.10402.2067

چکیده

هدف: در دهه‌های اخیر، موتورهای جستجوی وب به یکی از ابزارهای برجسته و ضروری برای به دست آوردن اطلاعات در جهان متصل شده امروزی تبدیل شده‌اند. با افزایش حجم اطلاعات موجود در وب، نیاز به یافتن و دسترسی به اطلاعات مرتبط و معنادارتر افزایش یافته است. اما موتورهای جستجوی سنّتی، معمولاً براساس تطابق کلمات کلیدی و تعداد ورودی‌های مشابه در متن‌ها، نتایج را بازیابی می‌کنند. این روش، در بسیاری از موارد به نتایج ناخوشایند و غیرمرتبط منجر می‌شود. در زبان فارسی و عربی نیز این مشکلات به دلیل وجود دستور زبان پیچیدۀ آن که در بین کلمات وجود دارد و برای ماشین قابل درک نیست، بیشتر وجود دارد. در این راستا، هدف پژوهش حاضر بررسی و ارائه راهکارهای جستجو و بازیابی معنایی متون فارسی و عربی است.
روش: تحقیق حاضر از نوع تحلیل محتوا بوده و برای گردآوری داده‌ها از روش کتابخانه‌ای استفاده شده است. به منظور جمع‌آوری اطلاعات و دستیابی به منابع مورد نیاز، از منابع مختلفی ازجمله مقالات علمی، کتب، پایان‌نامه‌ها و گزارش‌ها استفاده گردید. برای جمع‌آوری مقالات فارسی، منابعی با تاریخ انتشار از سال 1398، و برای جمع‌آوری مقالات انگلیسی، منابعی با تاریخ انتشار از سال 2020 به بعد مورد استفاده قرار گرفتند. برای تحلیل داده‌های جمع‌آوری شده، از روش تحلیل محتوا استفاده شد. با استفاده از روش‌های تحلیل و تفسیر داده‌ها، نتایج حاصل از مطالعات پیشین و یافته‌های جدید تحقیق مورد بررسی و ارزیابی قرار گرفت. این ارزیابی شامل شناسایی مشکلات و محدودیت‌های موجود در موتورهای جستجوی معنایی و ارائه پیشنهادها برای بهبود عملکرد آن‌ها است.
یافته‌ها: در پژوهش‌های جستجوی معنایی و بازیابی اطلاعات در متون فارسی و عربی، روش‌های مبتنی بر تحلیل و پردازش معنایی متون با استفاده از مدل‌های زبانی پیش‌آموزش دیده، الگوریتم‌های خوشه‌بندی مانند K-Means و منابع دانش مانند گراف‌های دانش به‌کار گرفته می‌شوند. همچنین تفاوت‌ها در مجموعه داده، نحوه استفاده از این مدل‌ها و الگوریتم‌ها و روش جستجو و بازیابی معنایی بین کلمات، عملکرد و دقت سیستم را تحت تأثیر قرار می‌دهد.
نتایج حاصل از پژوهش‌های متعدد، حاکی از آن است که برای جستجو و بازیابی معنای متون، گستره‌ای از روش‌ها و الگوریتم‌ها وجود دارد که می‌توانند نتایج متفاوتی را ارائه دهند. این نتایج نشان می‌دهند که هر یک از روش‌های مورد استفاده، قابلیت بازیابی معنایی متون را دارا هستند و قابلیت‌های مختلفی در ارائه دقت جستجو دارند. همچنین برخی از روش‌ها عملکرد بهتری نسبت به سایر روش‌ها از خود نشان می‌دهند. این روش‌ها با استفاده از تکنیک‌ها و الگوریتم‌های متفاوتی مانند تحلیل موضوع، شبکه‌های عصبی، بازنمایی‌های برداری و غیره، قدرت خوبی در جستجوی معنایی دارند. از طرفی، انتخاب روش مناسب باید با توجه به ماهیت مسئله و ویژگی‌های داده‌ها انجام شود. هر مسئله و داده‌ ممکن است نیازهای خاص خود را داشته باشد و برای بهترین عملکرد، انتخاب روش مناسب و تنظیم پارامترهای آن ضروری است.
نتیجه‌گیری: هر کدام از روش‌های ارائه شده برای مشکلات و ویژگی‌های زبانی دو زبان فارسی و عربی، راهکارهای منحصربه‌فردی ارائه می‌دهند. همچنین روش‌های مختلف از مدل‌های زبانی پیش‌آموزش دیده مانند BERT، الگوریتم‌های خوشه‌بندی مانند K-Means و سیستم‌های بازیابی مبتنی بر منابع دانش مانند گراف‌های دانش استفاده می‌کنند. همچنین راهکارهای ارائه شده، مجموعه داده‌ها و منابع خاصی را برای آموزش و ارزیابی مورد استفاده قرار می‌دهند. تفاوت‌ها در مجموعه داده و نحوه استفاده و تنظیم این مدل‌ها و الگوریتم‌ها بسیار حائز اهمیت است. برخی از روش‌ها نیز براساس معنا و روابط معنایی بین کلمات، جستجوی اطلاعات را انجام می‌دهند، در حالی‌که برخی دیگر، از روش‌های مبتنی بر کلمات کلیدی و ریشه‌ها استفاده می‌کنند. این تفاوت در روش جستجو و بازیابی می‌تواند بر عملکرد و دقت سیستم تأثیر داشته باشد. هر روش، عملکرد و دقت متفاوتی در بازیابی اطلاعات دارد که این تفاوت‌ها به دلیل نحوه استفاده از مدل‌ها، الگوریتم‌ها و منابع داده مختلف است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A Survey of Semantic Search and Retrieval Approaches for Persian and Arabic Texts

نویسنده [English]

  • Ali Mirarab
Assistant Professor, Information Dissemination and Knowledge Exchange, Islamic Sciences and Culture Academy, Qom, Iran
چکیده [English]

Purpose: In recent decades, web search engines have become one of the most prominent and essential tools for accessing information in today's interconnected world. With the increasing volume of information available on the web, the demand for locating and accessing relevant and meaningful information has also risen. Traditional search engines typically retrieve results based on keyword matching and the number of similar entries in the texts. This method often leads to undesirable and irrelevant results. These problems are even more pronounced in Persian and Arabic due to the complex grammar of these languages, which is not machine-readable. The aim of this research is to review and present solutions for semantic search and retrieval of Persian and Arabic texts.
Method: This research is a content analysis study, and the library method was used to collect data. To collect information and access the required resources, various sources were used, including scientific articles, books, theses, and reports. For collecting Persian articles, sources, and for collecting English articles, sources with publication dates from 2020 onwards were used.
The content analysis method was utilized to analyze the collected data. By employing data analysis and interpretation methods, the results of previous studies were reviewed and evaluated alongside the new findings of the research. This evaluation involved identifying the issues and constraints of current semantic search engines and offering suggestions for enhancement.
Findings: In Persian and Arabic text semantic search and information retrieval research, methods based on text semantic analysis and processing using pre-trained language models, clustering algorithms like K-Means, and knowledge resources such as knowledge graphs are employed. Additionally, the dataset, the utilization of models and algorithms, and the method of semantic search and retrieval between words all influence the system's performance and accuracy. According to the findings of numerous studies, there is a wide range of methods and algorithms available for text semantic search and retrieval, each of which can produce different results. These findings demonstrate that each of the methods used has the ability to retrieve the semantic meaning of texts and varies in terms of search accuracy capabilities. An examination of the research findings reveals that some methods outperform others. These methods demonstrate strong semantic search capabilities by employing various techniques and algorithms such as topic analysis, neural networks, vector representations, and more. On the other hand, the appropriate method should be chosen based on the nature of the problem and the characteristics of the data. Each problem and dataset may have its own unique requirements. Selecting the best method and adjusting its parameters is critical for optimal performance.
Conclusion: Each of the presented methods offers unique solutions for the issues and linguistic characteristics of the two languages, Persian and Arabic. Additionally, various methods utilize
pre-trained language models like BERT, clustering algorithms such as K-Means, and knowledge resource-based retrieval systems like knowledge graphs. The presented solutions also utilize specific datasets and resources for training and evaluation. The differences in the dataset and how these models and algorithms are used and configured are critical. Some methods perform information retrieval based on meaning and semantic relationships between words, while others use keyword and root-based methods. This variation in the search and retrieval method can impact the system's performance and accuracy. Each method has a different performance and accuracy in retrieving information, which is attributed to the varied ways in which models, algorithms, and data sources are utilized.

کلیدواژه‌ها [English]

  • Semantic Search Engine
  • Information Retrieval
  • Persian Language
  • Arabic Language
  • Pre-Trained Language Models
  • Knowledge Resources
باقری، ت.، نوروزی، ی.، اسفندیاری مقدم، ع.، زارعی، ع. (1398). ارائه الگوی به‌کارگیری فناوری معنایی در بازیابی اطلاعات در کتابخانه‌های دیجیتالی. مطالعات ملی کتابداری و سازماندهی اطلاعات، 30(2): 129-151.
https://doi.org/10.30484/nastinfo.2019.2145.1820
جعفری پاورسی، ح.، حریری، ن.، علی‌پورحافظی، م.، باب الحوائجی، ف.، خادمی، م. (1399). ارتقای بازیابی معنایی اطلاعات با استفاده از برچسب‌گذاری و هستان‌شناسی. مطالعات ملی کتابداری و سازماندهی اطلاعات، 31(1):
18-38.
دانشگاه علم و صنعت (1388). فاز اول طرح جامع پیکره زبان فارسی با موضوع فاز اول مطالعاتی ایجاد پیکره متنی زبان فارسی: بهینه‌سازی استفاده از موتورهای جستجو در پیکره‌های متنی زبان فارسی.
کریمی، ا.، بابایی، م.، حسینی بهشتی، م. (1398). بررسی ویژگی‌های معنایی و هستی‌شناسانه نظام‌های بازیابی اطلاعات مبتنی بر اصطلاح‌نامه و هستی‌شناسی. پژوهشنامه پردازش و مدیریت اطلاعات، 34(4): 1585-1612.
https://doi.org/10.35050/JIPM010.2019.015
مرتضایی، ل. (1380). مسایل زبان و خط فارسی در ذخیره‌سازی و بازیابی اطلاعات. اطلاع‌رسانی، 17(1-2).
CAPTCHA Image