خط فارسی در گنج: واکاوی تأثیر مسائل صرف، معنا و رسم‌‌الخط بر بازیابی اطلاعات در پایگاه اطلاعات علمی ایران

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار، گروه علم اطلاعات و دانش‌‌شناسی، دانشکده روانشناسی و علوم تربیتی، دانشگاه خوارزمی، تهران، ایران

2 کارشناسی ارشد، گروه علم اطلاعات و دانش‌‌شناسی، دانشگاه خوارزمی، تهران، ایران

3 استادیار، گروه زبان و ادبیات فارسی، دانشگاه تهران، تهران، ایران

10.22091/stim.2021.6418.1505

چکیده

هدف: خط فارسی دشواری‌‌هایی دارد که بی‌‌توجهی به آنها، بازیابی اطلاعات را تحت تأثیر قرار می‌‌دهد. پژوهش حاضر با هدف بررسی تأثیر مشکلات خط فارسی در ابعاد صرفی، معنایی و رسم‌الخط بر بازیابی مدارک پایگاه گنج انجام شده است.
روش‌‌: این پژوهش از نظر هدف کاربردی بوده که به شیوه کیفی و با استفاده از تکنیک تحلیل محتوا انجام شد. ابزار مورد استفاده، سیاهه وارسی محقق ساخته بود. جامعه پژوهش نیز تمامی مدارک ثبت شده در گنج تا زمان اجرای پژوهش می‌‌باشد. نمونه‌‌گیری به صورت نمونه‌‌گیری معیاری انجام شد. با توجه به داده‌‌های به دست آمده، توصیف و تحلیل انجام گرفت.
نتایج: در دسته مشکلات صرفی، تأثیر مسائل و دشواری‌‌های مربوط به صرف یا ساخت‌‌واژه در بازیابی مدارک و در دسته مشکلات معنایی تأثیر دشواری‌‌هایی که از نظر معنا در واژه ابهام یا تفاوت معنایی ایجاد می‌‌کنند، بر بازیابی مدارک بررسی شد. در مشکلات رسم‌‌الخط، این بررسی برای دشواری‌‌های ناشی از ویژگی‌‌های ریخت‌‌شناسی و نوشتاری خط فارسی انجام شد.
نتیجه‌‌گیری: پژوهش حاضر نشان داد مشکلات صرفی، معنایی و رسم‌‌الخط، نتایج بازیابی اطلاعات در گنج را تحت تأثیر قرار می‌‌دهند. همچنین در این پایگاه در گروه صرفی تنها برای تک‌‌واژ‌‌های صرفی صفت، و در گروه رسم‌‌الخط، برای مشکلات علامت تشدید، جابه‌‌جایی «ی» و همزه در کلمات فارسی، نگارش همزه میانی و پایانی با کرسی «الف»، نگارش همزه میانی و پایانی با کرسی «واو»، «حذف یا نوشتن علامت مد» و «نوشتن صامت «ی» بعد از «ه» غیرملفوظ، چاره‌‌اندیشی شده و در گروه معنایی به هیچ یک از دشواری‌‌ها توجهی نشده است.
 

کلیدواژه‌ها


عنوان مقاله [English]

Persian Writing in GANJ: Investigating the Impact of Morphology, Semantics, and Writing Style on Iran's Treasure of Scientific and Technical Information

نویسندگان [English]

  • Somaye Sadat Akhshik 1
  • Khadije Negahdari 2
  • Alireza Emami 3
1 Assisstante Professor, Department of Library and Information Studies, Faculty of Psychology and Education, Kharazmi University, Tehran, Iran
2 M.A., Information Science and Knowledge, Kharazmi University, Tehran, Iran.
3 Assisstante Professor, Department of Persian Language and Literature, University of Tehran, Iran
چکیده [English]

Objectives: Persian writing has some difficulties that neglecting can affect information retrieval. This study was conducted to investigate the effect of Persian writing problems on the retrieval of documents on the (GANJ) database based on morphological, semantical, and orthographical aspects.
Methods: This research is a practical-purpose study that was conducted in a qualitative manner using content analysis techniques. The used method was a researcher-made checklist. The research population was all the records recorded in the GANJ until the time of the survey. Sampling was done by standard sampling. In the category of conjugational problems, the impact of these problems on the retrieval of documents in the database was examined.
Results: In the semantic problem category, the effects of semantic ambiguity or semantic differences on the information retrieval of documents were examined. This case was done in the category of orthography problems to determine difficulties arising from morphological and written features of Persian writing.
Conclusions: According to the data obtained from searching for keywords related to each difficulty in the Ganj, it was observed that inconsistencies in the text affect the retrieval result.
The results of the present study showed that morphological, semantic, and orthographical problems affect the information retrieval results in the database. It was also found that in the morphological group only for the "adjective morphological morphemes", and in the orthography group, for the problems of "accent mark", "ی and ء transposition in Persian words", "writing of middle and end ء (tittle) with الف seat", "writing of middle and end ء (tittle) with واو seat", "remove or writing tilde Mark" and "writing of consonantal ی after inarticulate ه" have been deliberated and difficulties in the semantic group were completely neglected. Since Ganj is the basis of other Irandoc databases, regardless of morphological, semantic, and calligraphic problems can affect the work of other systems as well.
 

کلیدواژه‌ها [English]

  •  Persian Writing
  • information retrieval
  • Ganj Database
  • Semantic problems
  • Writing style
  • Morphology problems
  • Iranian Research Institute for Information Science and Technology (IranDoc)
آخشیک، س. (1394). بازتاب دشواری‌‌های نگارش کلمه در بازیابی اطلاعات بانک نشریات کشور (مگ ایران). در: اولین کنفرانس بین‌‌المللی بازیابی تعاملی اطلاعات.
آخشیک، س.س.، فتاحی، ر. (1391). تحلیل چالش‌‌های پیوسته‌‌نویسی و جدانویسی واژگان فارسی در ذخیره و بازیابی اطلاعات در پایگاه‌‌های اطلاعاتی. کتابداری و اطلاع‌‌رسانی، 15(3): 9-30.
ارسطوپور، ش.، احمدی‌‌نسب، ف. (1391). آسیب‌شناسی زبان و خط فارسی در بازیابی اطلاعات: نگاهی به موتورهای کاوش و پایگاه‌‌های برخط. در: نخستین کنفرانس ملی مدیریت منابع اطلاعاتی وب، سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران.
جلالی، و. (1387). بازیابی معنایی اطلاعات با استفاده از بسط مفاهیم حاصل از جستجوی مبتنی بر کلیدواژه. پایان‌‌نامه کارشناسی ارشد. دانشگاه صنعتی امیرکبیر.
حری، ع. (1372). کامپیوتر و رسم‌‌الخط. پیام کتابخانه، 3(1).
راثی ساربانقلی، م.ص. (1385). مشکلات جستجو و بازیابی اطلاعات به زبان فارسی در اینترنت، مطالعه موردی: کاربران مرکز اینترنت دانشگاه آزاد اسلامی واحد شبستر. فصلنامه کتاب، 17(3): 179-196.
رضایی‌‌شریف‌‌آبادی، س.، خسروی، ع.، حاجی زین‌‌العابدینی، م. (1389). امکان‌‌سنجی مهار مستندات موضوعی پزشکی در پایگاه‌‌های اطلاعاتی فارسی موجود بر روی وب. مطالعات تربیتی و روان‌‌شناسی، 8(3): 183-201.
DOI: 10.22067/RIIS.V8I3.5725
رنجبر، ا.، عباسپور، ج. (1397). گسترش‌‌پذیری جستجو و بازیابی مدارک در پایگاه‌‌های اطلاعات علمی فارسی: موردپژوهی پیوسته‌‌نویسی و جدانویسی. کتابداری و اطلاع‌‌رسانی، 21(3): 57-90.
DOI: 10.30481/LIS.2018.67485
ستوده، ه.، هنرجویان، ز. (1391). مروری بر دشواری‌‌های زبان فارسی در محیط دیجیتال و تأثیرات آنها بر اثربخشی پردازش خودکار متن و بازیابی اطلاعات. کتابداری و اطلاع‌‌رسانی، 15(4): 59-92.
ستوده، ه.، هنرجویان، ز. (1393). بررسی تنوع الگوهای نگارشی فارسی و تأثیر آن بر جامعیت بازیابی اطلاعات (مطالعه موردی: پیکره همشهری). کتابداری و اطلاع‌‌رسانی. 17(2): 31-49.
سمیعی، ا. (1375). یادداشت سردبیر. نامه فرهنگستان، 5: 1-3.
شهبازی، م.، شاهینی، ش. (1394). بررسی میزان کارایی پایگاه‌‌های اطلاعاتی مگ ایران، نورمگز و اس.‌‌آی.دی در بازیابی و ربط مباحث علم اطلاعات و دانش‌‌شناسی با استفاده از کلیدواژه‌‌های آزاد و مقایسه آنها از نظر میزان استفاده از کلیدواژه‌‌های مهار شده. پژوهش‌‌نامه پردازش و مدیریت اطلاعات، 31(2): 431-454.
طاهری اسکویی، م.، پروینی‌‌راد، ز.، تباری، پ. (1395). بررسی روابط معنایی در اسامی مرکبِ برون مرکز زبان فارسی. زبان و ادب فارسی، 8(26-27): 261-278.
طباطبائی، ع. (1386). صرف زبان فارسی. بخارا، 10(63): 212-242.
فرهنگستان زبان و ادب فارسی (1394). دستور خط فارسی. تهران: فرهنگستان زبان و ادب فارسی.
فرهنگستان زبان و ادب فارسی (1398). مطالعات واژه‌‌گزینی. ویژه‌‌نامه فرهنگستان، 3.
گل‌‌تاجی، م.، بذرگر، س. (1389). بررسی مشکلات ریخت‌‌شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه‌‌ای اطلاع‌‌رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران و جهاد دانشگاهی. کتابداری و اطلاع‌‌رسانی، 13(2).
هماوندی، ه.، نوروزی، ی.، بهشتی، م. (1397). بررسی مشکلات جستجو و بازیابی اطلاعات در پایگاه‌‌های اطلاعاتی از جنبه ویژگی‌‌های نگارشی زبان فارسی. پژوهش‌‌نامه پردازش و مدیریت اطلاعات، 33(3).
CAPTCHA Image