ارائه شبکه پیچیده بدون مقیاس با الگوی ترکیب لایه‌‌ای زبان فارسی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم، قم ، ایران

2 عضو هیات علمی گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم، قم، ایران

چکیده

این مقاله روشی را برای بررسی الگوهای ترکیب و ساختار توپولوژیکی زبان فارسی پیشنهاد می‌کند. روش بهبودیافته متن فارسی را در قالب گراف شبکه همزمان در چارچوب نظریه شبکه پیچیده بررسی می‌کند. برای اولین بار، متن فارسی با موفقیت به گراف تبدیل شد. ما یک مجموعه باز و بدون حاشیه بیش از دو میلیون کلمه با استفاده از رویکرد جنگل تصادفی ساخته‌ایم. شبکه حاصل طراحی شده با مدل کیسه بایگرام شامل 3256 گره و 79705 لبه می باشد. علاوه بر این، یک مدل تهی با اندازه مشابه با توجه به گراف تصادفی Erdos-Renyi برای مقایسه با شبکه فارسی تولید می‌شود. مقایسه بر اساس طول مسیر متوسط، ضریب خوشه بندی و سلسله مراتب هر دو شبکه است. از تجزیه و تحلیل این ویژگی های کلیدی، مشاهده می شود که گراف شبکه فارسی با شبکه تصادفی متفاوت است. طول مسیر متوسط کوچکتر و ضریب خوشه بندی بالا نیز تأثیر مدل جهانی کوچک را در زبان فارسی تأیید می‌کند. علاوه بر این، بر خلاف شبکه تصادفی که تنها یک جامعه وجود دارد، 12 اجتماع در شبکه فارسی شناسایی شده است. واقعیت های آماری نشان می دهد که شبکه فارسی یک شبکه بدون مقیاس با الگوی ترکیب لایه ای است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A Complex network with a combination pattern of Persian language layers

نویسندگان [English]

  • ali sarabadani 1
  • Kheirollah Rahsepar Fard 2
  • sepideh chehreh 1
1 Department of Computer and Information Technology, Faculty of Engineering, Qom University, Qom, Iran
2 Member of the academic staff of the Department of Computer Engineering and Information Technology, Faculty of Technology and Engineering, University of Qom, Qom, Iran
چکیده [English]

This article proposes a method to investigate compositional patterns and topological structure of Persian language. The improved method examines Persian text in the form of simultaneous network graph in the framework of complex network theory. For the first time, Persian text was successfully converted into graph. We have constructed an open, unbounded corpus of over two million words using a random forest approach. The resulting network designed with the Bygram bag model contains 3256 nodes and 79705 edges. In addition, a null model with the same size is generated according to the Erdos-Renyi random graph for comparison with the Persian network. The comparison is based on average path length, clustering coefficient and hierarchy of both networks. From the analysis of these key features, it can be seen that the Persian network graph is different from the random network. The smaller average path length and high clustering coefficient also confirm the influence of the small global model in Persian language. In addition, unlike the random network where there is only one community, 12 communities have been identified in the Persian network. Statistical facts show that the Persian network is a scale-free network with a layered composition pattern.

کلیدواژه‌ها [English]

  • Persian language
  • natural language processing
  • concurrency
  • complex network
  • small world model
  • layered composition model
CAPTCHA Image