تعداد نشریات | 161 |
تعداد شمارهها | 6,479 |
تعداد مقالات | 70,032 |
تعداد مشاهده مقاله | 122,995,977 |
تعداد دریافت فایل اصل مقاله | 96,226,244 |
امکان سنجی برای طرح مدل سازی زبان فارسی | ||
مجله دانشکده ادبیات و علوم انسانی(منتشر نمی شود) | ||
مقاله 6، 163-162، شماره 0 - شماره پیاپی 1009، مهر 1381 اصل مقاله (471.4 K) | ||
نویسنده | ||
دکتر محمود بی جن خان* | ||
چکیده | ||
تقطیع و برچسب دهی نحوی – معنایی داده های نوشتاری یکی از فعالیتهای اصلی در طراحی و ساخت هر دادگان زبانی برای استخراج مدل زبانی است . در این مقاله مشکلاتی که نگارند ه در انجام این فعالیت برای طرح امکان سنجی برای طرح مدل سازی زبان فارسی داشته ‘ توضیح داده شد ه‘همچنین برای حل مشکلات از معیارهای زبان شناختی و مهندسی استفاده شده است . در نهایت برای استخراج مدل زبان فارسی یک بسته نرم افزاری نوشته شده ‘ که در چارچوب فرآیند مارکف صفر تا سه مرحله ای ‘ توزیع احتمال مشروط کلمات فارسی را در چهار حالت به طور مستقل ازو وابسته به مقوله نحوی معنایی به دست می دهد . | ||
کلیدواژهها | ||
تقطیع و برچسب دهی؛ فرآیند مارکف؛ مدل سازی زبانی | ||
عنوان مقاله [English] | ||
- | ||
چکیده [English] | ||
Syntactic and semantic word segmentation and labelling in a given text of a large corpus, is one of the basic research activities to produce a linguistic database for the sake of language modelling. In this paper, the author explains the difficulties encountered to manage such an activity in the project "a feasibility study for Farsi language n'lOdelling". Several linguistic criteria and one engineering criterion were used to handle the difficulties. Finally, based on an n-state n1arkov process (n=O, 1,2,3), a software package is written to extract Farsi words conditional probabilities distributions for both labels-dependent and independent cases. | ||
کلیدواژهها [English] | ||
Language Modelling, Markov Process, Segmentation and Labelling | ||
آمار تعداد مشاهده مقاله: 1,633 تعداد دریافت فایل اصل مقاله: 934 |