تعداد نشریات | 161 |
تعداد شمارهها | 6,532 |
تعداد مقالات | 70,501 |
تعداد مشاهده مقاله | 124,098,271 |
تعداد دریافت فایل اصل مقاله | 97,205,930 |
ارتقای کیفیت دستهبندی متون با استفاده از کمیته دستهبند دو سطحی | ||
نشریه دانشکده فنی | ||
مقاله 7، دوره 41، شماره 7 - شماره پیاپی 1827، آذر 1386 اصل مقاله (366.64 K) | ||
نویسندگان | ||
سعید جلیلی؛ علی اکبر صدری* | ||
چکیده | ||
امروزه با توجه به رشد روز افزون دسترسی به اسناد الکترونیکی، دستهبندی خودکار اهمیت ویژهای یافته است. روشهای معمول در این زمینه، روشهای یادگیری ماشین هستند. روشهای بر اساس کمیته کارایی بهتری نسبت به سایر روشها از خود نشان دادهاند. در این مقاله، دو ایده در زمینه کمیتههای دستهبند ارائه شده است. ایده اول برمبنای کمیته bagging که در آن هرکدام از اعضای کمیته روی زیرمجموعهای از مجموعه سندهای آموزشی، ساخته میشوند، ارائه شده است. بر اساس این ایده، ابتدا مجموعه آموزش با یک روش خوشهبندی به چند خوشه، بر اساس مشابهت یا عدم مشابهت کلاسهای اسناد آموزشی، تقسیم میشود و سپس از روی هر خوشه از اسناد، یک دستهبند ساخته شده و به عنوان عضو کمیته قرار داده میشود (روش یادگیری اعضای کمیته یکسان است). در ایده دوم ساخت کمیتهای دو سطحی مطرح شده است. در این ایده اعضای کمیتههای سطح دوم خود کمیتههایی هستند که بر مبنای ایده اول ساخته میشوند. در ارزیابی ایده اول مشخص شد که افزایش کارایی بر مبنای معیار دقت و معیار بازخوانی در کمیته بیزین ساده نوع اول، بیشتر از سایر کمیتههای نوع اول بوده و به ترتیب 12 درصد و 1/5 درصد میباشد. ارزیابیها در کمیته نوع دوم (برمبنای ایده دوم)، افزایش کارایی را نسبت به کمیته نوع اول نشان میدهند که بیشترین آن نسبت به کمیته Rocchio نوع اول بوده، که معیار دقت را در حدود 8/3 درصد و معیار بازخوانی را در حدود 8/18 درصد افزایش داده است. | ||
کلیدواژهها | ||
بیزین ساده – SVM؛ خوشهبندی متن؛ دستهبندی متون – Rocchio؛ کمیته bagging؛ کمیته دستهبندی | ||
عنوان مقاله [English] | ||
- | ||
چکیده [English] | ||
Nowadays, the automated text classification has witnessed special importance due to the increasing availability of documents in digital form and ensuing need to organize them. Although this problem is in the Information Retrieval (IR) field, the dominant approach is based on machine learning techniques. Approaches based on classifier committees have shown a better performance than the others. In this research, in addition to study text classification techniques and classification committees, two ideas in this field are proposed. The first idea, is proposed based on Bagging committees. According to this idea, first, a training set by one of clustering techniques automatically is divided into several clusters based on class similarity (or dissimilarity). So for documents of every cluster, a classifier is trained and put in the committee as a member. In this approach the members of committee are created by the same technique. In our experiments for this idea, Naïve Bayesian, Rocchio and SVM learning techniques are used. In the second idea, the creation of two layered committee is discussed. Based on this idea, one committee can be created that its members are itself a committee. Members of subcommittees are creating based on the first idea. This idea is based on the fact that if Naïve Bayesian committee acts better than Naïve Bayesian classifier and so, a committee out of these committees will improve the performance of classification. Evaluation of the first idea showed that the improvement in performance based on precision and recall in Naïve Bayesian committee is exceeded the other committees (respectively 12 and 5.1 percent). Evaluation of the second idea showed that the improvement in performance in the second type of committee (based on the second idea) is more than that in the first type of committee (based on the first idea). Most improvement of performance in the second type of committee is referred to the Rocchio’s committee (based on precision and recall 3.8 and 18.8 percent, respectively). | ||
کلیدواژهها [English] | ||
Bagging Committee, Classification Committee, Naïve Bayesian, SVM, Text Classification – Rocchio, text clustering | ||
آمار تعداد مشاهده مقاله: 1,575 تعداد دریافت فایل اصل مقاله: 1,646 |