ترجمه مقاله بررسی تکنیکهای Document Clustering و مقایسه LDA و moVMF


رشته: کامپیوتر / فناوری اطلاعات

A Survey of Document Clustering Techniques Comparison of LDA and moVMF

جهت دانلود رایگان مقاله انگلیسی اینجا را کلیک نمایید

چکیده:

این پروژه به طور کلی به بررسی تکنیکهای Document Clustering که به طور گسترده استفاده شده است می پردازد. ما با استفاده از مدل فضای برداری از طریق تکامل آن و گسترش به دیگر مدل های پیچیده تر و آماری صدا آغاز می کنیم. ما جزئیات دو مدل، مخلوطی از Von Mises-Fisher و Latent Dirichlet Allocation را از آنجاییکه در سال های اخیر توجه گسترده ای را با توجه به عملکرد خوب خود را بیش از سایر مدل ها داشته اند مقایسه می کنیم. در نهایت میبینیم آزمایشهای بیشتر نیازمند موضوع یا اشیا دیگر است.

کلمات کلیدی:

VSM, LSA, pLSA, K-means, Hierarchical Clustering, LDA, moVMF, Spherical Admixture Model

 

  پیش زمینه

امروزه اطلاعات بر روی اینترنت در حال انفجار نمایی در طول زمان است، و حدود 80٪ آن به صورت متن ذخیره شده است. بنابراین متن کاوی موضوع پرطرفداری است. یکی از زمینه های تحقیق به طور ویژه Document Clustering است که یک موضوع عمده در جامعه بازیابی اطلاعات است. و مشخصا” برنامه های کاربردی گسترده ای در جهان واقعی است، به طور مثال موتورهای جستجو. به طور معمول، یک موتور جستجو اغلب هزاران صفحه در پاسخ به پرس و جو گسترده را برمی گرداند و این کار را برای کاربران برای فهرست و یا برای شناسایی اطلاعات مربوطه دشوار می کند. متد Clustering می تواند به صورت یک گروه خودکار برای بازیابی یک لیست از دسته های معنی دار استفاده شود به عنوان موتورهای جستجو سازمانی مانند Northern Light و Vivisimo یا نرم افزار منبع باز مانند Carrot2. همچنین گوکل متد Clustering را برای مطابقت وبسایتهای خاص همراه با پرس و جو استفاده می کند. به این صورت که از یک وب سایت می تواند به عنوان مجموعه ای از موضوعات (موضوع چند سند) ببیند و یک query از خودش یا ترکیبی از چند مبحث باشد. این به طور گسترده توسط جامعه موتورهای جستجو بهینه سازی مورد مطالعه قرار گرفته است. برای پیدا کردن یک راه برای بهینه سازی یک وب سایت، مناقصه مطلوب در کلمات کلیدی خاص تعیین می کنیم، و به این ترتیب ROI را در کمپینهای آنلاین بهبود می دهیم. در نهایت، با افزایش شبکه های اجتماعی در سال های اخیر، مانند فیس بوک و توییتر، اطلاعات معنایی بیشتر در دسترس هستند و در حال حاضر مقدار قابل توجهی از اطلاعات را منتقل می کنند. با نگاهی توییتر به عنوان مثال. حدود 95M تویت در هر روز وجود دارد،

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد