دانلود مقالات دانشجویی

ترجمه مقاله پیشرفت های اخیر در زمینه خوشه بندی داکیومنت

رشته: کامپیوتر / فناوری اطلاعات

Recent Developments in Document Clustering

جهت دانلود رایگان مقاله انگلیسی اینجا را کلیک نمایید

این گزارش مروری کوتاه بر وضعیت فعلی پژوهش های انجام گرفته بر خوشه بندی داکیومنت دارد و پیشرفت های اخیر در این حوزه را معرفی می کند. الگوریتم های خوشه بندی با دو سناریو فرضی در ذهن در نظر گرفته می شود: خوشه بندی query آنلاین با محدودیت کارآمدی شدید و خوشه بندی آفلاین با تاکید بر صحت انجام. تجزیه و تحلیل مقایسه ای الگوریتم ها همراه با یک جدول خلاصه ویژگی های مهم انجام شده و مشکلات باز و همچنین تحقیقات آتی در این حوزه مورد بحث قرار می گیرد.

مقدمه

خوشه بندی داکیومنت و یا متن زیر مجموعه ای از حوزه بزرگتر از خوشه بندی داده ها است که مفاهیم را از زمینه های بازیابی اطلاعات (IR)، پردازش زبان طبیعی (NLP)، و یادگیری ماشین (ML) قرض می گیرد. خوشه بندی اسناد از این پس به سادگی به عنوان خوشه بندی معرفی شده است.

فرایند خوشه بندی با هدف کشف گروه بندی های طبیعی است و بنابراین یک نمای کلی از رده ها (موضوعات) در مجموعه اسناد ارائه می دهد. در زمینه هوش مصنوعی، به عنوان یادگیری ماشین بدون سرپرست شناخته شده است. خوشه بندی را نباید با طبقه بندی اشتباه گرفت. در مسئله طبقه بندی شماره رده و ویژگی های آن به صورت قیاسی شناخته شده است و اسناد در این رده اختصاص داده است. در مقابل، در مسئله خوشه بندی همانطور که در شماره1 است ویژگی ها و یا عضویت (ترکیب) هر رده از پیش شناخته شده است. این تفاوت در شکل 1 نشان داده شده است. طبقه بندی مثالی از یادگیری ماشینی نظارت شده است.

فهرست موجود است.