تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس

  • عنوان لاتین مقاله: Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network
  • عنوان فارسی مقاله: تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی
  • دسته: کامپیوتر و فناوری اطلاعات
  • فرمت فایل ترجمه شده: WORD (قابل ویرایش)
  • تعداد صفحات فایل ترجمه شده: 26
  • لینک دریافت رایگان نسخه انگلیسی مقاله: دانلود
  • ترجمه سلیس و روان مقاله آماده خرید است.

خلاصه

چکیده – ما سیستم یکپارچه ای را در ارتباط با مدل های مخلوط گاوس ساختاری (SGMM) و شبکه های عصبی به منظور دستیابی به راندمان محاسباتی و دقت بالا در ارتباط با تعیین هویت گوینده ارائه می دهیم. مدل پس زمینه ساختاری (SBM) در ابتدا از طریق خوشه بندی زنجیره ای تمام موئلفه های مخلوط گاوس در ارتباط با مدل پس زمینه ساختاری ایجاد می گردد. به این ترتیب، یک فضای اکوستیک به بخش های چندگانه ای در سطوح مختلف قدرت تشخیص، جزء بندی می گردد. برای هر یک از گوینده های مورد نظر، مدل مدل مخلوط گاوس ساختاری (SGMM) از طریق استدلال حداکثری (MAP) سازگار با مدل پس زمینه ساختاری (SBM) ایجاد می گردد. در هنگام تست، تنها زیرمجموعه کمی از موئلفه های مخلوط گاوس برای هر بردار مختصات محاسبه می گردد تا هزینه محاسبه را به طور قابل توجهی کاهش دهد. علاوه بر این، امتیازات حاصل شده در لایه های مدل های درخت ساختار، برای تصمیم گیری نهایی از طریق شبکه عصبی ادغام می گردند. وضعیت های مختلفی در بررسی های انجام شده بر روی داده های حاصل از گفتگوهای تلفنی مورد استفاده در ارزیابی هویت گوینده NIST، مقایسه شد. نتایج تجربی نشان می دهد که کاهش محاسبه توسط فاکتور 17 از طریق 5% کاهش نسبی در میزان خطای هم ارز (EER) در مقایسه با خطو مبنا، حاصل می گردد. روش SGMM-SBM (مدل مخلوط گاوس ساختاری- مدل پس زمینه ساختاری) ، مزایایی را نسبت به مدل اخیرا مطرح شده GMM (مدل مخلوط گاوس) داشته، که شامل سرعت بالاتر و عملکرد تشخیص بهتر، می باشد.

کلیداژه: خوشه بندی گاوس، شبکه عصبی، تعیین هویت گوینده، مدل مخلوط گاوس ساختاری

مقدمه

تحقیقات بر روی تشخیص گوینده که شامل تعیین هویت و تطبیق موارد می باشد به عنوان یک مورد فعال برای چندین دهه به شمار آورده می شود. هدف این می باشد تا تجهیزانت داشته باشیم که به صورت اتوماتیک فرد خاصی را تعیین هویت کرده یا فرد را از طریق صدای او تشخیص دهیم. بنابر روش های زیست سنجی، تشخیص صدای افراد می تواند در بسیاری از موارد همانند، شبکه های امنیتی، تراکنش های تلفنی و دسترسی به بخش ها کاربرد داشته باشد. گوینده ها به دو گروه تقسیم می شوند. گوینده های هدفمند و گوینده های غیرهدفمند.

  • فرمت: zip
  • حجم: 1.00 مگابایت
  • شماره ثبت: 411

خرید و دانلود

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد