بیماری پارکینسون(PD[1]) نخستین بار به دست یک دانشمند بریتانیایی به نام جیمز پارکینسون[2] توصیف گردید و به همین دلیل نام این بیماری به نام این دانشمند ثبت شد. بیماری پارکینسون لرزش در شرایط استراحت میباشد که شیوع این بیماری در سنین پیری بیشتر است اما در جوانها هم این بیماری دیده شده است و نیز شیوع این بیماری در تمام دنیا به شکل یکسان میباشد، منظور این است که درصد شیوع این بیماری با تغییرات در مناطق فرقی نمیکند. به شکل کلی میتوان بیان نمود که بیماری پارکینسون به علت از میان رفتن سلولهای ترشح کننده ماده ای به اسم دوپامین میباشد. بیشتر شدن نسبت استیل کولین به دوپامین در غدههای قاعدههای مغز باعث علامت تومور سفتی غضلهها و کندی در حرکات میگردد]1[.
پارکینسون گونهای از اختلالات پیشرونده مزمن عصبی میباشد که برگرفته از وجود نداشتن دوپامین شیمیایی در مغز است. پارکینسون دومین بیماری عصبی تولید مثل میباشد که بعد از بیماری آلزایمر به وقوع میپیوندد. پارکینسون به دلیل انحطاط نورونها در بخش تالامیک مغز میباشد و نیز بر روی افراد بدون در نظر داشتن نژاد آنان اثر گذار است. دوپامین گونهای انتقال دهنده عصبی میباشد که به انتقال سیگنالها در مغز و دیگر بخشهای حیاتی کمک مینماید. حرکات نوسانی و یا غیرمجاور در بدن به علت انحطاط دوپامین است. علائم پارکینسون به طور معمول مرتبط به جنبش میباشد که این علائم رایج دربردارنده لرزش، سفتی غضلانی و نیز کندی در حرکات است، تا به امروز هیچ گونه درمان و یا پیشگیری به منظور این بیماری پیدا نشده است. با این وجود، پارکینسون را میتوان با بعضی از درمانها، مخصوصا در گامهای اولیه آن کنترل نمود، از طرفی دیگر شناسایی زودهنگام این بیماری بسیار تاثیرگذار و مهم میباشد]2[.
دادهکاوی و یا کشف دانش از بین پایگاههای داده اطلاعاتی علمی میباشد که به منظور تصمیمگیریهای هوشمندانه با درنظر گرفتن به توسعه فناوری اطلاعات بسیار کاربردی است. راهکارهای دادهکاوی به منظور پیدا نمودن الگوها در شناسایی پزشکی و درمان آن کاربردی میباشد. گونههای متفاوتی از راهکارهای دادهکاوی در به دست آوردن اطلاعات که که میتواند به منظور پیشبینی به کارگرفته شود وجود دارد که میتوان به شبکههای عصبی، درخت تصمیم و رگرسیون لجستیک اشاره نمود. از جمله متدهای مناسب به منظور پیشبینی و شناسایی در بخشهای پزشکی رویکردهای دادهکاوی است. دادهکاوی متدی داده مدار و بر اساس یادگیری و کشف الگو پنهان در بین دادههای واقعی است که از این مدل برای پیشبینی به منظور موردهای مشابه به کار گرفته میشود.
دادهکاوی با استفاده از ابزارات تجزیه و تحلیل دادهها برای کشف الگو و رابطههای معتبری که تا به امروز ناشناس بوده است تصمیمات اشتباه را به کمترین حد خود میرساند. این ابزارها امکان دارد الگوهای آماری، الگوریتمهای ریاضی و متدهای یادگیرنده[3] باشند. دادهکاوی به مفهوم به دست آوردن اطلاعات نهان و یا الگو و روابط مشخیص در حجم بسیاری از دادهها در یک و یا چند بانگ اطلاعاتی بزرگ بیان میشود. فلسفه دادهکاوی این میباشد که با شناخت صحیح از گذشته، آینده را میتوان پیشبینی نمود]3،4[.
پایگاه داده پارکینسون دربردارنهد 630 نمونه و 22 ویژگی مختلف میباشد. هدف پایگاه اطلاعات تبعیض بین افراد سالم و مبتلا به بیماری پارکینسون میباشد. ( منظور از عدد فرد سالم و عدد 2 فرد بیمار است). در این آزمایش از 31 نفر آزمایش گرفته شده است که 23 فرد مبتلا به این بیماری بودند و 8 نفر سالم بودند. سن این افراد از 46 تا 85 سال را شامل میشود و میانگین سنین آنان 65.8 سال است. هر کدام از آنان 6 تلفظ از آوا را انجام دادند.
هر ستون جدول اطلاعات نشان دهنده ویژگی منحصربفرد صوت افراد و هر سطر جدول نشان دهنده نمونه صوت گرفته شده به منظور هر فرد است. از جمله ویژگیهای وجود داشته در این پایگاه داده به منظور هر فرد میتوان به موارد زیر اشاره نمود:
میانگین فرکانس اساسی آواز[1]، ماکزیمم فرکانس اساسی آواز[2]، مینیمم فرکانس اساسی آواز[3]، مقیاس پارامترهای مختلف در فرکانس اساسی[4]، مقیاس پارامترهای مختلف در دامنه[5]، دو مقیاس نسبت نویز در اجزا تون صدا[6]، دو مقیاس غیر خطی دینامیک پیچیدگی[7]،
مقیاس نماینده منحنی سیگنال[8]، 3 مقیاس غیر خطی از فرکانس اساسی متغیر
در تمامی روابط فوق TP به تشخیصهای صحیح بیمار بودن فرد اطلاق میشود که به درستی توسط طبقهبند تشخیص دادده شده است. TN تشخیص صحیح سالم بودن فرد، FN تشخیص اشتباه منفی و FP تشخیص اشتباه مثبت میباشد.
بهطور کلی مفاهیم هر یک از معیارهای ارزیابی آورده شده در جدول 5-1 را میتوان اینگونه بازگو کرد که:
شکل 5-2 نمایش دهنده دادههای خروجی مجموعه داده پس از نرمالسازی و حذف دادههای ناموجود نیز میباشد. همانطور که قابل مشاهده میشود دادهها پس از پیشپردازش بین محدوده 0 تا1 قرار گرفتهاند و هیچ اثری از دادههای ناموجود وجود ندارد. همچنین در این کار پس از اعمال تبدیل مولفه اساسی بر روی مجموعه دادهها ابعاد دادهها از 22 بعد به 17 بعد تقلیل یافت و 6 ویژگی با اهمیت کمتر برای هر نمونه حذف شدند.
شکل 5-2 نمایش دهنده دادههای خروجی مجموعه داده پس از نرمالسازی و حذف دادههای ناموجود
در گام بعدی با استفاده از الگوریتم نهنگ و دادههای آموزش به تنظیم و آموزش شبکه عصبی پرسپترون چند لایه پرداختیم. در ادامه در جدول 5-2 به توضیح مشخصات و پارامترهای الگوریتم نهنگ که به منظور تعیین مقدار بهینه وزن و بایاس از آن استفاده کردیم خواهیم پرداخت.
ه
همانطور که در شکل 5-3 مشخص است، تعداد نرون لایه ورودی در پرسپترون مورد استفاده برابر با 17 نرون به تعداد ویژگیهای انتخاب شده برای هر نمونه توسط الگوریتم تحلیل مولفه اساسی است، همچنین تعداد نرون لایه پنهان را که با استفاده از آزمون و خطا بدست آوردیم برابر با 13 نرون و نرون لایه خروجی برابر با 2 نرون به تعداد کلاسهای موجود در نظر گرفته شد. برای لایه پنهان و خروجی از توابع فعالساز سیگمویید و خطی استفاده شد.
نمودار آورده شده در شکل 5-4 فرآیند آموزش شبکه عصبی را برای 50 تکرار با استفاده از الگوریتم نهنگ نمایش میدهد. در این نمودار محور افقی تعداد تکرارها و محور عمودی مقدار خطا را در هر تکرار نمایش میدهد. نزولی بودن این نمودار نشان از آموزش صحیح و همگرایی درست الگوریتم نهنگ برای آموزش دادن شبکه عصبی است، زیرا همانطور که مشاهده میشود میزان خطای طبقهبندی در ابتدای کار بسیار زیاد بوده است و در تکرارهای بعدی این مقدار خطا در حال کاهش است زیرا مقدارهای مناسبی برای وزن و بایاس شبکه عصبی در حال انتخاب شدن توسط الگوریتم نهنگ میباشد.
[1] Average vocal fundamental frequency
[2] Maximum vocal fundamental frequency
[3] Minimum vocal fundamental frequency
[4] Several measures of variation in fundamental frequency
[5] Several measures of variation in amplitude
[6] Two measures of ratio of noise to tonal components in the voice
[7] Two nonlinear dynamical complexity measures
[8] Signal fractal scaling exponent
[1] parkinsons Disease
[2] James Parkinson
[3] Machine Learning Methods