اهداف تحلیل رگرسیون
با انجام رگرسیون می خواهیم اهداف زیر را دنبال کنیم :
۱- بدست آوردن رفتار متغییر y توسط متغییر x ،یعنی اینکه متغیر y با تغییر x در نمونه ها چه رفتاری را از خود نشان می دهد. مثلا در نمونه ای این رفتار خطی است یا اینکه شکل منحنی خواهد داشت.
۲- پیش بینی بر اساس داده ها برای نمونه های آینده، که هدف اصلی در داده کاوی از طریق متدهای آماری است. مثلا از روی اطلاعاتی مثل داشتن کارت اعتباری یک فرد جدید، نوع جنسیت او، سن فرد و میزان درآمد سالیانه او بتوان حدس زد که این فرد از بیمه عمر استفاده می کند یا خیر. و یا اینکه با داشتن اطلاعات در مورد داشتن یا نداشتن کارت اعتباری و بیمه عمر و سن فرد بتوان جنسیت فرد را تعیین کرد.
۳- استنباط استنتاجی یا تحلیل حساسیت، تعیین اینکه اگر x به اندازه خاصی تعییر کند y تا چه اندازه تغییر خواهد کرد. هدف از فهمیدن اینکه چگونه تغییرات y تابعی از x است. باید توجه داشت که نوع تغییرات مدل رگرسیونی خاصی را می دهد.
اهداف مدلسازی برای تشریح ارتباط بین x و y استفاده از نتایج مدل برای پیش بینی کاربردهای تخمین عبارت است. اما استنباط استنتاجی یک مقوله ظریف تری است. زمانی که به استنباط آماری فکر میکنیم در واقع درباره متغییر رفتاری و متغییر های کنترل فکر می کنیم.
متغییرهای رفتاری مشخصه هایی را ارایه میکنندکه تبحروتجربه خاصی دارندیا اینکه قابلیت آن نبحر را دارند.مثلا مقدار دز دارو که برای بیمار استفاده می شود در تجربه پزشکی .همچینین متغییرهای کنترل دیگر ویژگی ها در یک محیط آزمایشی را اندازه میگیرند،از قبیل وزن بیمار که قبل از رفتار اندازه گیری می شود.
اگر ما برای یکی از متغییر های رفتاری، کنترل انجام دهیم، رگرسیون ما احتمالا استنباط های استنتاجی را درست حدس میزند.و اگر ما علاقه مند به هر دو مورد پیش بینی انتخاب سهم وتخمین اثرات علتها باشیم تایید هر دومورد را بعنوان متغییرهای خروجی که همپوشانی دارند در نظر می گیریم.
روشهای مختلف رگرسیون برای داده کاوی وجود دارد .رگرسیون خطی بیشترین کاربردرا دارد وهمچنین مشتقات آن حایزاهمییت است.یک نمونه از آن مشتقات آن رگرسیون خطی سلسله مراتبی یا رگرسیون چند سطحی است. این روش یکی از ابزارهای تحلیل دادههای پیچیده از قبیل افزایش فر کانس در تحقیقات مقداری را شامل می شود.مدلهای رگرسیون چند سطحی برای حالتهایی که همپوشانی در سطوح مختلف وجود دارد مفید است. برای مثال اطلاعات آموزشی ممکن است اطلاعاتی از قبیل اطلاعات فردی دانش آموزان (نام، نام خانوادگی و در کل پیش زمینه خانوادگی)،اطلاعات سطح کلاس از قبیل ویژگی های معلم وهمچینین اطلاعات درباره مدرسه همانند سیاست آموزشی و… باشد. حالت دیگر مد لهای چند سطحی ،تحلیل دادههای بدست آمده از نمونه های خوشه بندی شده است. یک خانواده از مدلهای رگرسیون، به عنوان متغییرهای شاخص بری رتبه بندی یا خوشه بندی است علاوه بر اینکه همپوشانی را اندازه می گیرد. با نمونه خوشه بندی شده مدلسازی چند سطحی برای توسعه نمونه هایی که داخل خوشه نیستند،لازم است.
در روش رگرسیون چند سطحی یا سلسله مراتبی محدودیتی برای تعداد سطوح تغییر که می تواند انجام شود،وجود نداردروشهای بیزی در تخمین پارامترهای مجهول کمک می کند،هرچند که محاسبات پیچیده ای دارد.ساده ترین توسعه از رگرسیون همپوشانی مجموعه ای از متغیرهای شاخص برای کلاس بندی نمونه های آموزشی یا رتبه بندی وخوشه بندی درنمونه های داده شده است.همچنین به عنوان توسعه رگرسیون خطی در نظر گرفته می شود،که در ادامه به توضیح آن می پردازیم[ :
۱- رگرسیون خطی(Linear regression)
یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند.
در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم.
روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیر مستقل مدل کنیم . حالت کلی معادله آن به این صورت است :
(۱) f(x1+x2+…+xn)=a1x1+a2 x2+…+an xn+b
که xها متغیر مستقل و aهاو b ضرایب ثابت هستند وf(x1.x1…xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت (۲) y=ax+b است که در اینجا yمتغیر وابسته است به حالت ساده شده معادله ۱(یعنی معادله۲) shope-intercept fromمی گویند.
یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند {(xi,yi),i=1,2,…,n} داده شده باشد، برآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانندa,bهستند که به ا زای آنها کمیت مینیمم است .
بنابر این در حالت ساده اگر یک نمونه n تایی داشته داشته باشیم مقادیر a,bرا از طریق روابط زیر برآورد می کنیم :
مزیت رگرسیون خطی این است که فهمیدن و کار با آن ساده است در حالت کلی برای استراتژی و پیش بینی مناسب است. با بکار بردن این روش از نتایج خروجی می توان دریافت که این روش مناسب بوده یا خیر . بنابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان به نتایج خروجی اطمینان کرد یا خیر.
آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین میزان همبسته بودن داده ها به یکدیگر است.با مشخص کردن میزان همبسته بودن داده های متغیرهای ورودی و خروجی می توان دریافت که رگرسیون خطی برای انجام داده کاوی مناسب است یا خیر، بنابراین ضریب همبستگی و برآوردهای آن در بسیاری از پژوهشهای آماری اهمیت دارند. شرایطی که وقتی چند متغیر پیشگوxi)) با یکدیگر هم پوشانی دارند،این هم پوشانی منجر نااستواری و تزلزل در فضای جواب می شود،همچنین منجر به نتایج بی ارتباط(بی ربط) می شود.حتی اگر از این تزلزل اجتناب شود هم پوشانی بین متغیرهایی که میزان بین متغیرهایی همبستگی آنها زیاد است ،منجر به تاکید کردن روی بخش خاصی از مدل می شود.
بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند، نباید با هم در تعیین ارزش متغیر خروجی بکار برده شوند.
۲- رگرسیون لجیستسک(Logistic Regression)
این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binary هستند،مورد توجه قرار می گیرد. در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست،در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری ( قیاسی) هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به حالتهای ۰ و۱تغییر پیدا می کند.در این روش اگر نتایج خروجی(متغیر خروجی) بصورت binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود.
در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد. به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت، باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد.
با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود.
داده های زیر را وارد Excel کرده و ضرایب متغیر ها و مقدار ثابت bرا توسط تابع LINESTبدست می آوریم. داده ها و نتایج به این صورت می باشد :
Computed probability | Life insurance promotion | age | sex | Credit card insurance | income | instance |
0.007 | 0 | 45 | 1 | 0 | 40 | 1 |
0.987 | 1 | 40 | 0 | 0 | 30 | 2 |
0.024 | 0 | 42 | 1 | 0 | 40 | 3 |
1.000 | 1 | 43 | 1 | 1 | 30 | 4 |
0.999 | 1 | 38 | 0 | 0 | 50 | 5 |
0.049 | 0 | 55 | 0 | 0 | 20 | 6 |
1.000 | 1 | 35 | 1 | 1 | 30 | 7 |
0.584 | 0 | 27 | 1 | 0 | 20 | 8 |
0.005 | 0 | 43 | 1 | 0 | 30 | 9 |
0.981 | 1 | 41 | 0 | 0 | 30 | 10 |
0.985 | 1 | 43 | 0 | 0 | 40 | 11 |
0.380 | 1 | 29 | 1 | 0 | 20 | 12 |
0.999 | 1 | 39 | 0 | 1 | 50 | 13 |
این مثال ۴ مشخصه ورودی و یک مشخصه خروجی دارد که ضرایب متغیرهای ورودی در زیر محاسبه شده است :
ax+b= 0.0001income+19.827credit card ins-8.314sex+0.415age+17.691
با این معادله می توان نتایج life insuranee promotion بدست آ ورد ، که همانطور که در جدول فوق نشان داده شده نتایج محاسبه شده با متغیر وابسته هم خوانی زیادی دارد. حال اگر نمونه جدیدی به این صورت داشته باشیم :
In cone=35k credit card Insuranee=1 sex=0 age=39
با محاسبات احتمال بدست آمده برابر ۰٫۹۹۹ می باشد. که این فرد یک کاندیدا را برای بیمه عمرLife(Insuranee promotion می باشد. حالت دیگر اینکه نمونه جدید به صورت :
Ineome=35k credit card Insuran =0 sex=1 age=39
باشد در این حالت مقدار احتما لی بدست آمده برابر ۰٫۰۳۵ است که نشان می دهد یک مرد ۳۹ ساله که در آمد سالیانه او ۳۵۰۰۰ است و بیمه کارت اعتباری ندارد یک نمونه ضعیف برای داشتن بیمه عمرا ست.
۳- Bayse classsifire
این مقدار یکی از روشهای ساده یادگیری نظارتی است، که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز اگر یکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.
Bayse classifier برخلاف اکثر روشهای آماری برای حالتی که مقدار دادهُ یک متغیر ورودی نامعلوم است نیز کاربرد دارد.
مطلب دیکر اینکه زمانی که مقدار یک احتمال صفر باشد چون احتمال ها در هم ضرب می شوند کل احتمال صفر خواهد شد مثلاُ وقتی که باشد مقدار احتمال خواهد شد،Bayes classifier برای رفع این مشکل به یک مقدار k به صورت کسر ضرب در یک احتمال p و یک مقدار kبه مخرج اضافه می کند.
که kمقداری بین صفر و یک دارد که معمولاُ مقدار یک می گیرد و نیز p بستگی به تعداد انتخابهای متغیر خروجی دارد مثلاُ اگر متغیر خروجی دو حالتی باشد(yes,No)،مقدار p برابر ۰٫۵ می باشد.
علاوه برا ین روش (Bayse chassifire) برای حالت Missing data نیز کاربرد دارد. یعنی اگر مقدار یکی از مشخصه های ورودی در یک نمونه جدید را نداشته باشیم. در این روش این مشخصه را کلاُ حذف می شود.
منبع: http://statisticslu.blogfa.com