ضریب همبستگی؛ ضریب تعیین
سلام
در ادامه پست پیشین ...
همیشه وقتی فواصل ارائه گزارش پژوهش ها زیاد باشه؛ درک اهمیت و چگونگی و مفهوم دو ضریب همبستگی و تعیین گریبانگیر آدم میشه. برای من اینجوریه. این دو ضریب همون r و R2 هستند.
در واقع در این نوشته میخوام بگم که یک رابطه رگرسیونی چقدر میتونه معرف داده های شما باشه؟! یعنی تعیین همین "چقدر"!!
یکی از راه های پاسخ به این سوال استفاده از همان دو ضریب بالاست. یعنی:
- ضریب تعیین یا R2 و یا Coefficient of Determination
- ضریب همبستگی یا r و یا Correlation Coefficient
ضریب همبستگی:
مقدار r، با نام ضریب همبستگی خطی یا linear correlation coefficient، قدرت و جهت یک رابطه خطی را بین دو متغیر بیان میکند. این مقدار گاهی اوقات به افتخار کارل پیرسون به نام ضریب همبستگی پیرسون هم خطاب میشود. رابطه r عبارت است از:
که n تعداد جفت داده هاست.
مقدار r در بازه:
-1 < r < +1
است. علامت های مثبت و منفی برای همبستگی خطی مثبت و منفی به کار میرود.
- همبستگی مثبت: اگر x و y کاملا همبستگی مثبت داشته باشند، r به 1 مثبت نزدیک است. یک مقدار r اگر دقیقاً مقدار 1 مثبت باشد نشان دهنده یک انطباق مثبت عالی است. مقادیر مثبت نشان دهنده یک رابطه بین x و y است به نحوی که برای افزایش مقدار x مقادیر y نیز افزایش می یابند.
- همبستگی منفی: اگر x و y کاملاً همبستگی منفی داشته باشند، r به 1 منفی نزدیک است. یک مقدار r اگر دقیقاً مقدار 1 منفی باشد نشان دهنده یک انطباق منفی عالی است. مقادیر منفی نشان دهنده یک رابطه بین x و y است به نحوی که برای افزایش مقادیر x مقدار y کاهش می یابد.
- عدم نبود همبستگی: اگر همبستگی خطی نبود و یا یک همبستگی ضعیف خطی وجود داشت، r نزدیک به صفر خواهد بود. یک مقدار نزدیک صفر بدین معناست که یک رابطه غیر خطی، تصادفی بین دو متغیر وجود دارد.
- توجه کنید که r یک مقدار بدون واحد است و وابسته به واحد هایی که شما برای متغیرهایتان فرض کردید نیست.
- یک انطباق و همبستگی عالی با مقادیر مثبت و یا منفی 1 فقط زمانی که تمامی نقاط داده کاملاً منطبق بر یک خط مستقیم باشند. اگر مقدار r به اندازه 1 مثبت و یا منفی بود شیب این خط به ترتیب مثبت و یا منفی خواهد بود.
- همبستگی بالاتر از 0.8 معمولاً یک همبستگی قوی تخمین زده میشود. به همین نسبت همبستگی کمتر از 0.5 نیز عموماً یک همبستگی ضعیف تلقی میشود. البته این مقادیر میتواند بسته به نوع داده های مورد آزمایش و تحلیل تغییر کند. مثلاً یک تحقیق و پژوهش علمی نیاز به همبستگی بالایی نسبت به یک پژوهش در حوزه علوم انسانی دارد.
ضریب تعیین:
ضریب تعیین و یا همان r2، به دلیل اینکه نسبت واریانس و یا همان نوسان یک متغیر (که میتواند توسط متغیر دیگری پیش بینی شود) را ارائه میکند بسیار به دردبخور است. این تخمین به ما این اجازه را میدهد که تعیین کنیم چگونه یک مقدار معین توسط یک نمودار و یا مدل معین پیش بینی شود.
- ضریب تعیین، نسبت تغییرات تشریح شده به کل تغییرات است.
- بازه مقدار R2 به قرار زیر است:
0<R2<1
که بیان کننده قدرت ارتباط خطی بین x و y است.
- ضریب تعیین درصدی از داده هایی که نزدیک خط بهترین برازش قرار گرفته اند را بیان میکند. هرچه بیشتر باشد داده های بیشتری به این خط نزدیک اند. برای مثال اگر مقدار r برابر با 0.922 و مقدار r2 برابر با 0.850 باشد این معنا وجود دارد که 85 درصد از کل تغییرات در y را میتوان توسط رابطه خطی بین x و y که توسط رابطه رگرسیونی بیان میشود توصیف کرد. مابقی 15 درصد کل تغییرات در y توصیف نشده باقی میمانند.
- ضریب تعیین چگونگی خوبی خط رگرسیون نشان دهنده داده ها را تخمین میزد. اگر خط رگرسیون به خوبی از همه نقاط روی نمودار تعاملی داده ها (Scatter Plot) عبور کرد میتواند همه تغییرات را توصیف کند. هرچه خط از نقاط دورتر شود قابلیت توصیف داده ها کمتر میشود.
در انتها هم اضافه کنم: (منبع)
تفاوت ضریب تعیین (R-squared) و ضریب تعیین تعدیل شده (R^2 adjusted)
تفاوت مهم میان ضریب تعیین و ضریب تعیین تعدیل شده این است که ضریب تعیین فرض میکند که هر متغیر مستقل مشاهده شده در مدل ، تغییرات موجود در متغیر وابسته را تبیین میکند . بنابراین درصد نشان داده شده توسط ضریب تعیین با فرض تاثیر همه متغیرهای مستقل بر متغیر وابسته میباشد. در صورتی که درصد نشان داده شده توسط ضریب تعییین تعدیل شده فقط حاصل از تاثیر واقعی متغیرهای مستقل مدل بر وابسته است و نه همه متغیرهای مستقل . تفاوت دیگراین است که مناسب بودن متغیرها برای مدل توسط ضریب تعیین حتی با وجود مقدار بالا قابل مشخص نیست در صورتی که میتوان به مقدار براورد شده ضریب تعیین تعدیل شده اعتماد کرد.
ضریب تعیین نشان میدهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می شود.
-
آیا R² معیار مناسبی برای تبیین میزان تاثیر متغیر مستقل بر متغیر وابسته است؟ خیر
- چرا؟ چون با افزایش مشاهدات و هم چنین با افزایش متغیر های مستقل میزان R² افزایش می یابد این افزایش ممکن است کاذب باشد.
-
برای رفع این مشکل چه کنیم؟به R² تعدیل شده نیاز داریم ،R² تعدیل شده میزان R² را با توجه به متغیرهای مستقل اضافه شده به خط رگرسیون وبا توجه به عرض از مبدا های جدید ،تعدیل و اصلاح می کند.هرچه تفاوت میان R² و R² تعدیل شده کمتر باشد نشان میدهد که متغیر های مستقل که به مدل اضافه شده اند به درستی انتخاب شده اند.
واقعا ممنونم