رگرسیون لجستیک و انواع آن :: آموزش تخصصی آمار و معادلات ساختاری

انواع رگرسیون لجستیک

هدف از نوشتن این مقاله بررسی رگرسیون لجستیک و انواع آن می باشد. رگرسیون لجستیک ابتدا در اوایل قرن بیستم در حوزه علوم زیستی مورد استفاده قرار گرفت و پس از آن به سرعت استفاده از این مدل آماری در سایر علوم بخصوص در حوزه علوم اجتماعی افزایش یافت. رگرسیون لجستیک زمانی استفاده می شود که متغیر وابسته به صورت گروه بندی شده باشد.

متغیر وابسته می تواند ذاتا طبقه بندی شده باشد، بعنوان مثال :

آیا یک ایمیل اسپم است (1) یا اسپم نیست (0)
آیا یک تومور بدخیم است (1) یا خوش خیم (0)

متغیر وابسته می تواند ذاتا هم طبقه بندی شده نباشد و دارای مقیاس کمی فاصله ای یا نسبی باشد و خود محقق با توجه به سوال پژوهشی تحقیق، با در نظر گرفتن نقطه برش متغیر کمی موجود را به متغیر طبقه بندی شده تبدیل نماید و از رگرسیون لجستیک استفاده کند. بعنوان مثال:

آیا یک فرد چاق است (1) یا در وضعیت نرمال و یا کمی اضافه وزن قرارد دارد (0). مشخص است که وضعیت چاقی فرد با شاخص BMI سنجیده می شود و اگر شخصی شاخص BMI بیشتر از 30 داشته باشد آن شخص چاق می باشد. در واقع می توان از مدل رگرسیون لجستیک برای طبقه بندی وضعیت چاقی یک فرد استفاده کرد، واضح است که متغیر BMI یک متغیر کمی فاصله ای می باشد که ما با در نظر گرفتن نقطه برش 30≤BMI آنرا به یک متغیر گروه بندی شده تبدیل کردیم (افرادی با 30>BMI در گروه افرادی با وضعیت نرمال و کمی اضافه وزن داشته باشند و افرادی که 30≤BMI دارند در گروه چاق قرار بگیرند).

انواع رگرسیون لجستیک

رگرسیون لجستیک باینری یا دو وجهی (Binary logistic regression)
رگرسیون لجستیک چند سطحی یا چند وجهی (Multinomial logistic regression)
رگرسیون لجستیک ترتیبی (Ordinal logistic regression)

انواع رگرسیون لجستیک

در ادامه به صورت مجزا رگرسیون لجستیک و انواع آن را مورد بررسی قرار می دهیم.

رگرسیون لجستیک دو وجهی

در این مدل رگرسیونی متغیر وابسته به صورت دو وجهی می باشد لذا، تنها دو گروه خواهیم داشت.

رگرسیون لجستیک باینری، رگرسیون دو وجهی

مثال رگرسیون لجستیک دو وجهی

آیا یک ایمیل اسپم است (1) یا اسپم نیست (0)

نحوه مدل بندی در رگرسیون لجستیک دو وجهی

هدف از طراحی مدل لجستیک این است که با استفاده از یک سری متغیر مستقل پیش بینی انجام دهیم، بطوریکه اگر یک فرد جدید از جامعه ای که مدل سازی را بر اساس اطلاعات نمونه ای این جامعه انجام داده ایم را انتخاب کنیم مدل پیش بینی کند که فرد در کدام طبقه قرار می گیرد.

اما چرا در رگرسیون لجستیک از تابع logit بعنوان تابع ربط استفاده می کنیم؟؟

در واقع اگر بخواهیم برای احتمال مدل سازی را انجام دهیم، مدل به صورت:

P(yi=1)=βο+β1x1i+β2x2i+…+βkxkiP(yi=1)=βο+β¹x1i+β²x2i+…+βkxki

خواهد بود. که طرف راست مدل که یک ترکیب خطی از متغیر های مستقل است برابر با، مقدار احتمال تعلق داشتن به گروه اول ( کد 1 برای گروه اول و کد 0 برای گروه رفرنس ) می باشد که ممکن است هر مقداری از∞- تا ∞+ را اختیار کند (یک تناقض!!!!(چونکه احتمال بین صفر و یک است)).

استراتژی برای رفع مشکل

برای رفع این مشکل بجای مدل کردن احتمال تعلق داشتن به گروه 1 از مدل کردن odds تعلق داشتن به گروه 1 استفاده می شود (odds =احتمال تعلق داشتن به گروه 1 تقسیم بر تعلق نداشتن به گروه 1 )، زیرا odds می تواند هر مقدار بین صفر تا ∞+ را اختیار کند (چونکه نسبت دو مقدار بین صفر و یک، کمیتی بین صفر تا بی نهایت است)، اما همچنان نمی تواند مقادیر منفی را اختیار کند

حال اگر از (Ln(odds بجای odds برای مدل بندی استفاده کنیم در این صورت دیگر (Ln(odds هر مقداری بین ∞- تا ∞+ را می تواند اختیار کند و مشکل به صورت کلی حل خواهد شد. به این دلیل است که از لینک logit استفاده می شود و این مدل رگرسیونی را رگرسیون لجستیک می نامند. لذا مدل رگرسیون لجستیک به صورت زیر می باشد:

ln(P(yi=1)P(yi=0))=βο+β1x1i+β2x2i+…+βkxki→ln(P(yi=1)1−P(yi=1))=βο+β1x1i+β2x2i+…+βkxkiln(P(yi=1)P(yi=0))=βο+β¹x1i+β²x2i+…+βkxki→ln(P(yi=1)1-P(yi=1))=βο+β¹x1i+β²x2i+…+βkxki

با در نظر گرفتن

p(yi=1)=π1وp(yi=0)=ποp(yi=1)=π¹وp(yi=0)=πο

π1=exp (βο+β1x1i+β2x2i+…+βkxki)1+exp (βο+β1x1i+β2x2i+…+βkxki)π1=exp (βο+β¹x1i+β²x2i+…+βkxki)1+exp (βο+β¹x1i+β²x2i+…+βkxki)

رگرسیون لجستیک چند سطحی

در این مدل رگرسیونی متغیر وابسته چند وجهی (سه گروه و بیشتر ) می باشد. فی الواقع همانند رگرسیون لجستیک دو وجهی در اینجا نیز می خواهیم بر اساس یکسری از متغیر های پیشگو، پیش بینی کنیم که یک نمونه جدیدبر اساس مدل در کدام یک از گروه ها قرار می گیرد.

رگرسیون چند سطحی، رگرسیون چند وجهی

مثال رگرسیون لجستیک چند سطحی

فرض کنید شغل های موجود در یک جامعه را در چهار گروه طبقه بندی کرده ایم و می خواهیم بررسی کنیم که آیا انتخاب شغل افراد در جامعه می تواند تحت تاثیر سطح تحصیلات آنها و شغل پدارانشان قرار بگیرد. برای بررسی این موضوع از مدل رگرسیون چند جمله ای می توان استفاده نمود و متغیر پاسخ در این مثال رده های شغلی می باشند که یک متعیر اسمی با چهار سطح است.

نحوه مدل بندی در رگرسیون لجستیک چند سطحی

فرض کنید J تعداد گروه ها برای متعیر پاسخ (Y) باشد و مجموعه زیر بیانگر احتمال های مربوط به هر گروه پاسخ باشد.

{π1,π2,…,πJ}{π¹,π²,…,πJ}

بطوریکه:

∑j(πj)=1∑j(πj)=1

رگرسیون چند سطحی به طور همزمان تمام جفت گروه ها ( گروه رفرنس با سایر گروه ها) را با استفاده ار odds متغیر پاسخ آنها مدل می کند. در این نوع مدل بندی ترتیب گروه بندی اهمیتی ندارد چرا که مدل برای متغیر پاسخ، مقیاس اسمی را در نظر می گیرد.

نحوه مدل بندی

با در نظر گرفتن تنها یک متغیر پیشگو (صرفا برای سادگی) و گروه J بعنوان گروه رفرنس، مدل هایی که پاسخ یا در گروه j-ام قرار می گیرد یا در گروه رفرنس به صورت زیر می باشد.

ln(πjπJ)=βο+β1x j=1,2,…,J−1ln(πjπJ)=βο+β¹x j=1,2,…,J-1

این مدل J-1 معادله دارد که هر معادله ضرایب متفاوتی خواهد داشت.

نرم افزار های آماری تمام J-1 معادله را به صورت همزمان برازش می دهند. که در این حالت ضرایب برآورد شده دقیقتری (دارای انحراف استاندارد کمتر) خواهیم داشت نسبت به حالتی که برای هر یک از J-1 جفت گروه به صورت جداگانه مدل لجستیک دو وجهی برازش داده شود . نکته حائز اهمیت این است که اگر از مدل رگرسیون چند سطحی که به صورت همزمان ضرایب تمام J-1 معادله را برآورد می کند، انتخاب گروه رفرنس کاملا اختیاری می باشد و تاثیری در برآورد ضرایب نخواهد داشت.

رگرسیون لجستیک ترتیبی

زمانی که متغیر پاسخ به صورت ترتیبی می باشد مدل لجستیک می تواند از این ترتیب ها استفاده کند. در نتیجه نتایجی که از مدل لجستیک ترتیبی حاصل می شود به نسبت مدل لجستیک چند سطحی (که متغیر پاسخ را به صورت یک متغیر اسمی در نظر می گیرد) تفسیرپذیرتر و دارای توان آماری بیشتر خواهد بود.

رگرسیون لچستیک ترتیبی، رگرسیون لچستیک اوردینال

مثال رگرسیون لجستیک ترتیبی

یک محقق بازاریابی در یک شرکت می خواهد عوامل تاثیرگذار بر سایز نوشابه ( کوچک، متوسط و بزرگ) را که توسط مردم در فست فود های زنجیره ای سفارش داده می شود مورد بررسی قرار دهد. نوع ساندویج سفارش داده شده، سفارش سیب زمینی سرخ شده و سن مشتریان بعنوان عوامل تاثیرگذار بر سفارش سایز نوشابه می باشد. همانطور که مشخص است متغیر پاسخ(سایز نوشابه)، یک متغیر ترتیبی می باشد.

نحوه مدل بندی در رگرسیون لجستیک ترتیبی

در این نوع مدل از رگرسیون لجستیک، از احتمال تجمعی برای متغیر پاسخ استفاده می شود. برای گروه پاسخ j، احتمال تجمعی برابر

p(y≤j)=π1+π2+…+πj , j=1,…,Jp(y≤j)=π¹+π²+…+πj , j=1,…,J

می باشد.

logit[p(y≤j)]=ln[p(y≤j)1−p(y≤j)]=ln[π1+π2+…+πjπj+1+πj+2+…+πJ] j=1,…,J−1logit[p(y≤j)]=ln[p(y≤j)1-p(y≤j)]=ln[π¹+π²+…+πjπj+1+πj+2+…+πJ] j=1,…,J-1

در واقع مدل logit تجمعی شبیه به مدل رگرسیون باینری می باشد. بطوری که گروه 1 تا j در گروه اول و گروه j+1 تا J در گروه دوم در نظر گرفته می شود. در مدل رگرسیون ترتیبی می توان خاصیت نسبتی بودن odds را بررسی کرد.

در این مقاله به بررسی رگرسیون لجستیک و انواع آن پرداختیم، حال می خواهیم وجه های مثبت رگرسیون لجستیک نسبت به تحلیل تشخیصی را مورد بررسی قرار دهیم.

تفاوت رگرسیون لجستیک و تحلیل تشخیصی (ممیزی)

رگرسیون لجستیک هیچ پیش فرض خاصی برای توزیع متغیر ها در نظر نمی گیرد در حالی که در تحلیل تشخیصی فرض نرمال بودن متغیر ها ضروری می باشد. لذا در حجم نمونه زیاد، این دو روش نتایج تقریبا یکسانی خواهند داشت، چونکه در حجم نمونه زیاد توزیع متغیرها به نرمال بیشتر گرایش پیدا می کنند.(وقتی حجم نمونه کم است (کمتر از 50) و یا توزیع متغیر ها نرمال نمی باشد، استفاده از روش تحلیل تشخیصی از لحاظ تئوری اشتباه می باشد)

فرض دیگری که باید برای استفاده از تحلیل تشخیصی درنظر گرفته شود، عدم وجود رابطه هم خطی بین متغیر های مستقل می باشد.(یعنی متغیر های مستقل با هم همبستگی بالایی نداشته باشند)

رگرسیون لجستیک زمانی که متغیر های مستقل کمی فاصله ای، نسبتی، کیفی، ترتیبی و یا ترکیبی از اینها باشد و یا اگر بین متغیر های مستقل همخطی نیز وجود داشته باشد، می تواند مورد استفاده قرار بگیرد.لذا همواره کاربرد بیشتری خواهدداشت.

آموزش تخصصی آمار و معادلات ساختاری

آموزش تخصصی آمار و معادلات ساختاری

SPSS- AMOS- LISREL- Smart PLS- Warp PLS- R