رگرسیون خطی است? معرفی کامل

  • 2021-03-16

توسط ویل هیلیر , به روز شده در اکتبر 4, 2022 18 دقیقه خواندن

تجزیه و تحلیل پیش بینی بدون شک یکی از ابزارهای مورد ستایش در علوم داده و یادگیری ماشین است. تجزیه و تحلیل پیش بینی کننده با شناسایی روندها و الگوها به پیش بینی رویدادهای بعدی کمک می کند و حتی می تواند شکاف های موجود در مجموعه داده ها را با خودکار کردن وظایف جانشینی در غیر این صورت وقت گیر پر کند. یکی از رایج ترین تکنیک های مورد استفاده در تجزیه و تحلیل پیش بینی رگرسیون خطی است.

رگرسیون خطی مفید است زیرا به ما امکان می دهد رابطه بین یک یا چند متغیر ورودی و یک متغیر خروجی وابسته را مدل کنیم. همچنین به راحتی قابل درک است و می تواند در بسیاری از رشته ها از امور مالی و بازاریابی گرفته تا پزشکی استفاده شود.

اما رگرسیون خطی چگونه کار می کند? نقاط قوت و ضعف چیست? در این راهنمای مبتدی, ما همه چیز شما نیاز به دانستن برای شروع با رگرسیون خطی را پوشش. برای ساده کردن چیزها, ما به زبان انگلیسی ساده استفاده, توضیح هر اصطلاحات مخصوص یک صنف به عنوان ما به. در صورت لزوم, ما همچنین شامل لینک به برخی از عالی رایگان منابع که ریاضی به وضوح توضیح.

  1. رگرسیون خطی چگونه انجام می شود?
  2. چرا رگرسیون خطی مهم است?
  3. مفروضات کلیدی رگرسیون خطی موثر چیست?
  4. چگونه داده ها را برای انجام رگرسیون خطی تهیه می کنید?
  5. نمونه هایی از رگرسیون خطی
  6. تهیه مدل رگرسیون خطی: 4 تکنیک
  7. خلاصه

به تمام اصول اولیه رگرسیون خطی پایین? سپس بیایید شیرجه بزنیم.

1. رگرسیون خطی چگونه انجام می شود?

ما نمی خواهیم به فرض هر گونه دانش قبلی در اینجا, بنابراین قبل از وارد شدن به چگونه ما می توانیم رگرسیون خطی انجام, اجازه دهید پوشش اصول اولیه.

رگرسیون خطی است?

یک مدل رگرسیون خطی به ما اجازه می دهد تا ببینیم چگونه یک چیز بر اساس چگونگی تغییر چیزهای دیگر تغییر می کند. از یک یا چند متغیر ورودی مستقل برای پیش بینی یک متغیر خروجی وابسته استفاده می کند . این برای تلفن های موبایل فنی. با این حال, همه به این معنی است که مقدار پیش بینی شده شما به دنبال برای (متغیر خروجی) بستگی به ارزش هایی که شما را به مدل قرار داده (متغیرهای ورودی).

وقتی فقط یک متغیر ورودی وجود دارد ما این رگرسیون خطی ساده را می نامیم . اگر دو یا چند ورودی وجود دارد, این رگرسیون خطی چندگانه است .

در نگاه اول ممکن است مفهوم رگرسیون خطی ترسناک به نظر برسد. اما این موضوع چندان پیچیده نیست و حتی ممکن است به یاد بیاورید که در مدرسه درس بخوانید. در برخی از نقطه, شما به احتمال زیاد دو مجموعه از نقاط داده در برابر یکدیگر رسم کرده اند و سپس کشیده شده چه به عنوان یک خط از بهترین جا شناخته شده در بالا. سپس از این خط برای پیش بینی مقادیر گمشده در مجموعه داده اصلی خود استفاده کرده اید. در ابتدایی ترین شکل خود این تنها چیزی است که رگرسیون خطی است.

simple linear regression graph

نمودار اندازه گیری رگرسیون خطی ساده بین شادی و درامد. منبع: scribbr. com

رگرسیون خطی چگونه کار می کند?

رگرسیون خطی از معادلات خطی استفاده می کند که می توانیم روی نمودار رسم کنیم. در حالی که معادلات خطی مختلف برای صورت های فلکی مختلف متغیر وجود دارد, ساده ترین معادله (تنها با یک متغیر ورودی) فرم دارد:

توجه داشته باشید که ممکن است با نسخه هایی از این معادله روبرو شوید که از نمادهای مختلف یا ترتیب کمی متفاوت استفاده می کنند (به عنوان مثال.

در مورد معادله ما:

  • بله متغیر وابسته ای را که می خواهید پیش بینی کنید توصیف می کند.
  • ایکس متغیر ورودی را توصیف می کند.
  • م شیب خط را توصیف می کند
  • ب رهگیری تخمینی را در توصیف می کند بله-محور (محور عمودی روی نمودار)

یک بار دیگر, شما احتمالا چیزی در مورد معادلات خطی در طول درس جبر به عنوان یک بچه به دست. اگر شما به یاد داشته باشید, که خوب—اما احتمالا ارزش پرداخت تا در اصول اولیه قبل از ما به هر بیشتر!

چه نوع داده می کند مدل رگرسیون خطی?

برای مدل سازی رابطه بین متغیرهای مختلف ورودی و خروجی می توانید از رگرسیون خطی استفاده کنید. با این حال , مقادیر همیشه باید کمی باشد, یعنی عددی. در حالی که می توانید از رگرسیون خطی برای مدل سازی داده های کیفی (یا دسته ای) استفاده کنید, این شامل اولین اختصاص مقادیر عددی به داده ها است. این تکنیک به عنوان کدگذاری ساختگی شناخته می شود که در بخش 4 بیشتر توضیح خواهیم داد.

همانطور که در نمودار نشان داده شده, مقادیر مورد استفاده برای رگرسیون خطی می تواند شامل یک اندازه گیری عددی از شادی در مقابل درامد, یا چیز دیگری, مانند وزن در مقابل قد. شما حتی می توانید از رگرسیون خطی استفاده کنید تا پیش بینی کنید که چگونه قد کسی بر میزان کسب او تاثیر می گذارد. با این حال, این برجسته یک محدودیت مهم از رگرسیون خطی—در حالی که رسم ارتفاع مردم در برابر حقوق خود ممکن است به ظاهر نشان می دهد علیت, که لزوما چنین نیست. عقل سلیم به ما می گوید که بعید است قد کسی بر میزان کسب او تاثیر بگذارد.

این یکی را نشان می دهد محدودیت رگرسیون خطی. یعنی برای شناسایی همبستگی بین دو متغیر مفید است اما لزوما علیت نیست . این یک واقعیت بسیار اساسی است که باید هنگام انجام هرگونه تحلیل پیش بینی با استفاده از مدل های رگرسیون خطی مورد توجه قرار گیرد: عقل سلیم همیشه مورد نیاز است.

چرا نامیده می شود رگرسیون خطی?

فقط به عنوان یک نقطه کنجکاوی, شما ممکن است تعجب: چرا به نام رگرسیون خطی? در حالی که نام باعث می شود صدای تکنیک پیچیده تر از این است, این واقعا فقط یک توصیف ساده است. 'خطی' به این واقعیت اشاره دارد که شما در حال اندازه گیری یک رابطه خطی بین دو (یا چند) متغیر هستید. در ضمن 'رگرسیون' به این واقعیت اشاره دارد که شما در حال برون یابی داده های خروجی با 'بازگشت' یا 'رگرسیون' هستید تا ببینید چه چیزی از این داده ها سرچشمه گرفته است. این را حس می کند هنگامی که شما می دانید چه معنی!

مشاهده مرتبط: راهنمای مبتدیان برای فرایند تجزیه و تحلیل داده ها که اغلب از مدل های رگرسیون خطی استفاده می شود.

2. چرا رگرسیون خطی مهم است?

رگرسیون خطی به چند دلیل مهم است. اولا کاربردهای خالص دارد:

  • رگرسیون خطی می تواند به شما در پیش بینی نتایج بعدی یا شناسایی داده های از دست رفته کمک کند.
  • رگرسیون خطی می تواند به شما در تصحیح یا تشخیص خطاهای احتمالی در یک مجموعه داده و شناسایی یا تخمین مقادیر صحیح کمک کند.
  • رگرسیون خطی می تواند به شما در اندازه گیری قدرت رابطه بین دو مجموعه متغیر با شناسایی کمک کند ر-مربع مقدار (که مشخص می کند چه مقدار از تغییر در متغیر وابسته توسط متغیر مستقل توضیح داده شده است)

فراتر از این, همچنین دارای طیف گسترده ای از برنامه های کاربردی. در طول سالها کاربردهایی در رشته های مختلف از اقتصاد گرفته تا علوم طبیعی و اجتماعی پیدا کرده است. به طور خلاصه توسط محققان به خوبی درک می شود. این بدان معناست که تحلیلگران داده مجموعه ای از دستورالعمل های واضح و تست شده برای کمک به مدل سازی سریع و دقیق داده ها دارند.

در سال های اخیر, استفاده از رگرسیون خطی در کسب و کار نیز رشد کرده است, به لطف مقدار باور نکردنی از کسب و کار داده در حال حاضر دسترسی به و پیشرفت در تکنولوژی یادگیری ماشین. این اجازه می دهد تا رهبران کسب و کار به تصمیم گیری بسیار بیشتر مطلع, به جای تکیه بر تجربه شخصی و یا احساس دل و روده خود را.

به طور خلاصه, رگرسیون خطی مهم است زیرا این است:

  • دقیق
  • به راحتی قابل درک است
  • دارای طیف گسترده ای از برنامه های کاربردی
  • بسیار برتر از غریزه تجارت است

برای اینکه یک تحلیلگر داده موفق باشید بدون رگرسیون خطی نمی توانید این کار را انجام دهید!

3. مفروضات کلیدی رگرسیون خطی موثر چیست?

در انتهای بخش گذشته اشاره کردیم که رگرسیون خطی به طور کلی نتایج دقیقی را ایجاد می کند و از این رو یک ابزار تحلیلی پیش بینی کننده محبوب است. با این حال خطاناپذیر نیست. همانطور که با هر روش اماری, ما باید برخی از فرضیات پس زمینه کلیدی اعمال. مدل های رگرسیون خطی تنها در صورتی نتایج مفیدی را فراهم می کنند که فرض های زیر را در مورد داده های منبع انجام دهیم:

خطی بودن

خطی بودن فرض می کند که رابطه بین متغیرهای وابسته و مستقل خطی است. این به سادگی به این معنی است که متغیر وابسته با تغییر متغیر مستقل با نرخ ثابت تغییر می کند.

نرمال بودن چند متغیره

نرمال بودن چند متغیره فرض می کند که تمام مقادیر باقیمانده در یک مدل رگرسیون چندگانه به طور معمول توزیع می شود . این مهم است زیرا به این معنی است که مدل مغرضانه نیست و نتایج قابل اعتماد هستند.

با این حال, به طور کامل درک این, شرایط نیاز به برخی از نامیدن!

ما با تعریف 'باقیمانده' شروع خواهیم کرد. مقادیر باقیمانده تفاوت بین مقدار مشاهده شده یک متغیر و مقدار پیش بینی شده توسط مدل را توصیف می کنند. هنگامی که صحبت کردن در مورد باقی مانده از نظر نرمال بودن چند متغیره, ما با اشاره تنها به این مقدار تفاوت, نه به متغیرهای مستقل خود (یک اشتباه رایج).

در همین حال, به طور معمول توزیع' بدان معنی است که داده ها به طور مساوی به اشتراک گذاشته, به این معنی که نقاط داده ها در نزدیکی میانگین (یا میانگین) مکرر تر از داده ها به دور از میانگین.

بنابراین وقتی می گوییم همه باقیمانده ها به طور معمول توزیع می شوند به این معنی است که تفاوت بین مقادیر مشاهده شده و پیش بینی شده به طور متقارن به اشتراک گذاشته می شود و نماینده کل مجموعه داده است.

همجنسگرایی

همجنسگرایی یک کلمه بزرگ برای یک مفهوم نسبتا ساده است! از لاتین گرفته شده و به معنای واریانس یکسان است و به سادگی به نویز تصادفی در رابطه بین متغیرهای مستقل و وابسته اشاره دارد. در اینجا فرض بر این است که حاشیه خطای بین این متغیرها در کل یک مجموعه داده سازگار است. به عنوان مثال: با افزایش ثروت شادی در همان سطح افزایش می یابد. با این حال اگر دریابیم که با افزایش ثروت, افزایش شدیدی در شادی وجود دارد, در مقایسه با ثروت کمتر, ما چیزی داریم که به عنوان ناهماهنگی شناخته می شود . این یک مشکل است زیرا می تواند یک مجموعه داده را به اشتباه وزن کند و باعث ایجاد خطا در مدل پیش بینی شما شود.

اگر این است که هنوز مشخص نیست, این توضیح از تفاوت بین خطی بودن و همجنس گرایی ممکن است به عنوان خوانده شده با ارزش.

استقلال

استقلال فرض می کند که متغیرهای مستقل در مدل به یکدیگر مرتبط یا مرتبط نیستند. این فرض برای معتبر بودن رگرسیون خطی ضروری است. شایان ذکر است که تعیین استقلال تنها با مشاهده داده ها غیرممکن است. برای اطمینان از اینکه متغیرها به یکدیگر مرتبط نیستند باید بدانید که مجموعه داده چگونه جمع شده است.

بدون چند خطی

چند خطی بودن لقمه دیگری از کلمه ای است که به طرز فریبنده ای ساده است. این یک پدیده را توصیف می کند که دو یا چند پیش بینی کننده در یک مدل رگرسیون چندگانه با یکدیگر ارتباط زیادی دارند. بنابراین فرض عدم چند خطی بیان می کند که در یک مدل رگرسیون خطی چندگانه نباید هیچ ارتباطی بین متغیرهای پیش بینی کننده وجود داشته باشد. چرا که نه? زیرا این امر می تواند منجر به اندازه گیری ناپایدار رابطه بین متغیرهای پیش بینی کننده و خروجی/پاسخ شود و تفسیر تاثیر فردی هر پیش بینی کننده بر خروجی را دشوار کند.

حالا که شما درک اساسی از این فرضیات, چه گام های عملی شما باید برای اطمینان از داده های خود را برای یک مدل رگرسیون خطی? بیایید پیدا کردن.

4. چگونه داده ها را برای انجام رگرسیون خطی تهیه می کنید?

جای تعجب نیست که بخش بزرگی از تهیه داده ها برای رگرسیون خطی شامل اطمینان از این است که مجموعه داده با فرضیات ذکر شده در بخش قبلی مطابقت دارد.

زیرا رگرسیون خطی به خوبی درک شده است, قوانین زیادی وجود دارد که می توانید در اینجا اعمال کنید. با این حال, از تمام مجموعه داده های مختلف هستند و نیاز به تحولات مختلف, بهتر است به استفاده از این به عنوان یک راهنما.

با این اوصاف, برخی از تمرینات داده کشمکش اولیه شما ممکن است بخواهید به در نظر گرفتن عبارتند از:

برخورد با داده های از دست رفته

اگر داده ها از مجموعه داده های شما گم شده اند باید تصمیم بگیرید که در این مورد چه کاری انجام دهید. شما هم می توانید نسبت دادن (یا استنباط) ارزش, یا شما می توانید ستون متخلف/ردیف در دسترس نباشد حذف.

حذف داده های فاسد یا پر سر و صدا

برای نگه داشتن نتایج خود را به عنوان دقیق که ممکن است, شما نیاز به حذف هر گونه متغیرهایی که برای رگرسیون خطی مورد نیاز نیست. متغیرهای پر سر و صدا مدل را بهم ریخته و تفسیر نتایج را دشوارتر می کند. شما باید موارد پرت یا سایر داده های بدیهی اشتباه را شناسایی و حذف کنید.

کدگذاری ساختگی داده های طبقه بندی شده

گام دیگر این است که کد ساختگی هر متغیر طبقه بندی. برنامه نویسی ساختگی شامل ایجاد ستون های جدید برای هر دسته و اختصاص یک '0' یا '1' برای نشان دادن اینکه مشاهده در این دسته قرار می گیرد یا خیر. هدف از کدگذاری ساختگی تبدیل داده های غیر خطی به شکلی است که یک مدل رگرسیون خطی می تواند استفاده کند.

استاندارد سازی داده ها

در نهایت باید داده ها را استاندارد کنید. این به این معنی حصول اطمینان از تمام واحدهای اندازه گیری یکسان هستند, به عنوان مثال تمام ارتفاع و وزن در متریک هستند, تمام ارزش ارز یکسان هستند, و غیره. استاندارد سازی همچنین شامل مقیاس بندی مجدد داده ها است (به این معنی که نقاط داده را می توان مانند همان مقیاس مقایسه کرد). شما می توانید با اطمینان از اینکه میانگین 0 و انحراف معیار 1 است به این مهم دست پیدا کنید.

برای کسب اطلاعات بیشتر در مورد این تحولات داده های اساسی, لطفا این راهنمای کامل برای تمیز کردن داده ها .

هنگامی که شما این وظایف را تکمیل کرده اید, شما همچنین باید به بررسی کنید که مجموعه داده خود را مطابق با مفروضات کلیدی خود را در بخش 3. بیایید نگاهی به این موارد بعدی بیندازیم.

فرض خطی بودن را بررسی کنید

شما می توانید فرض خطی بودن مجموعه داده خود را با استفاده از یک نمودار پراکنده را بررسی کنید . اگر رابطه بین متغیرها خطی باشد نمودار یک خط مستقیم را تشکیل می دهد. اگر رابطه خطی وجود نداشته باشد نمی شود و رویکرد غیر خطی مناسب تر خواهد بود.

فرض عادی بودن را بررسی کنید

می توانید فرض نرمال بودن را با استفاده از نمودار هیستوگرام یا احتمال طبیعی بررسی کنید. اگر باقی مانده (همانطور که در بخش قبلی تعریف) به طور معمول توزیع, هیستوگرام خواهد بود زنگ شکل و نمودار احتمال نرمال خطی خواهد بود.

فرض همجنس گرایی را بررسی کنید

راه های مختلفی برای برای همجنسگرایی بررسی وجود دارد, اما یک روش محبوب است, از نو, به سادگی به رسم داده ها. اگر داده ها همجنسگرا باشند به طور مساوی در طول طرح توزیع می شوند. اگر داده ها هتروسکداستیک باشند معمولا در یک منطقه خوشه بندی می شوند یا به روشی غیر یکنواخت پخش می شوند.

چند خطی بودن را بررسی کنید

ساده ترین راه برای بررسی مجموعه داده برای چند خطی این است که به ماتریس همبستگی خود در اکسل نگاه کنید. اگر متغیرهایی با ضریب همبستگی بیشتر از 0.7 وجود داشته باشد ممکن است چند خطی وجود داشته باشد. سپس می توانید متغیرهای پیش بینی کننده بالقوه را با اجرای تجزیه و تحلیل رگرسیون تست کنید. اگر ر-مربع مقدار (ذکر شده در بخش 2) نزدیک به 1 است سپس شما چند خطی دارید و باید این نقاط داده را حذف کنید.

تا بعد, چگونه رگرسیون خطی مورد استفاده در دنیای واقعی?

5. نمونه هایی از رگرسیون خطی

کاوش در رگرسیون خطی در نظریه خوب است اما به درک چگونگی اعمال در زندگی واقعی نیز کمک می کند. بیایید به عنوان یکی از گسترده ترین الگوریتم های مورد استفاده در تجزیه و تحلیل داده ها به نحوه استفاده از رگرسیون خطی در سه بخش کلیدی نگاه کنیم.

رگرسیون خطی در مراقبت های بهداشتی

در پزشکی, رگرسیون خطی اعمال می شود به وظایف پیش بینی اعم از چگونه بیماران را به یک داروی جدید به تحقیقات پزشکی واکنش نشان می دهند. این نیز معمولا مورد استفاده برای پیش بینی متریک شناخته شده به عنوان طول بیمار اقامت (لس). با استفاده از داده های مربوط به طول های قبلی اقامت, تشخیص, بیماری, رژیم غذایی, سن, و حتی موقعیت جغرافیایی, رگرسیون خطی می تواند اینده بیمار را پیش بینی کند. این مزایای بی شماری دارد.

اول اینکه به شناسایی ناکارایی در سیستم مراقبت های بهداشتی کمک می کند. دومین, این یک معیار کیفیت قدرتمند است (لس کوتاه تر به طور کلی به این معنی بیماران در حال گرفتن مراقبت نیاز دارند). سرانجام, این یک اقدام مالی خوب به عنوان یک لس دیگر معمولا گران تر است. از همه این بینش ها می توان برای طراحی استراتژی های جدید که هزینه ها را کاهش می دهد استفاده کرد.

رگرسیون خطی در امور مالی

امور مالی احتمالا منطقه تجاری است که رگرسیون خطی معمولا اعمال می شود. این به این دلیل است که می تواند رویدادهای بعدی را پیش بینی کند و وظایفی را خودکار کند که در غیر این صورت تیم های تجزیه و تحلیل زمان زیادی را می گیرند. برای مثال ما اغلب از رگرسیون خطی برای تحلیل سریهای زمانی استفاده میکنیم . این شامل تجزیه و تحلیل نقاط داده با فاصله در فواصل منظم (به عنوان مثال داده های روزانه بازار سهام یا تغییرات سالانه ارزش فلزات گرانبها) است. مدل سازی این داده ها می تواند به پیش بینی مقادیر بعدی مانند نرخ بهره یا نرخ ارز کمک کند. ما همچنین می توانیم از رگرسیون خطی برای محاسبه ریسک در بخش بیمه استفاده کنیم.

رگرسیون خطی در خرده فروشی

خرده فروشی منطقه دیگری است که معمولا رگرسیون خطی اعمال می شود. یک مدل رگرسیون خطی می تواند به پیش بینی فروش محصولات بعدی و پیش بینی نیازهای دوباره پر کردن سهام و حتی رفتار مشتری فردی کمک کند. در حالت دوم یک خرده فروش ممکن است از رگرسیون خطی برای پیش بینی میزان هزینه مشتری در فروشگاه یا اینترنتی بر اساس سن و جنسیت و موقعیت مکانی خود در میان عوامل دیگر استفاده کند. یک الگوریتم رگرسیون خطی می تواند به خرده فروشان کمک کند تا هزینه ها را با دقت بالایی پیش بینی کنند. این اجازه می دهد تا استراتژی های بازاریابی خود را بهبود بخشند و پیام رسانی و تجربیات مشتری را برای هدف قرار دادن این افراد با محصولاتی که احتمال بیشتری دارند خریداری کنند.

هستند بسیاری از کاربردهای دیگر برای رگرسیون خطی وجود دارد, البته, اما این برجسته چقدر همه کاره مدل می تواند. اگر شما مایل به شیرجه رفتن در کمی عمیق تر با برخی از نمونه های عملی, اتمام این اموزش برای رگرسیون خطی در اکسل و پایتون.

6. تهیه مدل رگرسیون خطی: چهار تکنیک

در این بخش به طور خلاصه چهار تکنیک برای تهیه یک مدل رگرسیون خطی را شرح خواهیم داد. این موارد در یادگیری ماشین رایج است. به عنوان یک مبتدی ممکن است نیازی به دانستن دقیق در مورد او نباشد اما ارزش این را دارد که او را بشناسید.

با توجه به اینکه این تکنیک ها شامل نظریه های کمی پیچیده تر هستند ما این روش را در سطح بالا نگه می داریم و شما را به توضیحات دقیق تری هدایت می کنیم تا بیشتر بیاموزیم.

رگرسیون خطی ساده

رگرسیون خطی ساده به شما امکان می دهد رابطه بین دو متغیر پیوسته — یک متغیر ورودی مستقل و یک متغیر خروجی وابسته را خلاصه و مطالعه کنید. مثالها شامل موارد ذکر شده در بخش 1 مانند رابطه بین درامد و شادی یا بین قد و وزن است. در حالی که رگرسیون خطی ساده ساده ترین مدل برای درک است اما محدودیت هایی دارد. یعنی اکثر مجموعه داده های دنیای واقعی فقط یک متغیر ورودی ندارند بلکه چندین متغیر دارند. در این موارد احتمال بیشتری وجود دارد که از چندین تکنیک رگرسیون خطی (مانند مواردی که در زیر توضیح داده شده است) استفاده کنید.

حداقل مربعات معمولی

حداقل مربعات معمولی (همچنین به عنوان حداقل مربعات خطی شناخته می شود) تکنیکی است که برای پیش بینی پارامترهای ناشناخته برای رگرسیون خطی ساده و چندگانه استفاده می شود. هدف این است که تفاوت بین باقیمانده ها یعنی داده های مشاهده شده و خروجی های پیش بینی شده توسط مدل به حداقل برسد. تفاوت کوچکتر بین این دو مقدار برابر با پیش بینی های دقیق تر است زیرا مدل بهتر با داده ها مطابقت دارد.

نزول گرادیان

نزول گرادیان (همچنین به عنوان شیب دارترین نزول شناخته می شود) یک الگوریتم بهینه سازی است. ما برای یافتن مقادیر متغیرهایی که یک تابع هزینه را به حداقل می رسانند استفاده می کنیم. یک تابع هزینه برای وضوح اندازه گیری فاصله پیش بینی های مدل از مقادیر واقعی است. با به حداقل رساندن این موارد می توانید اطمینان حاصل کنید که پیش بینی ها تا حد امکان به مقادیر واقعی نزدیک هستند و دقت مدل شما را بهبود می بخشند. نزول گرادیان به طور گسترده ای در یادگیری ماشین استفاده می شود زیرا برای مجموعه داده های بزرگ بسیار مفید است.

منظم سازی

که در رگرسیون خطی, منظم سازی تکنیکی است که برای جلوگیری از نصب بیش از حد استفاده می شود. برازش بیش از حد زمانی را توصیف می کند که یک مدل بیش از حد با داده های تمرین مطابقت داشته باشد و بنابراین به خوبی به داده های جدید تعمیم نمی یابد. منظم سازی این مشکل را با افزودن یک جریمه به تابع ضرر حل می کند (تابع ضرر مقادیر یک یا چند متغیر را بر روی یک عدد واقعی ترسیم می کند) که متناسب با مقدار ضرایب (تعداد هر متغیر) است. این مجازات ضرایب را از بزرگ شدن بیش از حد منصرف می کند و بنابراین برازش بیش از حد را کاهش می دهد.

خلاصه

در مقدمه این مبتدی, ما همه چیز شما نیاز به در مورد رگرسیون خطی می دانم بررسی کرده ایم. ما یاد گرفته ایم که:

  • رگرسیون خطی یک تکنیک است که معمولا در تجزیه و تحلیل پیش بینی استفاده می شود. از یک یا چند متغیر ورودی شناخته شده برای پیش بینی یک متغیر خروجی ناشناخته استفاده می کند.
  • به طور کلی, رگرسیون خطی بسیار دقیق است, به راحتی قابل درک است, و دارای طیف گسترده ای از برنامه های کاربردی کسب و کار.
  • رگرسیون خطی موفق مانند هر تکنیک دیگری به معنای ایجاد فرضیات خاص در مورد ویژگیهای یک مجموعه داده است.
  • تهیه یک مجموعه داده برای رگرسیون خطی علاوه بر تمیز کردن کلی دادهها شامل تبدیل دادهها برای پاسخگویی به این فرضیات تا حد ممکن است.
  • رگرسیون خطی به طور گسترده ای در زمینه های کسب و کار مانند بهداشت و درمان استفاده می شود, دارایی, و خرده فروشی, و همچنین در اقتصاد و علوم طبیعی و اجتماعی.
  • تکنیک های رگرسیون خطی شامل رگرسیون خطی ساده, حداقل مربعات معمولی, نزول شیب, و منظم سازی.

در حالی که این را پوشش می دهد اصول اولیه, خیلی بیشتر در مورد رگرسیون خطی و تجزیه و تحلیل ترافیک پیش بینی یادگیری وجود دارد! برای کسب اطلاعات بیشتر در مورد تجزیه و تحلیل ترافیک داده ها به طور کلی, چرا با ثبت نام برای این رایگان شروع نشد, 5-روز, تجزیه و تحلیل ترافیک داده دوره کوتاه ? همچنین برای کسب اطلاعات بیشتر در مورد موضوعات خاص تجزیه و تحلیل داده ها حتما مقالات مقدماتی زیر را بررسی کنید:

کاری که اکنون باید انجام دهید

یک مقدمه عملی برای تجزیه و تحلیل داده ها دریافت کنید و اولین تجزیه و تحلیل خود را با دوره کوتاه تجزیه و تحلیل داده های رایگان و خود گام ما انجام دهید.

با کارشناسان صنعت در یکی از رویدادهای تجزیه و تحلیل داده های زنده رایگان ما شرکت کنید.

با یک مشاور برنامه صحبت کنید تا در مورد تغییر شغل بحث کنید و بفهمید تجزیه و تحلیل داده ها برای شما مناسب است یا خیر.

فقط در 4-7 ماه یک تحلیلگر داده واجد شرایط شوید—با ضمانت شغلی کامل کنید.

این مقاله بخشی از:

تجزیه و تحلیل داده ها

مشارکت کننده در وبلاگ ریخته گری

ویل یک نویسنده بریتانیایی متولد برلین است که 10 سال گذشته را صرف نوشتن درباره تحصیلات و فناوری و تقاطع این دو کرده است. او دارای یک علاقه متعصب مرزی در بنیادی, شده است و در تس منتشر شده, دیلی تلگراف, مجله جدا و بیشتر. داستان او برای بیش از دوازده جایزه کوتاه و طولانی بوده است.

مقالات تجزیه و تحلیل داده های مرتبط

CASE Statements in SQL: Complete Beginners Guide

اظهارات مورد در اس کیو ال: راهنمای کامل مبتدیان

What Are CRUD Operations?

عملیات خام چیست?

Advanced SQL For Data Analytics (Step-by-Step Tutorial)

پیشرفته برای تجزیه و تحلیل داده ها (گام به گام توسط به گام)

ریخته گری است?

ریخته گری یک مدرسه اینترنتی برای افرادی است که به دنبال تغییر شغل با ارزش در فناوری هستند. یک برنامه را انتخاب کنید, با یک مربی متخصص و مدرس زوج, و تبدیل به یک طراح کار, توسعه دهنده, یا تحلیلگر از ابتدا, و یا پول خود را به عقب.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.