- הקדמה: נרצה להתאים עקום המתאים ביותר לנקודות נתונות. העקום עובר בין ולא בהכרח דרך הנקודות.
- בניית מודלים לקשרים בין משתנים - תוצאות ניסוי וכיוב'.
- מערכות משוואות overdetermined.
- נתונים עם שגיאות משמעותיות.
- אינטרפולציה אינה מתאימה - overfitting.
- נקודות נתונות:
משתנה בלתי תלוי -
משתנה תלוי -
- העקום המתאים ביותר לנקודות הנתונות:
- שגיאת העקום (שארית):
-שגיאה
- קריטריון התאמה: least squares (סכום השגיאות הריבועיות המזערי)
ע"י קריטריון זה קובעים מהו העקום המתאים ביותר. עקום מסדר כלשהו שיתן ערך מינימלי של SSR יהיה המתאים ביותר.
- SSR של קו ישר: רגרסיה לינארית.
אמידת קו הרגרסיה
- עבור רגרסיה לינארית קריטריון ההתאמה הוא:
הם מקדמי הרגרסיה. כדי למצוא אותם, נגזור ונשווה לאפס:
- מתקבלת מערכת משוואות לינאריות עם פתרון יחיד:
הפתרון:
אלה הם
האופטימליים.
השגיאה במודל הרגרסיה
שגיאה סטטיסטית - לא נומרית.
בעצמם הם חישוב של תוצאות מדגם או ניסוי. תוצאות אלו לכשעצמן אינן מדוייקות באופן מוחלט ולכן קיימת שגיאה סטטיסטית.
סטיית תקן - התפלגות הנקודה סביב הקו.
פיזור רחב יותר של נקודות סביב קו הרגרסיה ייתן סטיית תקן גדולה יותר.
- שגיאת התקן של y.
איכות התאמת העקום
- השגיאה (ככל שיותר קטנה - המודל מתאים טוב יותר)
=> תמיד
- שגיאות נתונים במודל הנאיבי. (
הוא הממוצע)
- ההפרש
כשאר
היא השגיאה היחסית בין ההפרש למודל הנאיבי.
ככל ש-
גדול יותר - ההתאמה יותר טובה. זה מעיד על כמה המודל שלנו טוב בהשוואה למודל הנאיבי. אם ההתאמה מושלמת אז
אם אין קשר בין המשתנה התלוי והמשתנים הבלתי תלויים אז
.
רגרסיה במשתנים מרובים
בכתיב מטריציוני:
זהו b האופטימלי בכתיב מטריציוני:
- סטיית התקן ו-
:
- אם מוסיפים משתנים אז
גם כן משתנה:
התאמת עקומים לא לינאריים
עקום לא לינארי יהיה כזה שהפרמטרים שלו
אינם בקשר לינארי.
- לינארית:
- לא לינארית:
- כשאנו מחפשים עקום מתאים ביותר עלינו למצוא את [b] (הפרמטרים) האופטימליים ולכן הפרמטרים הם הנעלמים שלנו ולא המשתנים x, y
.
שיטות פתרון אפשריות:
1) לינאריזציה של משתנים.
2) רגרסיה לא לינארית.
1) לינאריזציה של משתנים
- נשנה את המשתנים כך שהמודל יהיה לינארי בפרמטרים.
דוגמאות:
2) רגרסיה לא לינארית
סכום הריבועים
כאשר
הוא וקטור עמודה ו-
הוא וקטור שורה.
- מתקבלת מערכת משוואות לא לינאריות. פותרים ע"י:
- פתרון איטרטיבי למערכת משוואות לא לינאריות.
-לינאריזציה של המערכת סביב הפתרון הקיים.