regression_model_1.1

迴歸分析白話文系列1.1_迴歸模型之變數關係

迴歸分析

不管你的專業是什麼、大學就讀的科系是什麼,或多或少一定有聽過「迴歸分析」這個名詞,因為高中數學其實就有提到一些迴歸分析的部分,只是大家的印象應該停留在那個很長一串的相關係數公式吧XD

其實迴歸分析非常複雜,並不像我們高中學到的這麼簡單,套幾個公式就能夠解決了,背後有非常多的假設及機率論的東西;今天就從最簡單的”簡單線性迴歸”開始,只有一個預測變數需要考慮,統計關係圖也是線性的,相比其他複雜的迴歸模型來說單純非常多。

變數之間的關係

變數與變數之間的關係有兩種,分別是「函數關係(functional relation)」以及「統計關係「statistical relation」」

▋函數關係
函數關係的意思是,兩變數的關係可以透過一個數學方程式來完整表達,譬如我想知道”阿Q關東煮店的銷售量以及銷售額的關係”,這間阿Q關東煮店只有賣一個商品-貢丸,一顆貢丸賣10元,有了基本的資訊後,我們就可以來建立數學方程式,我們令X為獨立變數(independent variable),Y為相依變數(dependent variable),在這邊貢丸的銷售量為X,阿Q關東煮店的銷售額為Y。

這邊偷偷打岔一下,很多人可能會被這些什麼獨立相依自變數應變數的名詞搞得很亂,如果已經知道的就可以跳過這一段,不知道的人可以看完這段再繼續,「獨立變數」「自變數」是相同的意思,「相依變數」「應變數」是相同的意思;為什麼會叫做「獨立變數」或「自變數」呢?大家可以從字面上看,”獨立”代表不會受到他人的影響,”自變數”表示自己改變自己,像上面的X為貢丸的銷售量,並不會受到其他變數的影響,所以他在這邊是我們的「獨立變數」、「自變數」;相反的,店家的銷售額會受到貢丸銷售量這項變數的影響,他需要”依賴”X這項變數,需要”因應”X來做改變,因此Y才會叫做「相依變數」、「應變數」。

假設完變數後,我們就可以為阿Q關東煮店建立函數關係了,為
接下來用畫圖的形式來表示

由於阿Q關東煮店的銷售額與銷售量具備函數關係,所以每一個觀測式都會落在這條線上,不可能有任何一點在線外,如果在線外那函數關係就不成立

▋統計關係
這邊我們一樣用阿Q關東煮店來舉例,老闆想要知道「關東煮店的每日營業額與客人數量」的關係,並且給了我們10天的資料。

我們一樣令Y為反應變數,令X為獨立變數(這邊X又可以稱做解釋變數預測變數),令關東煮店的每日營業額為Y,令每日的客人數量為X

對於散布圖上當中的每一個點,統計上有個專業的名詞稱為「試驗點(trial)」或事件之「個案(case)」

大家可以看到散布圖當中有一條紅色的直線,這條線代表的就是每日營業額與每日客人數量的統計關係,很明顯地,並不是每個點都會落在線上,但是大致上都在線的附近,雖然沒辦法完全準確預測,但已經具備非常高度的實用性了。

那為什麼這些點會落在線外,有沒有辦法找到一條線是能夠讓這些所有的點都串連起來呢?首先,這先點之所以會落在線外,是因為我們並沒有把所有可能性都考慮進去,在這個案例當中,我們只用了”每日人數”這個變數希望能夠得知每日的營業額,但有沒有可能這個營業額會受到如天氣、客戶職業等等的影響呢?當然有,只不過我們這邊沒有將他考慮進去,所以才會造成這條線沒辦法完全準確的與散布圖上的點符合;當然,在這個案例當中要找到一條線能夠符合圖上的所有的試驗點是有可能的,但這條線就不會是一條直線,也就不會是本篇文章要探討的「簡單線性迴歸」,可能會是一條複雜的曲線,這個數學方程式肯定會變得更加複雜,甚至無法透過視覺化散布圖來呈現。

好了,再寫下去這篇可能就太長了,下一篇再跟大家介紹迴歸模型的起源與用途,並慢慢開始把迴歸模型更深入的數學以及機率論的東西用更淺顯易懂的方式寫出來!希望大家每看完一篇,就能對迴歸模型更了解一些!

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *