视频字幕
複迴歸分析是統計學中的重要工具,它幫助我們理解多個變數之間的關係。與簡單迴歸只考慮一個自變數不同,複迴歸可以同時分析多個自變數對因變數的影響。這個方程式展示了複迴歸的基本形式,其中Y是我們要預測的因變數,X1到Xp是影響Y的自變數,而β係數則表示每個自變數的影響程度。
在進行複迴歸分析之前,我們必須檢查資料是否滿足五個基本假設。首先是線性關係假設,要求因變數與自變數之間存在線性關係。第二是誤差項獨立性,觀測值之間的誤差項必須相互獨立。第三是同質異方差性,誤差項的方差在所有自變數水平上應該保持恆定。第四是誤差項常態性,要求誤差項服從常態分佈,如圖所示。最後是無多重共線性,自變數之間不應存在高度相關性。
複迴歸分析使用最小平方法來估計迴歸係數。這個方法的目標是最小化殘差平方和,也就是實際觀測值與預測值之間差異的平方和。圖中的綠色虛線表示每個觀測點到迴歸線的距離,這些就是殘差。最小平方法找到一條直線,使得所有殘差的平方和最小。迴歸係數的估計公式涉及矩陣運算,其中X是設計矩陣,y是因變數向量。
模型建立後需要進行評估與檢驗。判定係數R平方是最重要的指標,它表示模型能解釋因變數變異的比例,範圍從0到1,越接近1表示模型解釋力越強。調整判定係數考慮了自變數個數的影響,避免因增加變數而虛增R平方值。F檢定用來檢驗模型的整體顯著性,檢驗所有迴歸係數是否同時為零。t檢定則檢驗每個自變數係數的顯著性,判斷該變數是否對因變數有顯著影響。
總結複迴歸分析的重點:複迴歸分析是一種強大的統計工具,用於分析多個自變數與因變數之間的關係。在使用前必須檢查各項基本假設,確保分析結果的可靠性。透過最小平方法估計參數,並使用多種指標評估模型品質。複迴歸分析在各個學科領域都有廣泛應用,是數據分析中不可或缺的方法。