什麼是線性回歸?

線性迴歸是一種資料分析技術,可使用另一個相關且已知的資料值來預測未知資料的值。它在數學上將未知或從變量以及已知或獨立變量建模為線性方程。例如,假設您有關於去年的費用和收入的數據。線性迴歸技術會分析此資料,並判斷您的支出是收入的一半。然後,他們通過將未來已知收入減半來計算未知的未來支出。

為什麼線性迴歸很重要?

線性迴歸模型相對簡單,並可提供易於解釋的數學公式來產生預測。線性迴歸是一種成熟的統計技術,可輕鬆應用於軟體和運算。企業使用它可靠且可預測地將原始資料轉換為商業智慧和可行的見解。許多領域的科學家,包括生物學和行為學、環境和社會科學,都使用線性迴歸來進行初步資料分析並預測未來趨勢。許多資料科學方法,例如機器學習人工智慧,都使用線性迴歸來解決複雜的問題。

線性迴歸如何工作?

其核心是,簡單線性迴歸技術試圖繪製兩個資料變數 x 和 y 之間的線形圖。做為自變數,x 會沿著水平軸繪製。自變數也被稱為解釋性變數或預測變數。因變數 y 會繪製在垂直軸上。您也可以參考 y 值作為響應變量或預測變數。

線性迴歸的步驟

對於此概述,考慮 y 和 x 之間的線圖方程的最簡單形式;y=c*x+m,其中 c 和 m 對於 x 和 y 的所有可能值而言都是常數。因此,例如,假設 (x,y) 的輸入資料集為 (1,5)、(2,8) 和 (3,11)。要確定線性迴歸方法,您將採取以下步驟:

  1. 繪製一條直線,並測量 1 和 5 之間的相關性。
  2. 繼續改變新值 (2,8) 和 (3,11) 的直線方向,直到所有值都適合。
  3. 將線性迴歸方程式確定為 y=3*x+2。
  4. 當 x 為時,推斷或預測 y 為 14

什麼是機器學習中的線性迴歸?

在機器學習中,稱為演算法的電腦程式會分析大型資料集,並從這些資料中反向計算線性迴歸方程式。資料科學家首先在已知或標記的資料集上訓練演算法,然後使用演算法來預測未知值。現實生活中的資料比前面的範例更複雜。這就是為什麼線性迴歸分析必須以數學方式修改或轉換資料值以滿足以下四個假設。

線性關係

自變數和因變數之間必須存在線性關係。為了確定這種關係,資料科學家建立了一個散佈圖 (x 和 y 值的隨機集合),以查看它們是否沿著直線下降。如果沒有,您可以套用非線性函數 (例如平方根或對數),以數學方式建立兩個變數之間的線性關係。

殘差獨立性

資料科學家使用殘差來衡量預測準確性。殘差是觀察到的資料和預測值之間的差異。殘差之間不得有可識別的模式。例如,您不希望殘差隨著時間的推移而變大。您可以使用不同的數學測試,例如 Durbin-Watson 測試,以確定殘差的獨立性。您可以使用虛擬資料來取代任何資料變化,例如季節性資料。

正態性

像 Q-Q 圖這樣的圖形技術決定了殘差是否正常分佈。殘差應沿著圖形中心的對角線下降。如果殘差不是正常化,您可以測試隨機異常值或非典型值的資料。移除異常值或執行非線性變換可以解決此問題。

同方差性

同方差性假設殘差與 x 的每個值的平均值具有恆定方差或標準偏差。如果沒有,則分析結果可能不準確。如果不符合此假設,您可能必須變更因變數。由於方差在大型資料集中自然發生,因此改變因變數的比例很有意義。例如,可使用人口規模來預測每人的消防站數量,而不是使用人口規模來預測城市中的消防站數量。

線性迴歸有哪些類型?

某些類型的迴歸分析比其他類型更適合處理複雜的資料集。以下是一些範例。

簡單線性迴歸

簡單線性迴歸由線性函數定義:

Y= β0*X + β1 + ε 

β0 和 β1 是表示迴歸斜率的兩個未知常數,而 ε (epsilon) 是誤差項。

您可以使用簡單的線性迴歸來建模兩個變數之間的關係,例如:

  • 降雨量和作物產量
  • 兒童的年齡和身高
  • 溫度計中金屬汞的溫度和膨脹

多元線性迴歸

在多元線性迴歸分析中,資料集包含一個因變數和多個自變數。線性迴歸線函數會變化,包括以下更多因素,如下所示:

Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε 

隨著預測變數的數量增加,β 常數也相應增加。

 多元線性迴歸模型會將變數與其對結果的影響相乘:

  • 降雨量、溫度和肥料使用對作物產量的影響
  • 飲食和運動對心臟病的影響
  • 工資增長和通貨膨脹對住房貸款利率的影響

邏輯迴歸

資料科學家使用邏輯迴歸來衡量事件發生的可能性。預測是介於 0 和 1 之間的值,其中 0 表示不太可能發生的事件,而 1 表示發生的最大可能性。邏輯方程式使用對數函數來計算迴歸線。

以下是一些範例:

  • 在體育比賽中獲勝或失敗的概率
  • 測試通過或失敗的概率 
  • 圖像是水果或動物的概率

AWS 如何協助您解決線性迴歸問題?

Amazon SageMaker 是一項全受管服務,可協助您快速準備、建置、訓練和部署高品質的機器學習 (ML) 模型。Amazon SageMaker Autopilot 是一種通用的自動機器學習解決方案,可用於分類和迴歸問題,例如詐騙偵測、客戶流失分析和有目標的行銷。 

Amazon Redshift 是一種快速且廣泛使用的雲端資料倉儲,可與 Amazon SageMaker 本地整合,進行機器學習。藉助 Amazon Redshift ML,您可以使用簡單的 SQL 陳述式,從 Amazon Redshift 中的資料中建立和訓練機器學習模型。然後,您可以使用這些模型來解決所有類型的線性迴歸問題。

立即開始使用 Amazon SageMaker JumpStart 或建立 AWS 帳戶

AWS 線性迴歸後續步驟

查看額外的產品相關資源
AWS 上的免費機器學習服務 
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入