線性迴歸與邏輯迴歸之間有何差異?

線性迴歸和邏輯迴歸是機器學習技術,可透過分析歷史資料進行預測。例如,透過查看過去的客戶購買趨勢,迴歸分析估算未來的銷售額,因此,您可以進行更明智的庫存採購。線性迴歸技術以數學方式,根據多個已知因子來對未知因子建模,以估算確切的未知值。同樣,邏輯迴歸使用數學來找出兩個資料因子之間的關係。然後,它使用這種關係來根據其中一個要素預測另一個要素的值。這樣的預測通常具有有限數量的結果,例如是或否。

閱讀有關線性迴歸的內容 »

閱讀有關邏輯迴歸的內容 »

做出預測:線性迴歸與邏輯迴歸

線性迴歸和邏輯迴歸都使用數學建模,來預測一個或多個輸入變數產生的輸出變數值。輸出變數是因變數,輸入變數是自變數

線性迴歸

每個自變數都與因變數有直接關係,而且與其他自變數沒有關係。這種關係被稱為線性關係。因變數通常是從一系列連續值所產生的值。

這是用於建立線性迴歸模型的公式或線性函數:

y= β0 + β1X1 + β2X2+… βnXn+ ε

以下是每個變數的含義:

  • y 是預測的因變數
  • 當所有輸入自變數等於 0 時,β0 是 y 截距
  • β1X1 是第一個自變數 (X1) 的迴歸係數 (B1),即第一個自變數對因變數的影響值
  • 當有多個輸入值時,βnXn 是最後一個自變數 (XN) 的迴歸係數 (BN)
  • ε 是模型錯誤

線性迴歸的一個範例是依據房間數量、鄰近區域和年齡 (自變數) 來預測房屋價格 (因變數)。

邏輯迴歸

因變數的值是使用二進制分類的有限類別清單中的一個值。這些被稱為分類變數。一個範例是擲一個六面骰子的結果。這種關係被稱為邏輯關係。

邏輯迴歸的公式會將邏輯轉換 (或賠率的自然對數) 套用至特定分類變數成功或失敗的機率。

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

以下是每個變數的含義:

  • y 給出 y 分類變數的成功機率
  • e (x) 是歐拉數,自然對數函數或乙狀函數的反函數 ln (x)
  • Β0, β1X1…βnXn 與上一節中的線性迴歸具有相同的含義

邏輯迴歸的一個範例是依據房間數量、鄰近區域和年齡 (自變數) 來預測房屋價格超過 500,000 美元 (因變數) 的機率。

線性迴歸與邏輯迴歸之間有什麼相似之處?

線性迴歸和邏輯迴歸具有某些共同點,並且具有範圍廣泛的類似應用。

統計分析

邏輯迴歸和線性迴歸是統計或資料分析的兩種形式,並且屬於資料科學領域。兩者都使用數學建模,將一組自變數或已知變數與因變量建立關聯。您可以將邏輯迴歸和線性迴歸表示為數學方程式。您還可以在圖表上表示模型。

機器學習技術

線性迴歸和邏輯迴歸模型都可用於監督機器學習。

監督式機器學習涉及透過輸入標記的資料集來訓練模型。因變數和自變數已知,並由人類研究人員收集。透過輸入已知的歷史資料,對數學方程式進行逆向工程。最終,預測可以準確地透過已知的自變數來計算未知的因變量。

監督式學習與非監督式學習有所差異,後者沒有標記資料。

閱讀有關機器學習的內容 »

訓練難度

邏輯迴歸和線性迴歸都需要大量的標記資料,以便模型在預測中變得準確。這對人類來說可能是一項艱鉅的任務。例如,如果您想要標記影像是否包含汽車,則所有影像都必須具有變數標籤,例如汽車尺寸、相片角度和障礙物。 

有限的預測準確度

將輸入資料與輸出資料相適應的統計模型,並不一定意味著因變數與自變數之間的因果關係。對於邏輯迴歸和線性迴歸,關聯性並非因果關係。

若要使用上一節中房屋定價的範例,請假設房主的姓名聯結了自變數清單。然後,John Doe 這個名字將與較低的房屋銷售價格關聯。雖然在房主名字是 John Doe 時,線性迴歸和邏輯迴歸總是會預測較低的房價,但邏輯表示這種與輸入資料的關係不正確。

主要差異:線性迴歸與邏輯迴歸

邏輯迴歸和線性迴歸在其數學方法方面差異最大。

輸出值

線性迴歸輸出是持續標度值。例如,這包括數字、公哩,價格和重量。

相較之下,邏輯迴歸模型輸出值是固定分類事件發生的機率。例如,0.76 可能意味著穿藍色襯衫的機率有 76%,而 0.22 可能意味著投「贊成」票的機率有 22%。

可變關係

在迴歸分析中,迴歸線是表示每個自變數和因變數之間關係的圖形線形狀。

在線性迴歸中,迴歸線是直線。對自變數做出的任何變更都會直接影響因變數。

在邏輯迴歸中,迴歸線是 S 形曲線,也稱為乙狀曲線。

數學分佈類型

線性迴歸遵循因變數的正態或高斯分佈。正態分佈依據圖形上的連續線描繪。

邏輯迴歸遵循二項式分佈。二項式分佈通常被描繪為條形圖。

何時使用線性迴歸與邏輯迴歸

當您要透過標度值來預測持續的因變數時,可以使用線性迴歸。若您期望二進制結果 (例如,是或否),則使用邏輯迴歸。

以下是線性迴歸的範例: 

  • 依據母親和父親的身高預測成年人的身高
  • 依據價格、一年中的時間和商店位置預測南瓜銷量
  • 依據出發地、目的地、一年中的時間和航空公司預測機票價格
  • 依據海報、自然關注者人數、張貼的內容和發佈的時間預測社交媒體讚好的次數

以下是邏輯迴歸的範例:

  • 依據 BMI、吸煙狀況和遺傳易感性,預測一個人是否會患上心髒病
  • 依據顏色、尺寸、類型和價格,預測哪些零售服裝最受青睞
  • 依據薪資率、辦公天數、會議次數、傳送的電子郵件數目、團隊和任期,預測員工是否會在該年退出
  • 依據上一年的銷售額、任期和傭金率,預測哪些銷售團隊成員在一年內將有超過 100 萬美元的合約

差異摘要:線性迴歸與邏輯迴歸

 

線性迴歸

邏輯迴歸

這是什麼?

一種用於預測從一組輸入值產生的輸出值的統計方法。

一種用於預測輸出值產生自一組分類變數中某個類別的機率的統計方法。

關係

線性關係,用直線表示。

邏輯關係或乙狀關係,用 S 形曲線表示。

方程式

線性。

對數。

監督式學習類型

迴歸。

分類。

分佈類型

正態/高斯。

二項式。

最適合

需要從規模預測持續因變數的任務。

需要從一組固定類別發生的分類因變數預測可能性的任務。

如何在 AWS 上執行線性迴歸和邏輯迴歸分析?

您可以使用 Amazon SageMaker,在 Amazon Web Services (AWS) 上執行線性迴歸和邏輯迴歸分析。

Amazon SageMaker 是一項全受管機器學習服務,具有同時用於線性迴歸和邏輯迴歸的內建迴歸演算法,以及多種其他統計資料軟體套件。您可以視需要使用盡可能多的輸入值來實作線性迴歸,或使用邏輯機率模型解決迴歸問題。

舉例來說,以下是您在使用 SageMaker 時可獲益的方式:

  • 快速準備、建置、訓練和部署迴歸模型
  • 消除線性迴歸和邏輯迴歸程序中每個步驟的繁重工作,並開發高品質的迴歸模型
  • 在單一工具集中存取迴歸分析所需的所有元件,以便更快捷、更輕鬆、更經濟實惠地將模型投入生產

立即建立帳戶,開始使用 AWS 上的迴歸分析。