機(jī)器學(xué)習(xí)邏輯回歸算法
邏輯回歸算法是機(jī)器學(xué)習(xí)中二分類問題的一種方法,具有實現(xiàn)簡單、高效、解釋性強(qiáng)的優(yōu)點,廣泛應(yīng)用于預(yù)測分析。在這篇文章中,我們將介紹它的算法原理。

邏輯回歸算法是什么?
邏輯回歸是一種用于二分類問題的機(jī)器學(xué)習(xí)方法,它通過一種叫做“ sigmoid 函數(shù)(平滑函數(shù))將線性回歸輸出映射到映射。 0 到 1 概率值之間,然后進(jìn)行分類。
盡管名字包含了“回歸”,但實際上它是一種分類方法,主要用于二分類問題,而且還推廣到處理多分類問題。
邏輯回歸模型導(dǎo)出是一個概率值,一般情況下,我們會設(shè)置一個閥門值,當(dāng)模型輸出概率大于此閾值時,我們將樣本判定為正類,否則判定為負(fù)類。
邏輯回歸算法的原理
邏輯回歸的原理是通過平滑函數(shù)將線性回歸的輸出結(jié)果(Sigmoid 函數(shù))轉(zhuǎn)化為 0-1 其中一個概率值。概率值為正分類概率值。
平滑函數(shù)的示意圖如下:

如上所述,邏輯回歸必須基于線性回歸。線性回歸 Y 值分布,通常屬于二次分布,當(dāng)樣本數(shù)據(jù)極不規(guī)則時,我們認(rèn)為 Y 值仍然屬于二項分布。 ( 可以自己理解二次分布的概念)
Y 價值屬于正態(tài)分布
Y 價值屬于二次分布
如果某一事件的發(fā)生率為兩個分布問題, P ,因此,這一事件不會發(fā)生。 1 ? P,這一事件的概率被定義為發(fā)生概率與不發(fā)生概率之比。我們自然地選擇概率對數(shù)。 ( 值可以是負(fù)無窮大,也可以是正無窮大)投射線性分布 y 值。
ln ( P/(1-P) ) =y 可以得到平滑函數(shù)公式
邏輯回歸算法的應(yīng)用步驟
1. 數(shù)據(jù)預(yù)處理
2. 線性回歸模型的參數(shù)及確定 Y 值
采用梯度下降法定義線性回歸模型(GD)(或者使用最小二乘法)獲得線性回歸方程參數(shù),然后計算 Y 值。
3. 正類概率用平滑函數(shù)計算出來。
4. 定義概率閥值
根據(jù)工程要求,設(shè)置概率閥值。
5. 預(yù)測結(jié)果
邏輯回歸算法的適用邊界和優(yōu)缺點
1. 適用界限
邏輯回歸算法適用于二分類問題,也就是說,數(shù)據(jù)只有兩個類別。
我們可以使用多個邏輯回歸模型來解決多分類問題。另外,邏輯回歸算法還規(guī)定數(shù)據(jù)符合一定的假設(shè)條件,例如,特征之間有線性可分。,數(shù)據(jù)服從伯努利的分布等。
2. 優(yōu)勢
簡單易行。
計算效率很高,適合大規(guī)模數(shù)據(jù)的處理。
結(jié)果更具解釋性。邏輯回歸模型的結(jié)果可以轉(zhuǎn)化為概率值,便于我們的解釋和分析。
3. 缺陷
線性可分性:邏輯回歸只能解決線性可分性問題,對于非線性可分?jǐn)?shù)據(jù),邏輯回歸效果會很差。
處理多分類問題困難:邏輯回歸一般只能處理二分類問題,對于多分類問題,需要進(jìn)行一些額外的處理。
易過擬合:若樣本量不足或特征過于復(fù)雜,邏輯回歸易過擬合。
對于異常值敏感:邏輯回歸對于異常值比較敏感,特別是在特征空間較小的情況下,異常值可能會對模型的性能產(chǎn)生很大的影響。、
第五,應(yīng)用領(lǐng)域
線性回歸模型主要用于預(yù)測和分析,邏輯回歸模型是基于線性回歸,所以也主要用于預(yù)測,但邏輯回歸模型是基于線性回歸,更多的編輯回歸用于預(yù)測二分類而不是具體值。比如預(yù)測房價漲跌,預(yù)測客戶性別,預(yù)測用戶是否點擊商品(頁面)、預(yù)測顧客是否購買指定商品等。以下是更多的場景:
信貸評級:預(yù)測個人和企業(yè)的信貸風(fēng)險,協(xié)助銀行和金融機(jī)構(gòu)做出信貸決策。
疾病預(yù)測:根據(jù)病人的臨床特點和醫(yī)學(xué)檢查結(jié)果,預(yù)測病人是否患有糖尿病、高血壓等疾病。
市場預(yù)測:預(yù)測市場趨勢和產(chǎn)品銷量,幫助企業(yè)制定營銷策略和業(yè)務(wù)決策。
欺詐性檢查:識別信用卡欺詐、網(wǎng)絡(luò)欺詐等欺詐行為,幫助金融機(jī)構(gòu)和電子商務(wù)平臺提高安全性。
用戶行為分析:通過優(yōu)化智能推薦和客戶體驗,預(yù)測用戶行為,如購買意向、流失風(fēng)險等。
市場調(diào)查:分析市場調(diào)查數(shù)據(jù),預(yù)測消費者對產(chǎn)品或服務(wù)的偏好和購買意向。
網(wǎng)絡(luò)點擊量預(yù)測:預(yù)測廣告或推廣內(nèi)容的點擊量,幫助廣告主提高廣告策略。
人口統(tǒng)計研究:分析人口統(tǒng)計數(shù)據(jù),預(yù)測人口行為和趨勢,如選民投票、消費行為等。
作者:厚謙,微信官方賬號:小王子和月季
本文由 @厚謙 在沒有作者許可的情況下,原發(fā)布于每個人都是產(chǎn)品經(jīng)理,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com