多元回歸分析_單因素統計和多因素回歸分析有什么區別 _生活經驗

多元線性回歸分析的優缺點一、多元線性回歸分析的優點：
1、在回歸分析中，如果有兩個或兩個以上的自變量，就稱為多元回歸。事實上，一種現象常常是與多個因素相聯系的，由多個自變量的最優組合共同來預測或估計因變量，比只用一個自變量進行預測或估計更有效，更符合實際。因此多元線性回歸比一元線性回歸的實用意義更大。
2、在多元線性回歸分析是多元回歸分析中最基礎、最簡單的一種。
3、運用回歸模型，只要采用的模型和數據相同，通過標準的統計方法可以計算出唯一的結果。
二、多元線性回歸分析的缺點
有時候在回歸分析中，選用何種因子和該因子采用何種表達式只是一種推測，這影響了用電因子的多樣性和某些因子的不可測性，使得回歸分析在某些情況下受到限制。
多元線性回歸的基本原理和基本計算過程與一元線性回歸相同，但由于自變量個數多，計算相當麻煩，一般在實際中應用時都要借助統計軟件。這里只介紹多元線性回歸的一些基本問題。

文章插圖
擴展資料
社會經濟現象的變化往往受到多個因素的影響，因此，一般要進行多元回歸分析，我們把包括兩個或兩個以上自變量的回歸稱為多元線性回歸。
多元線性回歸與一元線性回歸類似，可以用最小二乘法估計模型參數，也需對模型及模型參數進行統計檢驗。
選擇合適的自變量是正確進行多元回歸預測的前提之一，多元回歸模型自變量的選擇可以利用變量之間的相關矩陣來解決。
Matlab、spss、SAS等軟件都是進行多元線性回歸的常用軟件。多元回歸分析為了更好地定量說明土壤理化性質對PAHs濃度的影響，對土壤理化參數和PAHs總量進行了多元回歸分析，多元線性回歸分析用于揭示被解釋變量(因變量)與其他多個解釋變量(自變量)之間的線性關系。因為自變量之間可能存在相關關系，為消除多重共線性的缺點，采用逐步回歸方法進行分析。模型以PAHs總量為因變量， 8個理化參數為自變量，3個灌區的回歸結果見表4.10 。
【多元回歸分析_單因素統計和多因素回歸分析有什么區別】表4.10 各灌區剖面的PAHs總量與土壤理化指標的回歸模型

注:R為相關系數，t為對回歸參數的顯著性檢驗值，F為回歸方程的顯著性檢驗，Sig為顯著性概率。污灌區PAHs總量的回歸方程為
y=6509.691+570.341x1-12.012x2-756.247x3-18.610x4
式中:y為PAHs總量;x1為TOC;x2為土壤含水量;x3為pH值;x4為可溶鹽含量。土壤的TOC含量、含水量、pH值、可溶鹽含量是影響污水灌區土壤中PAHs分布的主要因素。
再生水灌區的回歸方程為
y=70.053+107.296x1-3.623x2
式中:y為PAHs總量;x1為TOC;x2為土壤含水量。土壤的TOC含量和含水量是再生水灌區土壤中PAHs分布的主要影響因素。
清灌區的回歸方程為
y=-3.627+54.853x
式中:y為PAHs總量;x為土壤的TOC含量。土壤TOC含量是清灌區土壤中PAHs分布的主要影響因素。
綜合上述多元回歸分析結果，土壤TOC含量是3個灌區唯一共同的影響因素，也是3個模型最重要的影響因子。在3個灌區，回歸分析篩選出來的影響因子和相關分析得到的相關因子基本一致。
萘和菲均是3個灌區剖面檢出含量占第一、第二位的污染物，同時也是2環和3環PAHs的典型代表，因此選擇這兩種PAHs建立單組分的多元線性回歸分析模型(表4.11) 。6個模型所篩選出來的因子和方程的顯著性稍有差異，但TOC在各方程中依然是“最優”因子，且影響最顯著，由此也可推出TOC是影響PAHs在土壤剖面分布的主要因素。
表4.11 各灌區剖面典型PAHs含量與土壤理化指標的逐步回歸分析結果

注 :F為回歸方程的顯著性檢驗，Sig為顯著性概率(參見表4.10) 。什么是分層逐步多元回歸分析？所謂回歸分析法，是在掌握大量觀察數據的基礎上，利用數理統計方法建立因變量與自變量之間的回歸關系函數表達式(稱回歸方程式) 。回歸分析中，當研究的因果關系只涉及因變量和一個自變量時，叫做一元回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時，叫做多元回歸分析。此外，回歸分析中，又依據描述自變量與因變量之間因果關系的函數表達式是線性的還是非線性的，分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法，遇到非線性回歸問題可以借助數學手段化為線性回歸問題處理。
分層回歸其實是對兩個或多個回歸模型進行比較。我們可以根據兩個模型所解釋的變異量的差異來比較所建立的兩個模型。一個模型解釋了越多的變異，則它對數據的擬合就越好。假如在其他條件相等的情況下，一個模型比另一個模型解釋了更多的變異，則這個模型是一個更好的模型。兩個模型所解釋的變異量之間的差異可以用統計顯著性來估計和檢驗。
模型比較可以用來評估個體預測變量。檢驗一個預測變量是否顯著的方法是比較兩個模型，其中第一個模型不包括這個預測變量，而第二個模型包括該變量。假如該預測變量解釋了顯著的額外變異，那第二個模型就顯著地解釋了比第一個模型更多的變異。這種觀點簡單而有力。但是，要理解這種分析，你必須理解該預測變量所解釋的獨特變異和總體變異之間的差異。
一個預測變量所解釋的總體變異是該預測變量和結果變量之間相關的平方。它包括該預測變量和結果變量之間的所有關系。
預測變量的獨特變異是指在控制了其他變量以后，預測變量對結果變量的影響。這樣，預測變量的獨特變異依賴于其他預測變量。在標準多重回歸分析中，可以對獨特變異進行檢驗，每個預測變量的回歸系數大小依賴于模型中的其他預測變量。
在標準多重回歸分析中，回歸系數用來檢驗每個預測變量所解釋的獨特變異。這個獨特變異就是偏相關的平方（Squared semi-partial correlation）-sr2（偏確定系數）。它表示了結果變量中由特定預測變量所單獨解釋的變異。正如我們看到的，它依賴于模型中的其他變量。假如預測變量之間存在重疊，那么它們共有的變異就會削弱獨特變異。預測變量的獨特效應指的是去除重疊效應后該預測變量與結果變量的相關。這樣，某個預測變量的特定效應就依賴于模型中的其他預測變量。
標準多重回歸的局限性在于不能將重疊（共同）變異歸因于模型中的任何一個預測變量。這就意味著模型中所有預測變量的偏決定系數之和要小于整個模型的決定系數（R2）。總決定系數包括偏決定系數之和與共同變異。分層回歸提供了一種可以將共同變異分配給特定預測變量的方法。
分層回歸
標準多重回歸可以測量模型所解釋的變異量的大小，它由復相關系數的平方（R2，即決定系數）來表示，代表了預測變量所解釋的因變量的變異量。模型的顯著性檢驗是將預測變量所解釋的變異與誤差變異進行比較（即F值）。
但是，也可以采用相同的方式來比較兩個模型。可以將兩個模型所解釋的變異之差作為F值的分子。假如與誤差變異相比，兩個模型所解釋的變異差別足夠大，那么就可以說這種差別達到了統計的顯著性。相應的方程式將在下面詳細闡述。
分層回歸就是采用的這種方式。分層回歸包括建立一系列模型，處于系列中某個位置的模型將會包括前一模型所沒有的額外預測變量。假如加入模型的額外解釋變量對解釋分數差異具有顯著的額外貢獻，那么它將會顯著地提高決定系數。
這個模型與標準多重回歸的差異在于它可以將共同變異分配到預測變量中。而在標準多重回歸中，共同變異不能分配到任何預測變量中，每個預測變量只能分配到它所解釋的獨特變異，共同變異則被拋棄了。在分層回歸中，將會把重疊（共同）變異分配給第一個模型中的預測變量。因此，共同變異將會分配給優先進入模型的變量。
重疊的預測變量(相關的預測變量Predictor variables that overlap)
簡單地看來，由一系列預測變量所解釋的變異就像一塊塊蛋糕堆積在一起。每個預測變量都有自己明確的一塊。它們到達桌子的時間是無關緊要的，因為總有同樣大小的蛋糕在等著它們。不同部分變異的簡單相加就構成了某個模型所解釋的總體變異。
但是，這種加法的觀點只有在每個預測變量互相獨立的情況下才是正確的。對于多重回歸來說，則往往不正確。假如預測變量彼此相關，它們就會在解釋變異時彼此競爭。歸因于某個預測變量的變異數量還取決于模型中所包含的其他變量。這就使得我們對兩個模型的比較進行解釋時，情況變得更為復雜。
方差分析模型是建立在模型中的因素相互獨立的基礎上的。在ANOVA中，因素對應于多重回歸中的預測變量。這些因素具有加法效應，變異（方差）可以被整齊地切開或分割。這些因素之間是正交的。
但是，在多重回歸中，變量進入模型的順序會影響該變量所分配的變異量。在這種情況下，預測變量就像一塊塊浸在咖啡杯中的海綿。每一塊都吸收了一些變異。在分層多重回歸中，第一塊浸入咖啡杯的海綿首先吸收變異，它貪婪地吸收盡可能多的變異。假如兩個預測變量相關，那它們所解釋的變異就存在重疊。如果一個變量首先進入模型，那它就將重疊（共同）變異吸收據為己有，不再與另一個變量分享。
在標準多重回歸中，所有預測變量同時進入模型，就像將所有海綿同時扔進咖啡杯一樣，它們互相分享共同變異。在這種情況下，偏相關的平方（sr2）與回歸系數相等，它們檢驗了相同的東西：排除了任何共同變異后的獨特變異。這樣，在多重回歸中，對回歸系數的T檢驗就是sr2的統計顯著性檢驗。但是，在分層回歸或逐步回歸中，sr2不再與回歸系數相等。但T檢驗仍然是對回歸系數的檢驗。要估計sr2是否顯著，必須對模型進行比較。
模型比較就是首先建立一個模型（模型a），使它包括除了要檢驗的變量以外的所有變量，然后再將想要檢驗的變量加入模型(模型b)，看所解釋的變異是否顯著提高。要檢驗模型b是否要比模型a顯著地解釋了更多的變異，就要考察各個模型所解釋的變異之差是否顯著大于誤差變異。下面就是檢驗方程式（Tabachnik and Fidell, 1989）。
(R2b-R2a)／M
F = ————————
(1+ R2b) ／dferror
（2為平方，a,b為下標。不知道在blog里如何設置文字格式）
原文（DATA ANALYSIS FOR PSYCHOLOGY, George Dunbar）如此，但參考了其他書后，覺得這是誤?。嬲墓接Ω檬欽庋模?br />
(R2b-R2a)／M
F = ————————
(1- R2b) ／dferror
注：
M是指模型b中添加的預測變量數量
R2b是指模型b（包含更多預測變量的模型）的復相關系數的平方（決定系數）。
R2a是指模型a（包含較少預測變量的模型）的復相關系數的平方（決定系數）。
dferror是指模型b誤差變異的自由度。
分層回歸與向前回歸、向后回歸和逐步回歸的區別
后三者都是選擇變量的方法。
向前回歸：根據自變量對因變量的貢獻率，首先選擇一個貢獻率最大的自變量進入，一次只加入一個進入模型。然后，再選擇另一個最好的加入模型，直至選擇所有符合標準者全部進入回歸。
向后回歸：將自變量一次納入回歸，然后根據標準刪除一個最不顯著者，再做一次回歸判斷其余變量的取舍，直至保留者都達到要求。
逐步回歸是向前回歸法和向后回歸法的結合。首先按自變量對因變量的貢獻率進行排序，按照從大到小的順序選擇進入模型的變量。每將一個變量加入模型，就要對模型中的每個變量進行檢驗，剔除不顯著的變量，然后再對留在模型中的變量進行檢驗。直到沒有變量可以納入，也沒有變量可以剔除為止。
向前回歸、向后回歸和逐步回歸都要按照一定判斷標準執行。即在將自變量加入或刪除模型時，要進行偏F檢驗，計算公式為：
(R2b-R2a)／M
F = ————————
(1- R2b) ／dferror
SPSS回歸所設定的默認標準是選擇進入者時偏F檢驗值為3.84 ，選擇刪除者時的F檢驗值為2.71 。
從上面可以看出，分層回歸和各種選擇自變量的方法，其實都涉及模型之間的比較問題，而且F檢驗的公式也相等，說明它們擁有相同的統計學基礎。但是，它們又是不同范疇的概念。分層回歸是對于模型比較而言的，而上面三種方法則是針對自變量而言的。上面三種選擇自變量的方法，都是由軟件根據設定標準來自動選擇進入模型的變量。而分層回歸則是由研究者根據經驗和理論思考來將自變量分成不同的組（block），然后再安排每一組變量進入模型的順序，進入的順序不是根據貢獻率，而是根據相應的理論假設。而且，研究者還可以為不同組的自變量選用不同的納入變量的方法。
分層回歸在SPSS上的實現
在線性回歸主對話框中，在定義完一組自變量后，在因變量不變的情況下，利用block前后的previous和next按鈕，繼續將其他變量組加入模型。
多元回歸分析與logistic回歸的分析的區別和聯系1、概念不同：
（1）多重線性回歸模型可視為簡單直線模型的直接推廣，具有兩個及兩個以上自變量的線性模型即為多重線性回歸模型。
（2）logistic屬于概率型非線性回歸，是研究二分類(可擴展到多分類)觀察結果與一些影響因素之間關系的一種多變量分析方法。
2、變量的特點
多元回歸分析的應變量：1個；數值變量（正態分布)；自變量：2個及2個以上；最好是數值變量，也可以是無序分類變量、有序變量。
logistic回歸的分析應變量：1個；二分類變量（二項分布）、無序 /有序多分類變量；自變量：2個及2個以上；數值變量、二分類變量、無序/有序多分類變量。
總體回歸模型LogitP=(樣本)偏回歸系數含義表示在控制其它因素或說扣除其它因素的作用后(其它所有自變量固定不變的情況下)，某一個自變量變化一個單位時引起因變量Y變化的平均大小。
表示在控制其它因素或說扣除其它因素的作用后(其它所有自變量固定不變的情況下)，某一因素改變一個單位時，效應指標發生與不發生事件的概率之比的對數變化值(logitP的平均變化量)，即lnOR 。
3、適用條件LINE：
1、L：線性——自變量X與應變量Y之間存在線性關系；
2、I：獨立性——Y值相互獨立，在模型中則要求殘差相互獨立，不存在自相關；
3、N：正態性——隨機誤差（即殘差）e服從均值為零，方差為 2的正態分布；
4、E：等方差——對于所有的自變量X，殘差e的方差齊。
觀察對象（case）之間相互獨立；若有數值變量，應接近正態分布（不能嚴重偏離正態分布）；二分類變量服從二項分布；要有足夠的樣本量；LogitP與自變量呈線性關系。
什么是回歸分析，運用回歸分析有什么作用？？？回歸分析（regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。
運用十分廣泛，回歸分析按照涉及的變量的多少，分為一元回歸和多元回歸分析；按照因變量的多少，可分為簡單回歸分析和多重回歸分析；按照自變量和因變量之間的關系類型，可分為線性回歸分析和非線性回歸分析。如果在回歸分析中，只包括一個自變量和一個因變量，且二者的關系可用一條直線近似表示，這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量，且自變量之間存在線性相關，則稱為多重線性回歸分析。

文章插圖
擴展資料：
回歸分析步驟
1、確定變量
明確預測的具體目標，也就確定了因變量。如預測具體目標是下一年度的銷售量，那么銷售量Y就是因變量。通過市場調查和查閱資料，尋找與預測目標的相關影響因素，即自變量，并從中選出主要的影響因素。
2、建立預測模型
依據自變量和因變量的歷史統計資料進行計算，在此基礎上建立回歸分析方程，即回歸分析預測模型。
3、進行相關分析
回歸分析是對具有因果關系的影響因素（自變量）和預測對象（因變量）所進行的數理統計分析處理。只有當自變量與因變量確實存在某種關系時，建立的回歸方程才有意義。因此，作為自變量的因素與作為因變量的預測對象是否有關，相關程度如何，以及判斷這種相關程度的把握性多大，就成為進行回歸分析必須要解決的問題。進行相關分析，一般要求出相關關系，以相關系數的大小來判斷自變量和因變量的相關的程度。
4、計算預測誤差
回歸預測模型是否可用于實際預測，取決于對回歸預測模型的檢驗和對預測誤差的計算。回歸方程只有通過各種檢驗，且預測誤差較小，才能將回歸方程作為預測模型進行預測。
5、確定預測值
利用回歸預測模型計算預測值，并對預測值進行綜合分析，確定最后的預測值。
參考資料來源：百度百科-回歸分析單因素統計和多因素回歸分析有什么區別一、概念不同
1、單因素統計：單因素分析（monofactor analysis）是指在一個時間點上對某一變量的分析。
2、多因素回歸分析：指在相關變量中將一個變量視為因變量，其他一個或多個變量視為自變量，建立多個變量之間線性或非線性數學模型數量關系式并利用樣本數據進行分析的統計分析方法。
二、方法不同
1、單因素統計：試驗單元編號、隨機分組。
2、多因素回歸分析：引進虛擬變量的回歸分析、曲線回歸、多元回歸模型。

文章插圖
三、應用方向不同
1、單因素統計：單因素的盆栽試驗；溫室內、實驗室內的實驗等，應用該設計，若實驗中獲得的數據各處理重復數相等，采用重復數相等的單因素資料方差分析法分析，若實驗中獲得的數據各處理重復數不相等，則采用重復數不等的單因素資料方差分析法分析。
2、多因素回歸分析：影響因變量的因素有多個，這種多個自變量影響一個因變量的問題可以通過多元回歸分析來解決。
例如，經濟學知識告訴我們，商品需求量Q除了與商品價格P有關外，還受到替代品的價格、互補品的價格，和消費者收入等因素，甚至還包括商品品牌Brand這一品質變量(品質變量不能用數字來衡量，需要在模型中引入虛擬變量)的影響。
參考資料來源：百度百科-單因素分析