結(jié)構(gòu)方程模型建模思路及Amos操作
作者:云南邁勝文教 日期:2021-02-18 20:09:46
相信為什么要選擇結(jié)構(gòu)方程模型分析數(shù)據(jù),大家心里面是有B數(shù)的,所以我就不說了。
一般而言,利用SEM分析的數(shù)據(jù)來源于問卷調(diào)查,當然也可以用其他的觀察變量直接進行分析,比如說在經(jīng)濟領(lǐng)域建模,類似于資本、人力、投資等是可以直接觀察的,不需要引入潛在變量,所以也不需要問卷進行數(shù)據(jù)收集,一般是有數(shù)據(jù)庫這樣子的。
問卷設(shè)計的時候,有一些小技巧
1.設(shè)計量表的時候,顆粒度分細一些,最好的李克特7級量表(Lubke & Muthén, 2004)。別看國內(nèi)大家平時都是用的李克特5級量表多一些,其實在SEM軟件分析的時候,國外使用5級或者7級的量表進行數(shù)據(jù)收集的paper都比較多。并且,顆粒度越細,數(shù)據(jù)越容易服從多元正太分布,才能采用SEM內(nèi)定的ML進行數(shù)據(jù)分析。但是記住,5級量表是最低要求,不能更低了。
2.萬一沒辦法,你拿到的數(shù)據(jù)離散程度較差,成偏態(tài),或者是見下圖,二分類變量啊親,搞死人的情況下,可以采用Item parcel的方法,就是打包的意思,你按照自己的專業(yè)知識,如果問卷題目夠多話,把好幾道題的結(jié)果相加,即使樣本上不大,達到一定穩(wěn)定性,如果樣本量較大,也可以解決這種無奈的問卷設(shè)計缺陷。
這本書Kenny D A. Correlation and causality.[M]// Correlation and causality. Wiley, 1979:e140-1.里面的第179頁有告訴大家Item parcel的技巧。
3.原始問卷設(shè)計時每一個潛在變量要設(shè)計至少3題,5~7題為佳(Bollen, 1989)。有備則無患吶,萬一跑程序的時候,發(fā)現(xiàn)一些題目的loading比較低,那還有得刪除題目,以提高整個模型的匹適度。要是設(shè)計得每個潛在變量只有3道題,那真是沒得刪了。分析時先做EFA刪除不要的題目,先用將loading0.6以下去除,再將cross-loading0.35以上刪除。所以每一個潛在變量5~7題簡直不能太棒!在正式的寫在paper里面的文件,最好每個item要有4個題目比較好,因為3個題目沒有辦法做重置性檢查、4個可以做誤差相關(guān)、5個比4個好一點。4個最好。
關(guān)于第3點有一篇比較好的paper里面有介紹:Marsh H W, Hau K T, Balla J R, et al. Is
More Ever Too Much? The Number of Indicators per Factor in Confirmatory Factor
Analysis[J]. Multivariate Behavioral Research, 1998, 33(2):181.
4.最少要有兩個潛變量( Bollen, 1989),并且潛變量個數(shù)最好維持在5個以內(nèi),不要超過7個。同時每一個指標不得橫跨到其他潛變量上,也就是說一個問題不要用來同時衡量兩個潛變量。換言之,
Cross-loading<0.4
Cross-loading同時屬于多個潛變量的loading,如果大于0.4,表示橫跨了2個因子,所以題目最好刪除(Hair et al., 1998)。
5.量表最好不要自己設(shè)計,自設(shè)量表存在很多問題,就不贅述了,除非你是大牛,你是大牛就不會在這里逛知乎了。哪怕是修改理論框架也要根據(jù)其他學者的理論和paper進行修改。
經(jīng)驗法則為每個預(yù)測變量用15個樣本 (James Stevens, 1996)。
Bentler and Chou (1987) 提出樣本數(shù)至少為估計參數(shù)的5倍(在服從正太,無遺漏變量值及極端值的情況下),否則要15倍的樣本量。
Loehlin (1992)提出,一個有2至4個因素的模型,至少100個樣本,200個更好, 小樣本容易導(dǎo)致收斂失敗、不適當?shù)慕?違犯估計) 、低估參數(shù)值及錯誤的標準誤等。
一般而言,大于200以上的樣本,才可以稱得上是一個中型的樣本,若要追求穩(wěn)定的SEM分析結(jié)果,受試樣本量最好在200以上。
雖然SEM的分析以大樣本數(shù)量較佳,但較新的統(tǒng)計檢驗方法允許SEM模型的估計可少于60個觀察值(Tabachnick & Fidell,2007)。
港真,樣本量還是越大越好,除非你有正當理由說明你的樣本量實在是特別非常之難收集的情況下,比如說同性戀群體,或者是某種稀少的患病人群,辣么,最好還是400+,現(xiàn)在微信發(fā)問卷也不是分分鐘就可以好幾千的樣本。
哦,有些時候如果覺得大學生群體的樣本比較容易獲得,但是擔心樣本量有偏性,這里有個段子,前段時間去參加一個論壇的時候,蘇毓淞老師就用的大學生樣本,然后他吐槽說,所謂的大家認為大學生群體是現(xiàn)在的精英群體,是真的嗎?當代大學生的質(zhì)量真的可以稱之為“精英群體”嗎?哈哈哈,笑死我了,現(xiàn)在大學生這么多,別太擔心樣本偏性啦。當然paper里面不能這么寫,心里面知道就好了。
還有就是一般來說,如果題目越多那么樣本數(shù)應(yīng)該越大,如果一開始發(fā)現(xiàn)樣本量不能太多,建議把indicator增加,以增加客觀性。
ML(極大似然法):只有樣本是大樣本并且假設(shè)觀察數(shù)據(jù)服從多元正太分布,卡方檢驗才可以合理使用,此時使用ML估計法最為合適。ML比ULS有效率,因為可以得到較小的標準誤。
GLS(一般化最小平方法):如果樣本為大樣本,但觀察數(shù)據(jù)不服從多元正太分布,最好采用GLS估計法(周子敬,2006)。GLS和ULS均是全信息估計方法,但是ULS需要所需的觀察尺度相同。GLS是WLS(ADF)的一條分支。
IV法(工具性變量法)、TSLS法(兩階段最小平方法)屬于快速、非遞歸、有限信息技術(shù)的估計方法。
WLS法和DWLS法不像GLS法與ML法,受到數(shù)據(jù)須符合多元正太的假定限制,但為了使估計結(jié)果可以收斂,WLS法和DWLS法的運算需要非常大的樣本量,一般在1000+。當數(shù)據(jù)非正太,無法使用ML法和GLS法估計參數(shù)時,才考慮WLS、DWLS法(Diamantopoulos& Siguaw,2000)。
貝葉斯估計:ML法較不適用于小樣本,小樣本使用貝葉斯估計(P27),貝葉斯估計需要在分析屬性中選取估計平均數(shù)和截距。
ADF法:下圖是Amos的估計,里面的ML估計是default,當樣本量超過1000時,并且資料不服從正太分布時,可以選擇標紅的Asymptotically distribution-free
只有三種情況才需要選擇估計均值和截距(estimate means and intercepts):1.資料有缺失值;2.資料為時序型資料;3.進行anova分析或者manova分析。
樓主的數(shù)據(jù)來源于課題,就是剛才截圖里面一言難盡的2分類變量,當然題主的自主課題自己設(shè)計問卷就沒有出現(xiàn)這么烏龍的事情,但是有了數(shù)據(jù),不想方設(shè)法加以利用就是浪費,浪費可恥。
首先的話,題主接觸到的就是一張看上去很復(fù)雜的問卷,以及已經(jīng)收集好了的1W+樣本。這里歪個樓吐槽,這么大的樣本量,收集過程又及其嚴苛,花費了大量的人力、物力、精力,無論是問卷的設(shè)計,樣本的收集還是說錄入、清洗,無疑都是巨大的工程量,估計也是幾十萬的花費。but,唉,科研分析起來質(zhì)量真的很差,因為是2分類變量,不能非是即否,哪有這么決斷呀。引用某領(lǐng)導(dǎo)的話來說,這是在很努力的浪費錢。
第一步:所以我采用的是item parcel的方法,把好幾個問題打包成為一個問題,這里還是很艱難,因為類似于5個原始問卷的題目才能湊成一個有用的SEM 題目,所以問卷的題量很不夠用。所以一些維度肯定不服從正太了,這里就不能用ML進行分析了。
第二步:進行建模構(gòu)建
這里強調(diào),希望大家不要隨意建模,當然探索性是鼓勵的,最好還是要有前人的研究基礎(chǔ),有理論基礎(chǔ),證明你這樣建立是有原因的,是可靠的,有依據(jù)的。題主根據(jù)自己的研究,采用了社會認知理論,見下圖,只有三個變量,是最簡單的了,題主也想用復(fù)雜一點,炫酷一點的模型,但是數(shù)據(jù)質(zhì)量太差,不允許,剛好,樣本里面的問卷也可以和社會認知理論進行一個很好的契合。
第三步:數(shù)據(jù)處理
因為樣本量很大,所以我可以把缺失值都給刪了。
第四步:跑AMOS
打開amos,雙擊打開
導(dǎo)入數(shù)據(jù),我用的這版amos特別蠢,直接導(dǎo)入Excel容易出錯。所以還是把Excel文件轉(zhuǎn)換成為SPSS格式的,更容易被Amos識別。
按照理論和問卷數(shù)量,設(shè)計模型,一個小方格代表一個問題。
導(dǎo)入問題進入
導(dǎo)入以后變成這樣
給潛變量命名,雙擊中間那三個圓圈就可以了,在variable name那里分別輸入環(huán)境、主體和行為意圖。
命名完成以后長這樣
給殘差命名,選擇plugins-name unobserved variables,就可以一次性給殘差命名啦
命名完成以后,長這樣,e1到e10自動命名的
給“主體”和“行為意圖”添加unique variable,見下圖,點擊這個按鈕,然后在“主體”變量和“行為意圖”變量上各點擊一次,再進行殘差命名哈。
完成以后長這樣,完整的模型就構(gòu)建成功啦。
把模型保存好,當然就是下面這顆按鈕啦
運行模型,點擊這個長得像算盤一樣的按鈕。
像屎一樣的結(jié)果就跑出來啦,那些教學的,一跑數(shù)據(jù)各項指標都符合,那是騙你的,更多時候就像我這樣,屎一樣的結(jié)果。
依次解釋為reading data 讀寫數(shù)據(jù)
4435個樣本
默認模型
采用最小化方法迭代
迭代了15次
卡方值為1686.1 自由度為32
這時候得找原因了,剛才說過了,這個數(shù)據(jù)是偏態(tài)的,不應(yīng)該使用ML,默認的分析,應(yīng)該采用GLS或者WLS,詳情見上面我寫的分析方法的選擇。
這里開始選擇GLS,點擊這個按鈕,analysis properties,分析屬性
默認是第一個ML,這里我們要選擇第二個,GLS
output,輸出選擇,還是在剛才那個界面,點擊output
默認的只有最小化過程這個選項,我們要選擇其他的,比如說直接、間接、總效應(yīng),樣本矩陣,隱含矩陣,修正指標等,見下下圖。
從左到右依次是
最小化過程 minimization history
標準化的估計值 standardized estimates
多元相關(guān)的平方 squared multiple estimates 好像這個也是多重線性回歸里面的R方
間接效應(yīng),直接效應(yīng)、總效應(yīng) indirect,direct,&total effects
樣本協(xié)方差矩陣 sample moments
隱含協(xié)方差矩陣 implied moments
殘差矩陣 residual moments
修正指標 modification indices
檢驗正態(tài)性和異常值 tests for normality and outlies
輸入title 和一些常見的匹適度檢驗指標,隨意在空白的地方點擊右鍵,然后選擇figure caption,再點擊一下白色空白部分
在caption 空白的地方把以下指令輸進去
Chi-square=\cmin DF=\df
Chi/DF=\cmindf
GFI=\GFI AGFI=\AGFI
RMSEA=\RMSEA
點擊OK關(guān)掉對話框
效果圖見下
點擊運行和結(jié)果,分別點以下按鈕
非標準化的結(jié)果運行如下圖。結(jié)果很不理想。
卡方/自由度=52.56,Chi-square/DF 要在3以內(nèi)才算理想
Gfi agfi 要大于0.9,這個滿足
Rmsea小于0.08,0.05是理想值,這個值也很不理想。
總之,就是匹適度很低的意思。
造成匹適度差的原因有:變量間的非線性關(guān)系,缺失值太多、序列誤差,殘差不獨立。
序列誤差:從模型中遺漏了適當?shù)耐庋茏兞?、變量間的重要連接路徑,或模型中包含不適當?shù)穆?lián)結(jié)關(guān)系等。
文章太長了,剩下的其他篇章再說。
蕾姆再次鎮(zhèn)樓。
來源 知乎 已注銷 https://zhuanlan.zhihu.com/p/31655613