Friday 13 October 2017

Sas Mobile Media Regressione


Il codice di esempio sulla scheda codice completo illustra come calcolare la media mobile di una variabile attraverso un intero set di dati, nel corso degli ultimi N osservazioni in un insieme di dati, o nel corso degli ultimi N osservazioni entro un by-gruppo. Questi file di esempio e gli esempi di codice sono forniti da SAS Institute Inc. come è, senza alcun tipo di garanzia, espressa o implicita, compreso ma non limitato alle garanzie implicite di commerciabilità e idoneità per uno scopo particolare. Destinatari riconoscono e concordano sul fatto che SAS Institute non sarà responsabile per qualsiasi danno derivante dal loro uso di questo materiale. Inoltre, SAS Institute fornirà alcun supporto per i materiali qui contenuti. Questi file di esempio e gli esempi di codice sono forniti da SAS Institute Inc. come è, senza alcun tipo di garanzia, espressa o implicita, compreso ma non limitato alle garanzie implicite di commerciabilità e idoneità per uno scopo particolare. Destinatari riconoscono e concordano sul fatto che SAS Institute non sarà responsabile per qualsiasi danno derivante dal loro uso di questo materiale. Inoltre, SAS Institute fornirà alcun supporto per i materiali qui contenuti. Calcolare la media mobile di una variabile attraverso un intero set di dati, nel corso degli ultimi N osservazioni in un insieme di dati, o nel corso degli ultimi N osservazioni entro un by-group. Autoregressive processi di errore (ARMA errori) e altri modelli che coinvolgono-media mobile ritardi dei termini di errore possono essere stimati utilizzando istruzioni FIT e simulate o previsione utilizzando SOLVE dichiarazioni. modelli ARMA per il processo di errore sono spesso utilizzati per i modelli con residui autocorrelati. La macro AR può essere utilizzato per specificare i modelli con i processi di errore autoregressivi. La macro MA può essere utilizzato per specificare i modelli con i processi di errore a media mobile. Gli errori autoregressivi Un modello con errori autoregressivi di primo ordine, AR (1), ha la forma mentre un AR (2) processo di errore ha la forma e così via per i processi di ordine superiore. Si noti che le s sono indipendenti e identicamente distribuite e hanno un valore atteso di 0. Un esempio di un modello con un AR (2) componente e così via per processi di ordine superiore. Ad esempio, è possibile scrivere un semplice modello di regressione lineare con MA (2) errori di esempio dove MA1 e MA2 sono i parametri in movimento-media-media mobile. Si noti che RESID. Y è definito automaticamente dal PROC modello come la funzione ZLAG deve essere utilizzato per i modelli MA di troncare la ricorsione dei GAL. Questo assicura che gli errori ritardati partono da zero nella fase di latenza-priming e non si propagano valori mancanti quando le variabili fase di latenza-priming sono mancanti, e si assicura che i futuri errori sono pari a zero, piuttosto che mancare durante la simulazione o di previsione. Per ulteriori informazioni sulle funzioni di ritardo, vedere la logica sezione di Lag. Questo modello scritto utilizzando la macro MA è la seguente: generali Forma per i modelli ARMA ha può essere specificato il seguente modulo Un ARMA (p, q) Il modello generale processo ARMA (p, q) nel modo seguente: dove AR ie MA j rappresento i parametri autoregressivi e movimento-media per i vari ritardi. È possibile utilizzare qualsiasi nomi che si desidera per queste variabili, e ci sono molti modi equivalenti che la specifica potrebbe essere scritto. I processi di vettore ARMA possono essere stimati con PROC MODELLO. Ad esempio, un AR due variabili (1) Procedimento per gli errori del due variabili endogene Y1 e Y2 possono essere specificati come segue: Problemi di convergenza con ARMA modelli Modelli ARMA può essere difficile stimare. Se le stime dei parametri non sono all'interno della gamma del caso, un modelli di movimento-media durata residua crescono in modo esponenziale. I residui calcolati per osservazioni successive possono essere molto grandi oppure possono traboccare. Ciò può accadere sia perché i valori di avviamento errato sono stati utilizzati o perché le iterazioni allontanati dai valori ragionevoli. Si deve essere utilizzato nella scelta di valori iniziali per i parametri ARMA. valori di 0,001 inizio parametri ARMA solito funzionano se il modello si adatta il pozzo di dati e il problema è ben condizionata. Si noti che un modello MA spesso può essere approssimata da un modello AR di ordine superiore, e viceversa. Ciò può portare a alta collinearità in modelli misti ARMA, che a sua volta può causare gravi mal condizionata nei calcoli e l'instabilità delle stime dei parametri. In caso di problemi di convergenza, mentre la stima di un modello con i processi di errore ARMA, provare a stimare in passi. In primo luogo, utilizzare un'istruzione FIT per stimare solo i parametri strutturali con i parametri ARMA detenute sino a zero (o per le stime precedenti ragionevoli se disponibile). Successivamente, utilizzare un'altra dichiarazione FIT per stimare solo i parametri ARMA, utilizzando i valori dei parametri strutturali dalla prima esecuzione. Dal momento che i valori dei parametri strutturali sono suscettibili di essere vicini ai loro stime finali, i parametri stime ARMA potrebbero ora convergono. Infine, usare un'altra dichiarazione FIT per produrre stime simultanea di tutti i parametri. Poiché i valori iniziali dei parametri sono ora probabilmente molto vicino a loro stime congiunte finali, le stime dovrebbero convergere rapidamente se il modello è appropriato per i dati. AR condizioni iniziali i ritardi iniziali dei termini di errore di AR modelli (P) possono essere modellati in vari modi. L'errore metodi di avvio autoregressive supportati da procedure SASETS sono i seguenti: condizionali minimi quadrati (ARIMA e procedure modello) incondizionati minimi quadrati (autoreg, Arima, e le procedure di modello) di massima verosimiglianza (autoreg, Arima, e le procedure MODELLO) Yule-Walker (autoreg unico procedimento) Hildreth-Lu, che cancella le prime osservazioni p (procedura di modello), vedere il Capitolo 8, la procedura autoreg, per una spiegazione e discussione dei meriti dei vari metodi AR (p) di avvio. Le inizializzazioni CLS, ULS, ML e HL possono essere eseguite da PROC MODELLO. Per AR (1) errori, queste inizializzazioni possono essere prodotte come mostrato nella Tabella 18.2. Questi metodi sono equivalenti in grandi campioni. Tabella 18.2 Inizializzazioni Realizzate dal PROC modello AR (1) ERRORI i ritardi iniziali dei termini di errore di MA (q) i modelli possono anche essere modellati in modi diversi. Il seguente errore media mobile paradigmi di start-up sono supportati dal procedure modello ARIMA e: incondizionati minimi quadrati condizionali dei minimi quadrati Il condizionale metodo dei minimi quadrati per stimare termini di errore a media mobile non è ottimale perché ignora il problema di start-up. Questo riduce l'efficienza delle stime, pur rimanendo imparziale. I residui ritardati iniziali, estendendo prima dell'inizio dei dati, vengono considerati 0, il valore atteso incondizionata. Questo introduce una differenza tra questi residui e le generalizzate dei minimi quadrati residui per la covarianza media mobile, che, a differenza del modello autoregressivo, persiste attraverso il set di dati. Solitamente questa differenza converge rapidamente a 0, ma per processi a media mobile quasi noninvertible la convergenza è piuttosto lento. Per minimizzare questo problema, si dovrebbe avere un sacco di dati, e le stime dei parametri a media mobile dovrebbe essere ben all'interno della gamma invertibile. Questo problema può essere risolto a scapito di scrivere un programma più complesso. Unconditional minimi quadrati stime per la (1) processo MA possono essere prodotte specificando il modello come segue: gli errori di media mobile possono essere difficili da stimare. Si dovrebbe considerare l'utilizzo di una approssimazione AR (p) per il processo di media mobile. Un processo a media mobile di solito può essere ben approssimato da un processo autoregressivo se i dati non sono stati levigati o differenziata. La macro AR La macro AR SAS genera le istruzioni di programmazione per PROC MODELLO per i modelli autoregressivi. La macro AR fa parte del software SASETS, e nessuna opzione particolare deve essere impostato per utilizzare la macro. Il processo autoregressivo può essere applicato agli errori equazioni strutturali o alla serie endogena stessi. La macro AR può essere utilizzato per i seguenti tipi di autoregressione: senza restrizioni autoregressione vettoriale limitato autoregressione vettoriale univariata Autoregressione Per modellare il termine di errore di un'equazione come un processo autoregressivo, utilizzare la seguente dichiarazione dopo l'equazione: Per esempio, supponiamo che Y è un funzione lineare di X1, X2, e un (2) errore AR. Si potrebbe scrivere questo modello come segue: Le chiamate verso AR devono venire dopo tutte le equazioni che il processo applicato. Il precedente macro invocazione, AR (y, 2), produce le dichiarazioni indicate in uscita LISTA nella Figura 18.58. Figura 18.58 lista di output opzione per un AR (2) Modello La PRED prefisso variabili sono variabili del programma temporanei utilizzati in modo tale che i ritardi dei residui sono i residui corrette e non quelli ridefinito da questa equazione. Si noti che questo è equivalente alle dichiarazioni esplicitamente scritto nella sezione forma generale per i modelli ARMA. È inoltre possibile limitare i parametri autoregressivi a zero al GAL selezionati. Ad esempio, se si voleva parametri autoregressivi a ritardi 1, 12, e 13, è possibile utilizzare le seguenti istruzioni: Queste dichiarazioni generano l'output mostrato nella Figura 18.59. Figura 18.59 lista di output opzione per un modello AR con Ritardi a 1, 12, e 13 MODELLO procedura di quotazione di compilato Privacy Codice di programma come Parsed PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - PREDY) yl12 ZLAG12 (y - PREDY) yl13 ZLAG13 (y - PREDY) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y ci sono variazioni sul metodo dei minimi quadrati condizionale, a seconda che osservazioni all'inizio della serie sono usati per riscaldare il processo AR. Per impostazione predefinita, il condizionale metodo dei minimi quadrati AR utilizza tutte le osservazioni e assume zeri per i ritardi iniziali dei termini autoregressivi. Utilizzando l'opzione M, è possibile richiedere che AR utilizzare i minimi quadrati incondizionati (ULS) o metodo della massima verosimiglianza (ML), invece. Ad esempio, discussioni di questi metodi è fornito nella sezione AR condizioni iniziali. Utilizzando l'opzione n MLCS, è possibile richiedere che i primi n osservazioni essere utilizzati per calcolare le stime dei ritardi autoregressivi iniziali. In questo caso, l'analisi inizia con l'osservazione n 1. Ad esempio: È possibile utilizzare la macro AR per applicare un modello autoregressivo alla variabile endogena, anziché al termine di errore, utilizzando l'opzione TYPEV. Ad esempio, se si desidera aggiungere i cinque ritardi passate di Y per l'equazione nell'esempio precedente, è possibile utilizzare AR per generare i parametri e ritardi utilizzando le seguenti istruzioni: Le istruzioni precedenti generano l'output mostrato nella Figura 18.60. Figura 18.60 lista di output opzione per un modello AR di Y Questo modello prevede Y come una combinazione lineare di X1, X2, un'intercettazione, ed i valori di Y nel più recente cinque periodi. Imprendibile autoregressione vettoriale per modellare i termini di errore di un insieme di equazioni come un processo autoregressivo vettoriale, utilizzare il seguente modulo della macro AR dopo le equazioni: Il valore ProcessName è un nome che si fornisce per AR da utilizzare nel fare i nomi per la autoregressivo parametri. È possibile utilizzare la macro AR per modellare diversi processi AR diversi per diversi insiemi di equazioni utilizzando i nomi di processo diversi per ogni set. Il nome del processo assicura che i nomi delle variabili utilizzati sono unici. Utilizzare un valore ProcessName breve per il processo se stime dei parametri devono essere scritti in un set di dati di uscita. La macro AR tenta di costruire nomi di parametri inferiori o uguali a otto caratteri, ma questa è limitata dalla lunghezza del ProcessName. che viene utilizzato come prefisso per i nomi dei parametri AR. Il valore variablelist è l'elenco delle variabili endogene per le equazioni. Ad esempio, supponiamo che errori per equazioni Y1, Y2, Y3 e sono generati da un processo vettoriale autoregressivo del secondo ordine. È possibile utilizzare le seguenti istruzioni: che generano i seguenti per Y1 e codice simile per Y2 e Y3: solo i minimi quadrati condizionali metodo (MLCS o MLCS n) possono essere utilizzati per i processi di vettore. È inoltre possibile utilizzare lo stesso modulo con restrizioni che la matrice dei coefficienti essere 0 a GAL selezionati. Ad esempio, le istruzioni seguenti valgono un processo vettoriale terzo ordine agli errori equazione con tutti i coefficienti a lag 2 limitato a 0 e con i coefficienti a ritardi 1 e 3 senza limitazioni: È possibile modellare la Y1Y3 tre serie come processo autoregressivo vettoriale nelle variabili anziché negli errori utilizzando l'opzione TYPEV. Se si vuole modellare Y1Y3 in funzione dei valori passati di Y1Y3 e alcune variabili esogene o costanti, è possibile utilizzare AR per generare le istruzioni per i termini di lag. Scrivere un'equazione per ogni variabile per la parte nonautoregressive del modello, e quindi chiamare AR con l'opzione TYPEV. Ad esempio, la parte nonautoregressive del modello può essere una funzione di variabili esogene, oppure può essere parametri di intercettazione. Se non vi sono componenti esogene al modello autoregressione vettoriale, inclusi senza intercettazioni, quindi assegnare zero a ciascuna delle variabili. Ci deve essere un'assegnazione a ciascuna delle variabili prima AR è chiamato. In questo esempio i modelli Y vettore (Y1 Y2 Y3) come una funzione lineare solo del suo valore negli ultimi due periodi e nero vettore errore di rumore. Il modello dispone di 18 (3 3 3 3) i parametri. Sintassi del Macro AR Ci sono due casi di sintassi della macro AR. Quando non sono necessarie restrizioni su un processo AR vettore, la sintassi della macro AR ha la forma generale specifica un prefisso per AR da utilizzare nella costruzione di nomi di variabili necessarie per definire il processo di AR. Se il endolist non viene specificato, l'elenco endogene default nome. che deve essere il nome dell'equazione a cui deve essere applicato il processo di errore AR. Il valore del nome non può superare i 32 caratteri. è l'ordine del processo AR. specifica l'elenco di equazioni in cui il processo AR deve essere applicata. Se viene dato più di un nome, un processo vector illimitata viene creato con i residui strutturali di tutte le equazioni inclusi come regressori in ciascuna delle equazioni. Se non specificato, di default endolist dare un nome. specifica la lista di ritardi con cui i termini AR sono da aggiungere. I coefficienti dei termini a non GAL elencati sono impostati a 0. Tutti i GAL elencati deve essere inferiore o uguale a nlag. e non ci devono essere duplicati. Se non specificato, le impostazioni predefinite laglist a tutti i GAL 1 a nlag. specifica il metodo di stima da implementare. I valori validi di M sono CLS (condizionali minimi quadrati stime), ULS (incondizionati minimi quadrati stime), e ML (stime di massima verosimiglianza). MLCS è l'impostazione predefinita. Solo MLCS è consentito quando viene specificato più di una equazione. I metodi ULS e ML non sono supportati per i modelli vettore AR da AR. specifica che il processo AR deve essere applicata alle variabili endogene stessi anziché ai residui strutturali delle equazioni. Limitato autoregressione vettoriale È possibile controllare quali parametri sono inclusi nel processo, limitandosi a 0 quei parametri che non non include. In primo luogo, utilizzare AR con l'opzione DEFER per dichiarare l'elenco delle variabili e definire la dimensione del processo. Poi, uso supplementare AR chiama per generare i termini per equazioni selezionati con variabili selezionate al GAL selezionati. Ad esempio, le equazioni di errore prodotti sono i seguenti: Questo modello afferma che gli errori di Y1 dipendono errori sia di Y1 e Y2 (ma non Y3) sia in ritardo rispetto 1 e 2, e che gli errori di Y2 e Y3 dipendono gli errori precedenti per tutte e tre le variabili, ma solo in ritardo 1. AR Macro sintassi per ristretta vettore AR un uso alternativo di AR è consentito di imporre restrizioni su un processo AR vettore chiamando AR più volte per specificare diversi termini AR e rallentamenti per diversi equazioni. La prima chiamata ha la forma generale specifica un prefisso per AR da utilizzare nella costruzione di nomi di variabili necessarie per definire il processo di AR vettore. specificare l'ordine del processo AR. specifica l'elenco di equazioni in cui il processo AR deve essere applicata. specifica che AR non è quello di generare il processo di AR, ma è quello di attendere ulteriori informazioni di cui in seguito AR richiede lo stesso valore del nome. Le chiamate successive hanno la forma generale è la stessa come nella prima chiamata. specifica l'elenco di equazioni per cui specifiche in questa chiamata AR da applicare. Solo nomi specificati nel valore endolist del primo invito a presentare il valore del nome possono apparire nella lista di equazioni in eqlist. Specifica l'elenco di equazioni la cui ritardata strutturale residui devono essere inclusi come regressori nelle equazioni in eqlist. Solo i nomi nel endolist del primo invito a presentare il valore del nome possono apparire nella lista-variabili. Se non specificato, di default lista-variabili a endolist. specifica la lista di ritardi con cui i termini AR sono da aggiungere. I coefficienti dei termini in ritardi non elencati sono impostati a 0. Tutti i ritardi elencati devono essere minore o uguale al valore di nlag. e non ci devono essere duplicati. Se non specificato, di default laglist a tutti i GAL 1 a nlag. La macro MA La macro MA SAS genera le istruzioni di programmazione per PROC modello per i modelli in movimento-media. La macro MA è parte del software SASETS, e senza opzioni speciali sono necessarie per utilizzare la macro. Il processo di errore a media mobile può essere applicato agli errori equazioni strutturali. La sintassi della macro MA è la stessa della macro AR eccezione che non c'è argomentazione TYPE. Quando si utilizza il MA e macro AR combinati, la macro MA deve seguire la macro AR. Le seguenti dichiarazioni SASIML producono una ARMA (1, (1 3)) processo di errore e salvarlo nella MADAT2 set di dati. Le seguenti dichiarazioni PROC modello vengono utilizzati per stimare i parametri di questo modello, utilizzando la massima struttura di errore verosimiglianza: Le stime dei parametri prodotti da questa corsa sono illustrati nella Figura 18.61. Figura 18.61 Le stime da un ARMA (1, (1 3)) processo ci sono due casi di sintassi per la macro MA. Quando non sono necessarie restrizioni su un processo MA vettore, la sintassi della macro MA ha la forma generale specifica un prefisso per MA da utilizzare nella costruzione di nomi di variabili necessarie per definire il processo di MA ed è il endolist predefinita. è l'ordine del processo MA. specifica le equazioni per cui il processo MA deve essere applicato. Se viene dato più nomi, la stima CLS viene utilizzato per il processo vettoriale. specifica i ritardi con cui i termini MA sono da aggiungere. Tutti i ritardi di cui deve essere minore o uguale a nlag. e non ci devono essere duplicati. Se non specificato, le impostazioni predefinite laglist a tutti i GAL 1 a nlag. specifica il metodo di stima da implementare. I valori validi di M sono CLS (condizionali minimi quadrati stime), ULS (incondizionati minimi quadrati stime), e ML (stime di massima verosimiglianza). MLCS è l'impostazione predefinita. Solo MLCS è consentita quando più di una equazione è specificato nel endolist. MA Macro Sintassi per ristretta Vector media mobile un uso alternativo di MA è permesso di imporre restrizioni su un processo MA vettore chiamando MA più volte per specificare diversi termini MA e ritardi per le diverse equazioni. La prima chiamata ha la forma generale specifica un prefisso per MA da utilizzare nella costruzione di nomi di variabili necessarie per definire il processo MA vettore. specificare l'ordine del processo MA. specifica l'elenco di equazioni in cui il processo MA deve essere applicata. specifica che MA non è quello di generare il processo MA, ma è quello di attendere ulteriori informazioni di cui in seguito MA richiede lo stesso valore del nome. Le chiamate successive hanno la forma generale è la stessa come nella prima chiamata. specifica l'elenco di equazioni per cui specifiche in questa chiamata MA da applicare. Specifica l'elenco di equazioni la cui ritardata strutturale residui devono essere inclusi come regressori nelle equazioni in eqlist. Specifica l'elenco dei ritardi con cui i termini MA devono essere added. Regression13 con SAS13 Capitolo 2 Regressione 8211 Diagnostica Capitolo Outline 2.0 regressione Diagnostica 2.1 Dati insoliti e influenti 2.2 Test sulla normalità dei residui 2.3 Prove su errore non costante della varianza 2.4 Test su Multicollinearità 2.5 Prove su linearità 2.6 Specifica di modello 2.7 Problemi di Indipendenza 2.8 Sommario 2.9 per maggiori informazioni 2.0 regressione diagnostica Nel nostro ultimo capitolo, abbiamo imparato come fare ordinaria regressione lineare con SAS, concludendo con i metodi per esaminare la distribuzione di variabili per verificare la presenza di non normalmente variabili distribuiti come un primo sguardo a verificare le ipotesi di regressione. Senza verificare che i dati hanno incontrato le ipotesi di regressione, i risultati possono essere fuorvianti. Questo capitolo esplorerà come è possibile utilizzare SAS per verificare se i dati soddisfano i presupposti della regressione lineare. In particolare, si prenderà in considerazione le seguenti ipotesi. Linearità 8211 le relazioni tra i predittori e la variabile risultato dovrebbe essere lineare normalità 8211 gli errori devono essere distribuiti normalmente 8211 tecnicamente normalità è necessaria solo per le t-test per la validità, la stima dei coefficienti richiede solo che gli errori siano identicamente e indipendentemente Omogeneità distribuita della varianza (omoschedasticità) 8211 la varianza errore dovrebbe essere costante indipendenza 8211 gli errori associati con una sola osservazione non sono correlati con gli errori di altri errori di osservazione delle variabili di 8211 variabili predittore sono misurati senza errori (anche noi faremo questo nel capitolo 4 ) specificazione del modello 8211 il modello deve essere adeguatamente specificati (incluse tutte le variabili rilevanti, ed escludendo le variabili irrilevanti) Inoltre, ci sono problemi che possono sorgere durante l'analisi che, mentre in senso stretto, non sono ipotesi di regressione, sono nondimeno, di grande preoccupazione per gli analisti di regressione. Influenza 8211 osservazioni individuali che esercitano influenza indebita sui coefficienti Collinearità 8211 predittori che sono altamente allineati, cioè linearmente correlata, possono causare problemi nella stima dei coefficienti di regressione. Molti metodi grafici e test numerici sono stati sviluppati nel corso degli anni per la diagnostica di regressione. In questo capitolo, esploreremo questi metodi e dimostrare come verificare le ipotesi di regressione e rilevare potenziali problemi che utilizzano SAS. 2.1 insolito e influente dati una sola osservazione che è sostanzialmente diverso da tutte le altre osservazioni può fare una grande differenza nei risultati delle analisi di regressione. Se una singola osservazione (o un piccolo gruppo di osservazioni) cambia sostanzialmente i risultati, si vorrebbe sapere su questo e indagare ulteriormente. Ci sono tre modi in cui un osservazione può essere insolito. Valori anomali. In regressione lineare, un outlier è un'osservazione con grande residua. In altre parole, si tratta di una osservazione il cui valore dipende variabile è insolito dato i suoi valori sulle variabili predittive. Un valore anomalo può indicare una peculiarità campione o può indicare un errore di immissione di dati o altri problemi. Leva . Un'osservazione con un valore estremo su una variabile predittore è chiamato un punto ad elevata leva. Leverage è una misura di quanto un'osservazione discosta dalla media della variabile. Questi punti di leva possono avere un effetto sulla stima dei coefficienti di regressione. Influenza . Un'osservazione è detto essere influente se rimuovere l'osservazione cambia sostanzialmente la stima dei coefficienti. L'influenza può essere pensato come il prodotto della leva finanziaria e outlierness. Come possiamo identificare questi tre tipi di osservazioni Let8217s guardare un esempio di dati chiamato crimine. Questo set di dati appare in Metodi statistici per le scienze sociali, Terza edizione di Alan Agresti e Barbara Finlay (Prentice Hall, 1997). Le variabili sono id stato (SID), il nome dello stato (stato), i crimini violenti per 100.000 persone (criminalità), omicidi per 1.000.000 (omicidio), la percentuale della popolazione che vive nelle aree metropolitane (pctmetro), la percentuale della popolazione che è bianco (pctwhite), per cento della popolazione con una formazione di scuola superiore o superiore (pcths), per cento della popolazione che vive sotto la linea di povertà (la povertà), e per cento della popolazione che sono genitori single (singolo). Di seguito usiamo contenuti proc e proc mezzi per saperne di più su questo file di dati. Let8217s dicono che vogliamo prevedere crimine pctmetro. povertà . e single. Vale a dire, vogliamo costruire un modello di regressione lineare tra il crimine variabile di risposta e le variabili pctmetro indipendente. povertà e singolo. Per prima cosa guardare i grafici a dispersione di crimine contro ciascuna delle variabili predittive prima della analisi di regressione così avremo alcune idee su potenziali problemi. Siamo in grado di creare una matrice di dispersione di queste variabili come illustrato di seguito. I grafici di reato con altre variabili mostrano alcuni potenziali problemi. In ogni trama, vediamo un punto dati che è lontano dal resto dei punti dati. Let8217s fanno i singoli grafici di reato con pctmetro e la povertà e singolo, così possiamo ottenere una visione migliore di questi grafici a dispersione. Noi aggiungeremo l'opzione pointlabel (quotstatequot) nello stato simbolo per tracciare il nome dello stato invece di un punto. Tutti i grafici a dispersione suggeriscono che l'osservazione per dc stato è un punto che richiede particolare attenzione poiché distingue lontano da tutti gli altri punti. Vi terremo a mente quando facciamo la nostra analisi di regressione. Ora let8217s provare il reato di comando di regressione predire da pctmetro, povertà e singolo. Andremo passo-passo per identificare tutti i punti potenzialmente insoliti o influenti in seguito. Faremo di uscita diverse statistiche di cui avremo bisogno per i prossimi analisi a un DataSet chiamato crime1res. e spiegheremo ogni statistica a sua volta. Queste statistiche sono il studentizzato residua (chiamato r), la leva finanziaria (chiamato lev), Cook8217s D (chiamato CD) e DFFITS (chiamato DFFIT). Chiediamo tutte queste statistiche ora in modo che possono essere collocati in un unico set di dati che useremo per parecchi esempi. In caso contrario, potremmo dover eseguire nuovamente il reg proc ogni volta che volevamo una nuova statistica e salvare quella statistica in un altro file di dati di output. Let8217s esaminano i residui studentizzati come un primo mezzo per identificare valori anomali. Abbiamo chiesto i residui studentizzati nella regressione, iscritti nello stato di uscita e il nome li r. Siamo in grado di scegliere qualsiasi nome ci piace finché si tratta di un nome legale SAS variabile. residui studentizzati sono un tipo di residuo standardizzato che può essere utilizzato per identificare valori anomali. Let8217s esaminano i residui con una trama stelo e foglia. Vediamo tre residui che sporgono, -3.57, 2.62 e 3.77. Il display stelo e foglia ci aiuta a vedere alcuni potenziali valori anomali, ma non possiamo vedere quale stato (quali osservazioni) sono potenziali valori anomali. Let8217s ordinare i dati sui residui e mostrare i 10 grandi e 10 piccoli residui con l'id dello stato e il nome dello stato. Dobbiamo prestare attenzione a residui studentizzati che superano 2 o -2, e ottenere ancora più preoccupati per i residui che superano 2.5 o -2.5 e nemmeno ancora più preoccupato per i residui che superano 3 o -3. Questi risultati mostrano che DC e MS sono le osservazioni più preoccupanti, seguiti da FL. Let8217s mostrano tutte le variabili nella nostra regressione in cui il residuo studentizzato supera 2 o -2, cioè quando il valore assoluto del residuo è superiore a 2. Vediamo i dati per i tre potenziali valori anomali che abbiamo identificato, cioè Florida, Mississippi e Washington DC Guardando con attenzione a queste tre osservazioni, abbiamo couldn8217t trovato errori di inserimento dei dati, anche se si può decidere di fare un'altra analisi di regressione con il punto estremo, come cancellato DC. Torneremo su questo argomento più avanti. Ora let8217s guardare le leverage8217s per identificare le osservazioni che avranno potenziale grande influenza su stime dei coefficienti di regressione. Generalmente, un punto con leva superiore (2k2) n deve essere attentamente esaminata, dove k è il numero di predittori e n è il numero di osservazioni. Nel nostro esempio, questo funziona a (232) 51 ,15,686275 millions. in modo che possiamo fare quanto segue. Come abbiamo visto, DC è una osservazione che sia ha una grande leva residuo e grande. Tali punti sono potenzialmente i più influenti. Possiamo fare una trama che mostra la leva finanziaria da parte del quadrato residuo e cercare le osservazioni che sono congiuntamente alto su entrambe le misure. Possiamo farlo utilizzando una leva contro il grafico dei residui al quadrato. Utilizzando residua quadrato anziché sé residua, il grafico è limitato al primo quadrante e le posizioni relative dei punti dati sono conservati. Questo è un modo rapido di controllare eventuali osservazioni influenti e valori anomali allo stesso tempo. Entrambi i tipi di punti sono di grande preoccupazione per noi. Il punto per la DC cattura la nostra attenzione avendo sia la leva più alto residuo squadrata e più alto, suggerendo che potrebbe essere molto influente. Il punto per MS non ha quasi più grande di un residuale squadrato, ma non ha lo stesso effetto leva. We8217ll guardare quelle osservazioni con più attenzione elencando qui sotto. Ora let8217s passare a misure globali di influenza. In particolare, let8217s guardano Cook8217s D e DFITS. Queste misure sia combinano le informazioni sul residuo e leva finanziaria. Cook8217s D e DFITS sono molto simili, tranne che scala in modo diverso, ma ci danno risposte simili. Il valore più basso che Cook8217s D può assumere è pari a zero, e maggiore è il Cook8217s D è, il più influente il punto è. Il punto di cut-off convenzionale è 4n. Possiamo elencare qualsiasi tipo di osservazione al di sopra del punto di cut-off facendo quanto segue. Noi vediamo che la Cook8217s D per la DC è di gran lunga il più grande. Ora let8217s dare un'occhiata a DFITS. Il punto di cut-off convenzionale per DFITS è 2sqrt (kn). DFITS può essere positivo o negativo, con numeri vicino allo zero corrispondenti ai punti con piccolo o nullo influenza. Come si vede, DFITS indica anche che la DC è, di gran lunga, l'osservazione più influente. Le misure di cui sopra sono misure generali di influenza. Si può anche prendere in considerazione misure più specifiche di influenza che valutare come ogni coefficiente viene modificata eliminando l'osservazione. Questa misura è chiamato DiffBeta e viene creato per ciascuno dei predittori. A quanto pare questo è più computazionalmente intensive di statistiche di riepilogo, come Cook8217s D perché più predittori un modello ha, più calcoli che possono coinvolgere. Siamo in grado di limitare la nostra attenzione ai soli predittori che siamo più interessati e di vedere come ben educati questi predittori sono. In SAS, abbiamo bisogno di usare la ODS dichiarazione OutStatistics uscita per produrre i DiffBeta per ciascuno dei predittori. I nomi per le nuove variabili create sono scelti da SAS automaticamente e iniziano con DFB. Questo ha creato tre variabili, DFBpctmetro. DFBpoverty e DFBsingle. Let8217s guardare le prime 5 valori. Il valore per DFBsingle per l'Alaska è 0,14, il che significa che per essere inclusi nell'analisi (rispetto a esclusione), Alaska aumenta il coefficiente per il singolo di 0,14 errori standard, vale a dire 0,14 volte l'errore standard per BSingle o (0,14 15.5 ). Poiché l'inclusione di una osservazione potrebbe o contribuire ad un aumento o diminuzione in un coefficiente di regressione, DiffBeta può essere positivo o negativo. Un valore DiffBeta in eccesso di 2sqrt (n) merita ulteriori indagini. In questo esempio, saremmo preoccupati per valori assoluti superiori a 2sqrt (51) o 0,28. Siamo in grado di tracciare tutti e tre i valori DiffBeta contro l'id Stato in un unico grafico riportato di seguito. Aggiungiamo una linea a 0.28 e -0.28 per aiutarci a vedere le osservazioni potenzialmente problematici. Vediamo il valore più grande è di circa 3.0 per DFsingle. Siamo in grado di ripetere questo grafico con l'opzione pointlabel (quotstatequot) sulla dichiarazione symbol1 per etichettare i punti. Con il grafico qui sopra possiamo identificare che DiffBeta è un problema, e con il grafico sottostante possiamo associare questa osservazione con lo Stato che proviene da. Ora let8217s elencare tali osservazioni con DFBsingle più grandi del valore di cut-off. Ancora una volta, vediamo che DC è l'osservazione più problematico. La tabella seguente riassume le regole generali che usiamo per queste misure per identificare le osservazioni meritevoli di ulteriori indagini (dove k è il numero di predittori e n è il numero di osservazioni). Washington D. C. è apparso come valore aberrante e un punto influente in ogni analisi. Perché Washington D. C. in realtà non è uno stato, possiamo usare questo per giustificare l'omissione che dall'analisi, dicendo che davvero desideriamo analizzare solo gli stati. In primo luogo, let8217s ripetere la nostra analisi tra cui DC. Ora, let8217s eseguire l'analisi omettendo DC, includendo una dichiarazione in cui (qui ne sta per quotnot pari toquot ma si potrebbe anche usare per indicare la stessa cosa). Come ci aspettiamo, l'eliminazione di DC ha fatto un grande cambiamento nel coefficiente per la singola. Il coefficiente per singolo sceso 132,4-89,4. Dopo aver eliminato DC, vorremmo ripetere il processo che abbiamo illustrato in questa sezione per la ricerca di eventuali altre osservazioni periferiche e influenti. In questa sezione, abbiamo esplorato un certo numero di metodi di valori anomali che identificano e punti influenti. In un'analisi tipica, si sarebbe probabilmente utilizzare solo alcuni di questi metodi. In generale, ci sono due tipi di metodi per valutare i valori anomali: statistiche come residui, leva, Cook8217s D e DFITS, che valutano l'impatto complessivo di una osservazione sui risultati della regressione, e statistiche come DiffBeta che valutano l'impatto specifico di un osservazione sui coefficienti di regressione. Nel nostro esempio, abbiamo scoperto che la DC è stato un punto di grande preoccupazione. Abbiamo eseguito una regressione con essa e senza di essa e le equazioni di regressione sono stati molto diversi. Siamo in grado di giustificare la rimozione dalla nostra analisi dal ragionamento che il nostro modello è quello di prevedere tasso di criminalità per gli stati, non per le aree metropolitane. 2.2 I test per la normalità dei residui Uno dei presupposti di analisi di regressione lineare è che i residui sono distribuiti normalmente. Questa ipotesi assicura che i valori p per il T-test saranno validi. Come in precedenza, genereremo i residui (chiamato R) e valori previsti (chiamato FV) e metterli in un insieme di dati (chiamati elem1res). Ci sarà anche mantenere la api00 variabili. i pasti . ell e Emer in questo set di dati. Let8217s utilizzare il file di dati elemapi2 abbiamo visto nel capitolo 1 per queste analisi. Let8217s prevedere rendimento scolastico (api00) da cento ricevere pasti gratuiti (pasti), percentuale di studenti di lingua inglese (ell), e la percentuale di insegnanti con credenziali di emergenza (emer). Di seguito usiamo proc kde per produrre una trama densità di kernel. kde acronimo di stima della densità del kernel. Esso può essere pensato come un istogramma con bidoni strette e una media mobile. Proc univariata produrrà un grafico quantile normale. QQPlot rappresenta i quantili di una variabile contro i quantili di una distribuzione normale. QQPlot è più sensibile a non normalità nei pressi di due code. e probplot Come si vede sotto, il comando QQPlot mostra una leggera deviazione dalla normale alla coda superiore, come si può vedere nella kde sopra. Possiamo accettare che i residui sono vicini a una distribuzione normale. valori anomali gravi consistono in quei punti che sono o 3 inter-quartile-range al di sotto del primo quartile o 3 inter-quartile-range al di sopra del terzo quartile. La presenza di eventuali valori anomali gravi dovrebbe essere una prova sufficiente per rifiutare la normalità ad un livello di significatività 5. valori anomali lievi sono comuni nei campioni di qualsiasi dimensione. Nel nostro caso, abbiamo don8217t abbiamo nessun gravi valori anomali e la distribuzione sembra abbastanza simmetrica. I residui hanno una distribuzione approssimativamente normale. (Vedere l'uscita del univariata proc sopra.) Nel test Shapiro-Wilk W per la normalità, il p-value si basa sul presupposto che la distribuzione è normale. Nel nostro esempio, il p-value è molto grande (0.51), che indica che non possiamo rifiutare che R è normalmente distribuito. (Vedere l'uscita del univariata proc sopra.) 2.3 I test per eteroscedasticità Uno dei principali presupposti per l'ordinaria minimi quadrati di regressione è l'omogeneità della varianza dei residui. Se il modello è ben attrezzata-, ci dovrebbe essere alcun motivo ai residui tracciati contro i valori adattati. Se la varianza dei residui non è costante, allora la varianza residua è detto essere quotheteroscedastic. quot Esistono metodi grafici e non grafici per la rilevazione eteroscedasticità. Un metodo grafico comunemente utilizzato è quello di tracciare i residui rispetto valori stimati (prevista). Di seguito utilizzare un'istruzione trama nel reg proc. Il r. e p. dire a SAS per calcolare i residui (r.) e valori previsti (p.) per l'uso nella trama. Vediamo che il modello dei punti dati sta diventando un po restringe verso l'estremità destra, che è un'indicazione della eteroscedasticità lieve. Ora let8217s guardare un test per eteroschedasticità, il test Bianco. Il test bianco testa l'ipotesi nulla che la varianza dei residui è omogenea. Pertanto, se il valore p è molto piccola, dovremmo rifiutare l'ipotesi e accettare l'ipotesi alternativa che la varianza non è omogenea. Usiamo l'opzione specifica sul modello di dichiarazione per ottenere il test Bianca. Mentre il test bianco è significativo, la distribuzione dei residui della residua rispetto plot montata non sembrava eccessivamente heteroscedastic. Consideriamo un altro esempio in cui si usa iscriversi come predittore. Ricordiamo che abbiamo trovato iscriversi ad essere distorta a destra nel Capitolo 1. Come si può vedere, questo esempio mostra molto più grave eteroschedasticità. Come abbiamo visto nel capitolo 1, la variabile è stata distorta iscriversi considerevolmente verso destra, e abbiamo trovato che prendendo una trasformazione logaritmica, la variabile trasformata era più normalmente distribuito. Di seguito trasformiamo iscriversi. eseguire la regressione e mostrare al residua rispetto plot montata. La distribuzione dei residui è molto migliorata. Certamente, questa non è una perfetta distribuzione dei residui, ma è molto meglio della distribuzione con la variabile non trasformata. Infine, let8217s rivisitare il modello che abbiamo usato all'inizio di questa sezione, la previsione api00 dai pasti. Ell e emer. Utilizzando questo modello, la distribuzione dei residui sembrava molto bello e anche attraverso i valori adattati. E se aggiungiamo iscriversi a questo modello sarà questo rovinare automaticamente la distribuzione dei residui Let8217s aggiungerlo e vediamo. Come si può vedere, la distribuzione dei residui guarda bene, anche dopo che abbiamo aggiunto la iscriversi variabile. Quando abbiamo avuto solo il iscriversi variabili nel modello, abbiamo fatto una trasformazione log per migliorare la distribuzione dei residui, ma quando iscriversi faceva parte di un modello con altre variabili, i residui sembrava abbastanza buona, così che era necessaria nessuna trasformazione. Questo illustra come la distribuzione dei residui, non la distribuzione del predittore, era il fattore guida nel determinare se è necessaria una trasformazione. 2.4 I test per Collinearità Quando c'è una relazione lineare perfetta tra i predittori, le stime per un modello di regressione non è possibile calcolare in modo univoco. Il termine collinearità descrive due variabili sono vicino combinazioni lineari perfetti l'uno dall'altro. Quando più di due variabili sono coinvolti, è spesso chiamato multicollinearità, anche se i due termini sono spesso usati come sinonimi. La preoccupazione principale è che aumenta il grado di multicollinearità, il modello di regressione stime dei coefficienti diventano instabili e gli errori standard per i coefficienti possono ottenere selvaggiamente gonfiato. In questa sezione, esploreremo alcune opzioni SAS utilizzati con il modello di dichiarazione che aiutano a rilevare multicollinearità. Siamo in grado di utilizzare l'opzione vif per verificare la presenza di multicollinearità. Vif sta per fattore di inflazione della varianza. Come regola generale, una variabile il cui VIF valori è superiore a 10 possono meritare ulteriori indagini. La tolleranza, definita come 1VIF, viene utilizzato da molti ricercatori per controllare il grado di collinearità. Un valore di tolleranza inferiore a 0,1 è paragonabile a un VIF 10. Ciò significa che la variabile potrebbe essere considerato come una combinazione lineare di altre variabili indipendenti. L'opzione tol sul modello di dichiarazione ci da questi valori. Let8217s primo sguardo al di regressione che abbiamo fatto dal ultima sezione, il modello di regressione predire api00 dai pasti, ell e Emer. e utilizzare le opzioni vif e Tol con il modello di dichiarazione. I VIFS guardano bene qui. Ecco un esempio in cui le VIFS sono più preoccupanti. In questo esempio, il VIF e tolleranza (1VIF) Valori per gradsch avged e colgrad sono preoccupanti. Tutte queste variabili misurano l'educazione dei genitori e dei valori molto elevati VIF indicano che queste variabili sono forse ridondanti. Ad esempio, dopo lo sai gradsch e colgrad. probabilmente si può prevedere avged molto bene. In questo esempio, multicollinearità deriva dal fatto che abbiamo messo in troppe variabili che misurano la stessa cosa: l'educazione dei genitori. Let8217s omettono una delle variabili relative all'istruzione genitore, avged. Si noti che i valori VIF nell'analisi che segue appaiono molto meglio. Inoltre, si noti come gli errori standard sono ridotti per le variabili educazione dei genitori, gradsch e colgrad. Questo perché l'elevato grado di collinearità causato errori standard per essere gonfiati. Con la multicollinearità eliminato, il coefficiente per gradsch. che era stato non significativo, è ora significativo. Let8217s introducono un'altra opzione per quanto riguarda la collinearità. L'opzione collinoint mostra diverse misure diverse di collinearità. Per esempio, possiamo testare la collinearità tra le variabili che abbiamo usato nei due esempi precedenti. Si noti che se si utilizza l'opzione Collin, l'intercetta sarà incluso nel calcolo delle statistiche di collinearità, che di solito non è ciò che si vuole. L'opzione collinoint esclude l'intercettazione da questi calcoli, ma è ancora inclusa nel calcolo della regressione. Ora togliamo avged e vediamo la diagnostica collinearità migliorano considerevolmente. Il numero di condizione è un indice comunemente usato dell'instabilità globale dei coefficienti di regressione 8212 un gran numero di condizione, 10 o più, è un'indicazione di instabilità. 2.5 Prove su linearità Quando facciamo la regressione lineare, si assume che la relazione tra la variabile di risposta ei predittori è lineare. Questo è l'assunzione di linearità. Se questa ipotesi è violata, la regressione lineare cercherà di adattare una linea retta a dati che non segue una linea retta. Verifica l'ipotesi lineare nel caso di semplice regressione è semplice, dal momento che abbiamo un solo predittore. Tutto ciò che dobbiamo fare è un grafico a dispersione tra la variabile di risposta e il predittore per vedere se non linearità è presente, come ad esempio una banda di curva o una grande curva a forma di onda. Per esempio, cerchiamo di utilizzare una chiamata nations. sav file di dati che contiene i dati di un certo numero di nazioni di tutto il mondo. Qui di seguito esaminiamo i contenuti proc per questo file per vedere le variabili del file (Si noti che l'opzione di posizione dice SAS per elencare le variabili nell'ordine in cui essi sono nel file di dati.) Let8217s guardare il rapporto tra PIL pro capite (gnpcap) e le nascite (la nascita). Qui di seguito, se guardiamo la dispersione tra i gnpcap e la nascita. possiamo vedere che il rapporto tra queste due variabili è abbastanza non lineare. Abbiamo aggiunto una linea di regressione al grafico, e si può vedere quanto poco la linea si inserisce questi dati. Inoltre, se guardiamo i residui di trama predetto, vediamo che i residui non sono quasi homoscedastic, a causa della non linearità nel rapporto tra gnpcap e la nascita. Ora stiamo andando a modificare la dispersione sopra con l'aggiunta di un lowess (chiamato anche quotloessquot) lisciatura linea. Per impostazione predefinita, SAS farà quattro grafici, uno per la levigatura di 0.1, 0.2, 0.3 e 0.4. Mostriamo solo il grafico con il 0,4 liscia. lt qualche uscita omessi GT La linea lowess si adatta molto meglio rispetto alla regressione lineare OLS. Nel tentativo di vedere come rimediare a questi, notiamo che i punteggi gnpcap sono abbastanza distorta con la maggior parte dei valori di essere vicino a 0, e una manciata di valori di 10.000 e superiore. Questo ci suggerisce che una trasformazione della variabile può essere utile. Una delle trasformazioni comunemente usati è una trasformazione logaritmica. Let8217s cercano sottostante. Come si vede, la dispersione tra i lgnpcap e la nascita sembra molto meglio con la retta di regressione passa attraverso il cuore dei dati. Inoltre, la trama dei residui di valori previsti un aspetto molto più ragionevole. Questa sezione ha dimostrato come è possibile utilizzare grafici a dispersione per diagnosticare i problemi di non-linearità, sia guardando i grafici a dispersione della variabile predittore e il risultato, oltre che mediante l'esame dei residui da valori previsti. Questi esempi sono concentrati sulla regressione semplice tuttavia, tecniche simili sarebbero utili nella regressione multipla. Tuttavia, quando si utilizza la regressione multipla, sarebbe più utile esaminare trame regressione parziali invece dei semplici dispersione tra le variabili predittive e la variabile risultato. 2.6 Specifica di modello Un errore di specificazione del modello può verificarsi quando uno o più rilevanti variabili vengono omessi dal modello o una o più variabili irrilevanti sono inclusi nel modello. Se variabili rilevanti vengono omessi dal modello, la varianza comune che condividono con variabili incluse può essere erroneamente attribuito a queste variabili, e il termine di errore è gonfiato. D'altra parte, se le variabili irrilevanti sono inclusi nel modello, la varianza comune che condividono con variabili incluse può essere erroneamente attribuito a loro. errori di specificazione del modello possono influenzare sostanzialmente la stima dei coefficienti di regressione. Si consideri il seguente modello. Questa regressione suggerisce che la dimensione della classe aumenta le accademici aumenta le prestazioni. Prima di pubblicare i risultati dicendo che una maggiore dimensione della classe è associata a più alto rendimento scolastico, let8217s controllare le specifiche del modello. Ci sono un paio di metodi per rilevare errori di specifica. Un test di collegamento esegue un test specificazione del modello per i modelli single-equazione. Si basa sull'idea che se una regressione è correttamente specificato, non si dovrebbe essere in grado di trovare variabili indipendenti aggiuntive che sono significativi se non per caso. Per condurre questo test, è necessario ottenere i valori stimati dal vostro regressione e le piazze di quei valori. Il modello viene poi rimontare utilizzando queste due variabili come predittori. Il valore deve essere montato significativo perché è il valore previsto. Un altro canto, i valori adattati al quadrato shouldn8217t essere significativa, perché se il nostro modello è specificato correttamente, le previsioni squadrate non dovrebbero avere molto di potere esplicativo. Cioè, ci aspettiamo che il valore wouldn8217t montato quadrato di essere un predittore significativo se il nostro modello è specificato correttamente. Quindi ci occuperemo al p-value per il valore stimato al quadrato. Let8217s Prova ad aggiungere una variabile di più, i pasti. al modello qui sopra e quindi eseguire nuovamente il test di collegamento. Il test di collegamento è ancora una volta non significativo. Si noti che dopo compresi i pasti e completo. il coefficiente di dimensione della classe non è più significativa. Mentre acsk3 ha un rapporto positivo con api00 quando non altre variabili sono nel modello, in cui includiamo, e quindi di controllo per, altre variabili importanti, acsk3 non è più significativamente correlata alla api00 e il suo rapporto api00 non è più positiva. 2.7 Le questioni di Indipendenza L'affermazione di questa ipotesi è che gli errori associati a una osservazione non sono correlati con gli errori di qualsiasi altra copertura di osservazione diverse situazioni. Consideriamo il caso di raccolta di dati da parte di studenti in otto diverse scuole elementari. E 'probabile che gli studenti all'interno di ogni scuola tenderanno ad essere più simili l'un l'altro che gli studenti di scuole diverse, vale a dire, i loro errori non sono indipendenti. Noi affrontare questo tipo di situazione nel capitolo 4. Un altro modo in cui l'assunzione di indipendenza può essere rotto è quando i dati sono raccolti sulle stesse variabili nel tempo. Let8217s dicono che raccogliamo dati truancy ogni semestre per 12 anni. In questa situazione, è probabile che gli errori di osservazione tra semestri adiacenti saranno più altamente correlati che per osservazioni più separati nel tempo. Questo è noto come autocorrelazione. Quando si dispone di dati che possono essere considerati di serie temporali, si consiglia di utilizzare l'opzione DW che esegue un test di Durbin-Watson per residui correlati. Abbiamo don8217t abbiamo tutti i dati di serie temporali, quindi useremo il set di dati elemapi2 e far finta che SNUM indica l'ora in cui sono stati raccolti i dati. Noi ordinare i dati sulla SNUM per ordinare i dati in base alla nostra variabile tempo falso e quindi siamo in grado di eseguire l'analisi di regressione con l'opzione dw di richiedere il test di Durbin-Watson. La statistica Durbin-Watson ha un range da 0 a 4 con un punto medio di 2. Il valore osservato nel nostro esempio è inferiore a 2, che non è sorprendente dal momento che i nostri dati non sono veramente serie temporali. In questo capitolo, abbiamo utilizzato una serie di strumenti in SAS per determinare se i nostri dati soddisfa i presupposti di regressione. Di seguito riportiamo i principali comandi abbiamo dimostrato organizzata secondo l'assunto il comando è stato mostrato alla prova. Rilevamento insoliti e influenti a dispersione di dati delle variabili dipendenti rispetto al variabile indipendente guardando i maggiori valori dei residui studentizzati, leva, Cook8217s D, DFFITS e DiffBeta test per la normalità dei test residui per Heteroscedasity trama densità kernel trame quantile-quantile standardizzato probabilità normale trame Shapiro-Wilk W test di grafico a dispersione dei residui rispetto al previsto (in dotazione) valori I test di prova bianche per Multicollinearità guardando VIF guardando test di tolleranza per i non-linearità dispersione di variabile indipendente rispetto al test della variabile dipendente per il modello Specification serie temporali di test Durbin-Watson 2.9 per maggiori informazioni

No comments:

Post a Comment