Sunday 15 October 2017

Flytte Gjennomsnittet Vs Regresjon


Lineær regresjonsanalyse er den mest brukte av alle statistiske teknikker: det er studien av lineær. additiv relasjoner mellom variabler. La Y betegne 8220dependent8221-variabelen hvis verdier du ønsker å forutsi, og la X 1. 8230, X k betegne 8220independent8221 variablene som du ønsker å forutsi, med verdien av variabel X i i periode t (eller i rad t av datasettet) betegnet av X det. Deretter er ligningen for å beregne den forutsagte verdien av Y t: Denne formelen har egenskapen at prediksjonen for Y er en lineær funksjon av hver av X-variablene, holder de andre faste og bidragene fra forskjellige X-variabler til Forutsigelser er additiv. Løypene av deres individuelle lineære relasjoner med Y er konstantene b 1. b 2, 8230, b k. de såkalte koeffisientene til variablene. Det vil si, b er forandringen i den forutsagte verdien av Y per forandringsenhet i X i. andre ting er like. Den ekstra konstante b 0. den såkalte avskjæringen. er prediksjonen at modellen ville gjøre hvis alle X 8217-tallene var null (hvis det er mulig). Koeffisientene og avskjæringen er estimert med minst firkanter. det vil si at de er lik de unike verdiene som minimerer summen av kvadratfeil i datautvalget som modellen er montert på. Og modellens prediksjonsfeil antas vanligvis å være uavhengig og normalt distribuert. Det første du bør vite om lineær regresjon, er hvordan den merkelige termen regresjonen kom til å brukes på modeller som dette. De ble først studert i dybden av en 19th århundre forsker, Sir Francis Galton. Galton var en selvlært naturforsker, antropolog, astronom og statistiker - og en virkelig Indiana Jones karakter. Han var kjent for sine utforskninger, og han skrev en bestselgende bok om hvordan man skal overleve i villmarken med tittelen "The Travel of Travel": Skift og Contrivances Tilgjengelig i Wild Steder, sitat og dets etterfølger, quotThe Art of Rough Travel: From the Practical til den spesielle. De er fortsatt på trykk og anses fortsatt som nyttige ressurser. De gir mange praktiske hint for å holde seg i live - for eksempel hvordan man behandler spydsår eller trekker hesten fra kvicksand - og introduserte begrepet sovepose til vestlige verden. Klikk på disse bildene for flere detaljer: Galton var en pioner i anvendelsen av statistiske metoder til målinger i mange grener av vitenskap, og i studiet av data om relative størrelser av foreldre og deres avkom i forskjellige arter av planter og dyr, observerte han følgende fenomen: en større enn gjennomsnittlig forelder har en tendens til å produsere et barn som er større enn gjennomsnittet, men barnet er sannsynligvis mindre enn foreldrene i forhold til sin relative stilling i sin egen generasjon. For eksempel, hvis foreldrenes størrelse er x standardavvik fra gjennomsnittet i sin egen generasjon, bør du forutsi at barnets størrelse vil være rx (r ganger x) standardavvik fra gjennomsnittet i settet av barn til de foreldrene , hvor r er et tall mindre enn 1 i størrelse. (r er det som skal defineres nedenfor som korrelasjonen mellom foreldrenes størrelse og barnets størrelse.) Det samme gjelder for praktisk talt fysisk måling (og i tilfelle mennesker, de fleste målinger av kognitiv og fysisk evne) som kan utføres på foreldre og deres avkom. Her er det første publiserte bildet av en regresjonslinje som illustrerer denne effekten, fra et foredrag presentert av Galton i 1877: R-symbolet på dette diagrammet (hvis verdi er 0,33) angir hellingskoeffisienten, ikke korrelasjonen, selv om de to er de samme hvis begge populasjonene har samme standardavvik, som det vil bli vist nedenfor. Galton kalte dette fenomenet en regresjon mot middelmådighet. som i moderne termer er en regresjon til den gjennomsnittlige. Til en naiumlve-observatør kan dette tyde på at senere generasjoner skal vise mindre variabilitet - bokstavelig talt mer middelmådighet - enn tidligere, men det er ikke tilfelle. Det er et rent statistisk fenomen. Med mindre hvert barn er akkurat som samme størrelse som foreldrene i relative termer (dvs. med mindre korrelasjonen er nøyaktig lik 1), må prognosene gå tilbake til gjennomsnittet uavhengig av biologi dersom gjennomsnittlig kvadratfeil skal minimeres. (Gå tilbake til toppen av siden.) Regresjon til gjennomsnittet er et uunngåelig faktum i livet. Dine barn kan forventes å være mindre eksepsjonelle (for bedre eller verre) enn du er. Din poengsum på en avsluttende eksamen i et kurs kan forventes å være mindre bra (eller dårlig) enn poengsummen din på midtveiseksamen, i forhold til resten av klassen. En baseballspillers batting gjennomsnitt i andre halvdel av sesongen kan forventes å være nærmere den gjennomsnittlige (for alle spillere) enn hans batting gjennomsnitt i første halvdel av sesongen. Og så videre. Nøkkelordet her er quotexpected. quot Dette betyr ikke at det er sikkert at regresjon til gjennomsnittet vil oppstå, men det er måten å satse på. Vi har allerede sett et forslag om regresjon-til-middel i noen av tidsseriene som spår modeller vi har studert: plott av prognoser pleier å være jevnere --ie de viser mindre variabilitet - enn plottene til de opprinnelige dataene. Dette gjelder ikke for tilfeldige gangmodeller, men det er generelt sant å flytte gjennomsnittlige modeller og andre modeller som baserer sine prognoser på mer enn en tidligere observasjon. Den intuitive forklaringen til regresjonseffekten er enkel: det vi forsøker å forutse, består vanligvis av en forutsigbar komponent (quotsignalquot) og en statistisk uavhengig uforutsigbar komponent (quotnoisequot). Det beste vi kan håpe å gjøre er å forutsi (bare) den delen av variabiliteten som skyldes signalet. Derfor vil våre prognoser ha en tendens til å vise mindre variabilitet enn de faktiske verdiene, noe som innebærer en regresjon til gjennomsnittet. En annen måte å tenke på regresjonseffekten er når det gjelder utvalgsperspektiv. Generelt kan en spiller8217s ytelse over en gitt tidsperiode tilskrives en kombinasjon av ferdighet og flaks. Anta at vi velger et utvalg profesjonelle idrettsutøvere hvis ytelse var mye bedre enn gjennomsnittet (eller elever med karakterer som var mye bedre enn gjennomsnittet) i første halvår. At de gjorde det bra i første halvdel av året, gjør det sannsynlig at både deres ferdigheter og lykken var bedre enn gjennomsnittet i den perioden. I andre halvdel av året kan vi forvente at de skal være like dyktige, men vi bør ikke forvente at de skal være like heldige. Så vi bør forutse at i andre omgang vil deres ytelse bli nærmere den gjennomsnittlige. I mellomtiden hadde spillere som bare var gjennomsnittlig i første halvdel, sannsynligvis ferdighet og flaks i motsatt retning for dem. Vi bør derfor forvente at deres resultater i andre halvår skal bevege seg bort fra gjennomsnittet i en eller annen retning, da vi får en annen uavhengig test av ferdighetene deres. Vi vet ikke hvilken retning de vil bevege seg, men selv for dem bør vi forutsi at deres andre halvdel ytelse vil være nærmere gjennomsnittet enn deres første halvdel. Den faktiske ytelsen til spillerne bør imidlertid forventes å ha en like stor variasjon i andre halvdel av året som i første omgang, fordi den bare resulterer fra en omfordeling av uavhengig tilfeldig flaks blant spillere med samme kompetansefordeling som før. En fin diskusjon om regresjon til gjennomsnittet i den bredere sammenhengen av samfunnsvitenskapelig forskning finner du her. (Tilbake til toppen av siden.) Begrunnelse for regresjonsforutsetninger Hvorfor bør vi anta at forhold mellom variabler er lineære. Fordi lineære forhold er de enkleste ikke-trivielle forholdene som kan forestilles (dermed det enkleste å jobbe med), og. Fordi quottruequot-relasjonene mellom våre variabler ofte er minst omtrent lineære over det verdier som er av interesse for oss, og. Selv om de ikke er det, kan vi ofte omdanne variablene på en slik måte at de lineariserer forholdene. Dette er en sterk antagelse, og det første trinnet i regresjonsmodellering bør være å se på spredningsdiagrammer av variablene (og i tilfelle tidsseriedata, plott av variablene vs tid) for å sikre at det er rimelig a priori. Og etter å ha montert en modell, bør feilmålinger undersøkes for å se om det er uforklarlige ikke-lineære mønstre. Dette er spesielt viktig når målet er å gjøre forutsigelser for scenarier utenfor rekkevidden av de historiske dataene, hvor avganger fra perfekt linearitet sannsynligvis vil ha størst effekt. Hvis du ser tegn på ikke-lineære relasjoner, er det mulig (men ikke garantert) at transformasjoner av variabler vil rette dem ut på en måte som vil gi nyttige inferanser og spådommer via lineær regresjon. (Tilbake til toppen av siden.) Og hvorfor skal vi anta at virkningen av forskjellige uavhengige variabler på forventet verdi av den avhengige variabelen er additiv. Dette er en veldig sterk antagelse, sterkere enn de fleste innser. Det innebærer at den marginale effekten av en uavhengig variabel (det vil si dens skråningskoeffisient) ikke er avhengig av nåværende verdier av andre uavhengige variabler. Men 8230 hvorfor burde det være mulig at en uavhengig variabel kunne forsterke effekten av en annen, eller at dens effekt kan variere systematisk over tid. I en multipelregresjonsmodell måles den estimerte koeffisienten til en gitt uavhengig variabel antagelig sin effekt mens quotcontrollingquot for tilstedeværelsen av de andre. Imidlertid er måten kontrollen utføres på, ekstremt enkel: Multipler av andre variabler blir bare lagt til eller trukket fra. Mange brukere kaster bare mange uavhengige variabler inn i modellen uten å tenke nøye på dette problemet, som om deres programvare automatisk vil finne ut nøyaktig hvordan de er relaterte. Det won8217t Selv automatiske modellvalgsmetoder (for eksempel trinnvis regresjon) krever at du har en god forståelse av dine egne data og å bruke en veiledende hånd i analysen. De arbeider bare med variablene de er gitt, i form som de er gitt, og så ser de bare for lineære, additivmønstre blant dem i sammenheng med hverandre. En regresjonsmodell antar ikke bare at Y er quotsome functionquot av Xs. Det antas at det er en veldig spesiell type funksjon av Xs. En vanlig praksis er å inkludere uavhengige variabler hvis prediktive effekter logisk ikke kan være additiv, si noen som er totals og andre som er priser eller prosenter. Noen ganger kan dette rationaliseres ved lokale førstordens-tilnærming argumenter, og noen ganger kan det ikke. Du må samle de relevante dataene, forstå hva det måler, rengjør det om nødvendig, utfør beskrivende analyser for å lete etter mønstre før du monterer noen modeller, og undersøk de diagnostiske tester av modellantakelser etterpå, spesielt statistikk og plott av feilene. Du bør også prøve å bruke riktig økonomisk eller fysisk begrunnelse for å avgjøre om en tilsetningsforutsigelsesligning er fornuftig. Også her er det mulig (men ikke garantert) at transformasjoner av variabler eller inkludering av interaksjonsbetingelser kan skille deres effekter inn i en additiv form, hvis de ikke har et slikt skjema til å begynne med, men dette krever litt tanke og innsats på din del. (Gå tilbake til toppen av siden.) Og hvorfor skal vi anta at feilene i lineære modeller er uavhengig og normalt distribuert. 1. Denne antagelsen er ofte begrunnet ved å appellere til den sentrale grenseetningen for statistikk, som sier at summen eller gjennomsnittet av et tilstrekkelig stort antall uavhengige tilfeldige variabler - uansett deres individuelle fordelinger - nærmer seg en normal fordeling. Mye data i næringsliv og økonomi og ingeniørfag og naturvitenskap er oppnådd ved å legge til eller gjennomsnittlig numerisk måling utført på mange forskjellige personer eller produkter eller steder eller tidsintervaller. Forutsatt at aktivitetene som genererer målingene kan forekomme noe tilfeldig og noe uavhengig, kan vi forvente at variasjonene i totalene eller gjennomsnittene blir noe normalt fordelt. 2. Det er (igjen) matematisk praktisk: det innebærer at de optimale koeffisientestimatene for en lineær modell er de som minimerer gjennomsnittlig kvadratfeil (som lett kan beregnes), og det begrunner bruken av en rekke statistiske tester basert på normal familie av distribusjoner. (Denne familien inkluderer t-fordeling, F-fordeling og Chi-kvadratfordeling.) 3. Selv om quottruequot-feilprosessen ikke er normal i forhold til de opprinnelige enhetene i dataene, kan det være mulig å transformere dataene slik at modellens prediksjonsfeil er omtrent normalt. Men her må også forsiktighet utøves. Selv om de uforklarlige variasjonene i den avhengige variabelen er omtrent normalt fordelte, er det ikke garantert at de også vil bli distribuert like normalt for alle verdier av de uavhengige variablene. Kanskje de uforklarlige variasjonene er større under noen forhold enn andre, en tilstand som kalles quotheteroscedasticityquot. For eksempel, hvis den avhengige variabelen består av daglig eller månedlig total salg, er det sannsynligvis signifikant ukedagsmønster eller sesongmessige mønstre. I slike tilfeller vil variansen av totalen være større på dager eller i sesonger med større forretningsvirksomhet - en annen konsekvens av den sentrale grenseetningen. (Variable transformasjoner som logging andor sesongjustering brukes ofte til å håndtere dette problemet.) Det er heller ikke garantert at tilfeldige variasjoner vil være statistisk uavhengige. Dette er et spesielt viktig spørsmål når dataene består av tidsserier. Hvis modellen ikke er riktig angitt, er det mulig at sammenhengende feil (eller feil adskilt av et annet antall perioder) har en systematisk tendens til å ha samme tegn eller en systematisk tendens til å ha motsatte tegn, et fenomen som kalles quotautocorrelationquot eller quotserial correlationquot. Et svært viktig spesialfall er at aksjekursdata. i hvilke prosentvise endringer i stedet for absolutte endringer har en tendens til å bli distribuert normalt. Dette innebærer at over moderate til store tidsskalaer er bevegelser i aksjekursene lognormalt fordelt i stedet for normalt distribuert. En loggtransformasjon brukes typisk til historiske aksjekursdata når man studerer vekst og volatilitet. Forsiktig: Selv om enkle regresjonsmodeller ofte er montert på historisk aksjeavkastning for å anslå kvotebevis, som er indikatorer for relativ risiko i sammenheng med en diversifisert portefølje, anbefaler jeg ikke at du bruker regresjon for å prøve å forutsi fremtidige aksjeavkastninger. Se den geometriske tilfeldige gange siden i stedet. Du kan fortsatt tro at variasjoner i verdiene av porteføljer av aksjer vil pleie å bli distribuert normalt på grunn av den sentrale grense setningen, men den sentrale grense setningen er faktisk ganske sakte å bite på lognormal fordeling fordi det er så asymmetrisk lang - tailed. En sum på 10 eller 20 uavhengig og identisk lognormalt fordelte variabler har en fordeling som fortsatt er ganske nær lognormal. Hvis du ikke tror dette, prøv å teste det med Monte Carlo-simulering: du vil bli overrasket. (Jeg var.) Fordi forutsetningene for lineær regresjon (lineære, additivrelasjoner med normalt distribuerte feil) er så sterke, er det svært viktig å teste deres gyldighet når de passer på modeller, et emne som er nærmere omtalt i testmodell - Forutsetninger side. og vær oppmerksom på muligheten for at du trenger flere eller bedre data for å nå dine mål. Du kan ikke få noe fra ingenting. Alt for ofte ser naiumlve-brukere av regresjonsanalyse det ut som en svart boks som automatisk kan forutsi en gitt variabel fra andre variabler som blir matet inn i det, da en regresjonsmodell faktisk er en veldig spesiell og meget gjennomsiktig form for prediksjonsboks. Dens utgang inneholder ikke mer informasjon enn det som er gitt av dens innganger, og dens indre mekanisme må sammenlignes med virkeligheten i hver situasjon der den brukes. (Tilbake til toppen av siden.) Korrelasjon og enkle regresjonsformler En variabel er per definisjon en mengde som kan variere fra en måling til en annen i situasjoner hvor forskjellige prøver tas fra en befolkning eller observasjoner blir gjort på forskjellige tidspunkter. I passende statistiske modeller hvor noen variabler brukes til å forutsi andre, er det vi håper å finne, at de ulike variablene ikke varierer uavhengig (i statistisk forstand), men at de har en tendens til å variere sammen. Spesielt når vi passer på lineære modeller, håper vi å finne at en variabel (si, Y) varierer som en lineær funksjon av en annen variabel (si X). Med andre ord, hvis alle andre eventuelt relevante variabler kunne holdes faste, ville vi håpe å finne grafen for Y mot X for å være en rett linje (bortsett fra de uunngåelige tilfeldige feilene eller quotnoisequot). Et mål på den absolutte variabelen i en variabel er (naturlig) dens varians. som er definert som sin gjennomsnittlige kvadrert avvik fra sitt eget gjennomsnitt. Tilsvarende kan vi måle variabiliteten i forhold til standardavviket. som er definert som kvadratroten av variansen. Standardavviket har fordelen at den måles i de samme enhetene som den opprinnelige variabelen, i stedet for kvadratiske enheter. Vår oppgave med å forutsi Y kan beskrives som å forklare noe eller hele dens varians - dvs. Hvorfor . eller under hvilke forhold, avviker det fra det som betyr hvorfor det ikke er konstant. Det vil vi kunne forbedre på den naive prediktive modellen: 374 t CONSTANT, hvor den beste verdien for konstanten er antagelig den historiske middelværdien av Y. Nærmere bestemt håper vi å finne en modell hvis prediksjonsfeil er mindre, i gjennomsnittlig kvadratisk forstand, enn avvikene fra den opprinnelige variabelen fra dens gjennomsnitt. Ved bruk av lineære modeller for prediksjon, viser det seg veldig beleilig at den eneste statistikken av interesse (i det minste for å estimere koeffisienter for å minimere kvadratfeil) er gjennomsnittet og variansen av hver variabel og korrelasjonskoeffisienten mellom hvert par variabler. Korrelasjonskoeffisienten mellom X og Y betegnes vanligvis ved r XY. og det måler styrken til det lineære forholdet mellom dem på en relativ (dvs. enhetsløs) skala på -1 til 1. Dvs. måler det i hvilken grad en lineær modell kan brukes til å forutsi avviket av en variabel fra dens gjennomsnitt gitt kunnskap om den andre avviket fra dens gjennomsnitt på samme tidspunkt. Korrelasjonskoeffisienten beregnes lettest hvis vi først standardiserer variablene, noe som betyr å konvertere dem til enheter av standardavvik-fra-gjennomsnittet, ved å bruke populasjonsstandardavviket i stedet for prøvestandardavviket, dvs. ved å bruke statistikken hvis formel har n i stedet for n-1 i nevnen, hvor n er prøvestørrelsen. Den standardiserte versjonen av X vil bli betegnet her med X. og verdien i periode t er definert i Excel-notat som: hvor STDEV. P er Excel-funksjonen for populasjonsstandardavviket. (Her og andre steder skal jeg bruke Excel-funksjoner i stedet for konvensjonelle matte-symboler i noen av formlene for å illustrere hvordan beregningene skulle gjøres på et regneark.) For eksempel, anta at AVERAGE (X) 20 og STDEV. P (X ) 5. Hvis X t 25, deretter X t 1, hvis X t 10. deretter X t -2, og så videre. Y vil betegne den tilsvarende standardiserte verdien av Y. Nå er korrelasjonskoeffisienten lik med gjennomsnittet av de standardiserte verdiene for de to variablene i den gitte prøven av n observasjoner: For eksempel, hvis X og Y lagres i kolonner På et regneark kan du bruke AVERAGE - og STDEV. P-funksjonene til å beregne gjennomsnittene og standardstandardavvikene for befolkningen, så kan du opprette to nye kolonner der verdiene for X og Y i hver rad beregnes i henhold til formelen ovenfor. Deretter lager du en tredje ny kolonne der X blir multiplisert med Y i hver rad. Gjennomsnittet av verdiene i den siste kolonnen er korrelasjonen mellom X og Y. Selvfølgelig, i Excel, kan du bare bruke formelen CORREL (X, Y) for å beregne en korrelasjonskoeffisient, hvor X og Y angir celleområder av dataene for variablene. (Merk: I noen situasjoner kan det være interessant å standardisere dataene i forhold til standardavviket for prøven, som er STDEV. S i Excel, men populasjonsstatistikken er den riktige som skal brukes i formelen ovenfor.) (Tilbake til toppen av siden.) Hvis de to variablene har en tendens til å variere på samme side av deres respektive virkemidler samtidig, vil gjennomsnittlig produkt av deres avvik (og dermed sammenhengen mellom dem) være positiv. siden produktet av to tall med samme tegn er positivt. Omvendt, hvis de har en tendens til å variere på motsatte sider av deres respektive midler samtidig, vil deres korrelasjon være negativ. Hvis de varierer uavhengig med hensyn til deres midler - det vil si hvis en er like stor som å være over eller under dens gjennomsnitt uansett hva den andre gjør - da vil korrelasjonen være null. Og hvis Y er en nøyaktig lineær funksjon av X, så enten Y t X t for alle t eller annet Y t - X t for alle t. i så fall reduseres formelen for korrelasjonen til 1 eller -1. Korrelasjonskoeffisienten kan sies å måle styrken til det lineære forholdet mellom Y og X av følgende årsak. Den lineære ligningen for å forutsi Y fra X som minimerer gjennomsnittlig kvadratfeil er ganske enkelt: Således, hvis X observeres å være 1 standardavvik over sitt eget gjennomsnitt, da skal vi forutse at Y vil være r XY standardavvik over sitt eget middel hvis X er 2 standardavvik under sin egen gjennomsnitt, da skal vi forutse at Y vil være 2 r XY standardavvik under eget middel, og så videre. I grafiske termer betyr dette at, på en scatterplot av Y versus X. linjen for å forutsi Y fra X for å minimere gjennomsnittlig kvadratfeil er linjen som passerer gjennom opprinnelsen og har skråning r XY. Dette faktum er ikke ment å være åpenbart, men det er lett å bevise ved elementær differensialkalkulator. Her er et eksempel: på en scatterplot av Y versus X. symmetriens visuelle akse er en linje som går gjennom opprinnelsen, og hvis skråning er lik 1 (dvs. en 45 graders linje), som er den grå strekklinjen på plottet under. Den passerer gjennom opprinnelsen fordi metoden til begge standardiserte variabler er null, og dens helling er lik 1 fordi deres standardavvik er begge lik 1. (Det siste faktum betyr at punktene er like spredt horisontalt og vertikalt når det gjelder gjennomsnittlige kvadratiske avvik fra null, noe som tvinger deres mønster til å virke omtrent symmetrisk rundt 45-graderslinjen hvis forholdet mellom variablene virkelig er lineært.) Den grå strekkede linjen er imidlertid ikke den beste linjen som skal brukes til å forutsi verdien av Y for en gitt verdi på X. Den beste linjen for å forutsi Y fra X har en skråning på mindre enn 1: den trekker seg mot X-aksen. Regresjonslinjen er vist i rødt, og dens skråning er korrelasjonen mellom X og Y. Dette er 0,46 i dette tilfellet. Hvorfor er dette sant fordi, that8217s måten å satse på hvis du vil minimere den gjennomsnittlige kvadratfeilen målt i Y-retningen. Hvis du i stedet ønsket å forutsi X fra Y for å minimere gjennomsnittlig kvadratfeil målt i X-retningen, ville linjen regres i den andre retningen i forhold til 45-graders linjen, og med nøyaktig samme mengde. Hvis vi ønsker å oppnå den lineære regresjonsligningen for å forutsi Y fra X i ubetingede termer. vi trenger bare å erstatte formlene for de standardiserte verdiene i foregående ligning, som da blir: Ved å omarrangere denne ligningen og samle konstante termer, oppnår vi: er den estimerte helling av regresjonslinjen, og er den estimerte Y-avgrensningen av linje. Legg merke til at koeffisientene i den lineære ligningen for å forutsi Y fra X bare avhenger av middelene og standardavvikene til X og Y og korrelasjonskoeffisienten. De tilleggsformlene som trengs for å beregne standardfeil. t-statistikk. og P-verdier (statistikk som måler nøyaktigheten og betydningen av estimerte koeffisienter) er gitt i notatene om matematikk av enkel regresjon og også illustrert i denne regnearkfilen. Perfekt positiv korrelasjon (r XY 1) eller perfekt negativ korrelasjon (r XY -1) oppnås bare dersom en variabel er en nøyaktig lineær funksjon av den andre, uten feil, i så fall er de ikke veldig quotdifferentquot variabler i det hele tatt. Generelt finner vi mindre enn perfekt korrelasjon, det vil si, vi finner at r XY er mindre enn 1 i absolutt verdi. Derfor er vår prediksjon for Y vanligvis mindre i absolutt verdi enn vår observerte verdi for X. Det vil si at prediksjonen for Y er alltid nærmere sin egen betydning, i enheter med egen standardavvik, enn X ble observert å være, noe som er Galtons fenomen av regresjon til det gjennomsnittlige. Så den tekniske forklaringen av regresjon-til-middel-effekten hengsler på to matematiske fakta: (i) korrelasjonskoeffisienten, beregnet på måten som er beskrevet ovenfor, er tilfeldigvis den koeffisient som minimerer kvadreringskvoten ved å forutsi Y fra X . og (ii) korrelasjonskoeffisienten er aldri større enn 1 i absolutt verdi, og den er bare lik 1 når Y er en nøyaktig (støyløs) lineær funksjon av X. Begrepet quotregressionquot har sittende fast og har til og med mutert fra et intransitive verb til en transitt siden Galtons tid. Vi sier ikke bare at prediksjonene for Y citerer til meanquot - vi sier nå at vi citerer Y på X citationstegn når vi anslår en lineær ligning for å forutsi Y fra X. Og vi refererer til X som en kvoteringskvot i dette tilfellet. Når vi har montert en lineær regresjonsmodell, kan vi beregne variansen av feilene sine og sammenligne dette med variansen av den avhengige variabelen (sistnevnte er feilvariasjonen av en avskjæringsmodell). Det relative beløpet ved hvilken regresjonsmodellfeilvariansen er mindre enn variansen av den avhengige variabelen, refereres til som fraksjonen av variansen som ble forklart av den uavhengige variabel (er). For eksempel, hvis feilvarianen er 20 mindre enn den opprinnelige variansen, sier vi at vi har quotexplained 20 av variansen. quot Det viser seg at i en enkel regresjonsmodell er forklaringen av variansen forklart nøyaktig kvadratet til korrelasjonskoeffisienten - - dvs torget av r. Følgelig har fraksjonen av variansforklaringen blitt kjent som quotR-squaredquot. Tolkningen og bruken av R-kvadrert blir diskutert mer detaljert her. I en multiple regresjonsmodell (en med to eller flere X-variabler), er det mange korrelasjonskoeffisienter som må beregnes, i tillegg til alle midler og avvik. For eksempel må vi vurdere korrelasjonen mellom hver X-variabel og Y-variabelen, og også korrelasjonen mellom hvert par X-variabler. I dette tilfellet viser det seg fremdeles at modellkoeffisientene og fraksjonen av variansforklaringen kan beregnes utelukkende fra kunnskap om midler, standardavvik og korrelasjonskoeffisienter mellom variablene - men beregningene er ikke lenger enkle . Vi vil forlate disse detaljene til datamaskinen. (Gå tilbake til toppen av siden.) Gå videre til et nærliggende emne: Statistisk prognose: notater om regresjon og tidsserieanalyse Fuqua School of Business Duke University Denne nettsiden inneholder notater og materialer for et avansert valgfag på statistisk prognose som undervises på Fuqua School of Business, Duke University. Den dekker lineære regresjons - og tidsserieprognosemodeller, samt generelle prinsipper for gjennomtenkt dataanalyse. Tidsseriematerialet er illustrert med produksjon produsert av Statgraphics. en statistisk programvarepakke som er svært interaktiv og har gode funksjoner for testing og sammenligning av modeller, inkludert en prognose for parallellmodell som jeg designet for mange år siden. Materialet på multivariate data analyser og lineær regresjon er illustrert med produksjon produsert av RegressIt. Et gratis Excel-tilleggsprogram utviklet nylig, som tilbyr presentasjonskvalitet grafikk og støtte for gode modelleringspraksis. Disse notatene er imidlertid plattformuavhengige. Enhver statistisk programvarepakke burde gi de analytiske evnene som trengs for de ulike temaene dekket her. 1. Bli kjent med dataene dine 2. Innledning til prognoser: De enkleste modellene Velkommen til Rockefeller Treasury Services Forex Reports Vi har en av de beste banjepostene i virksomheten for lønnsomhet i valutamarkedet. Se vår rekord for både spot og futures i arkivene eller på slutten av hver daglig handelskonsulent. Barbara Rockefeller med Charlie Hva å forvente. Morgenrapporten blir levert klokka 8:45 på øst-amerikansk tid hver dag. Futures Traders8217 Advisory publiseres klokken 16:15 Øst-amerikanske tid hver dag, og Spot Traders8217 Advisory er utgitt av 5:15 ET. Vi publiserer ikke på amerikanske helligdager (som 4. juli) selv når ikke-amerikanske markeder er åpne. Morgenrapporten. Morning Forex Briefing er et sammendrag av presse - og nyhetsrapporter med analyse og kommentarer. Barbara Rockefeller er en 25-årig veteranFX-kommentator, og du vil ikke finne mer konsekvent riktig og nyttig arbeid andre steder. Briefing inneholder langsiktige longshort orienteringsanbefalinger, pluss diagrammer fra den amerikanske næringen. Longshort-orienteringen er en trendidentifikasjonsmetode og skal ikke forveksles med det aktuelle kjøpesenteret. Alle buysell trading råd er i ettermiddagsrapporter. Ettermiddagsrapporten. De to FX Trading Advice-rapportene (futures og spot-basis) inneholder spesifikke kjøpsråd på en enkelt side, med detaljerte anbefalte inngangs - og utgangsnivåer. Se 8220The Rockefeller Lazy Man8217s Trading System8221 i handelsfilosofi-delen. Dette forklarer vår tilnærming til markedet og vår handelsplan. Du er velkommen til å følge den blindt, eller du kan enkelt tilpasse den til dine handelsideer og risikoinnstillinger. Vi liker veldig mye å få spørsmål og kommentarer fra leserne, og vi svarer på hver e-post. Vennligst ikke nøl med å skrive.

No comments:

Post a Comment