Im neu zu Pandas. Ive bekam ein paar Polling-Daten Ich möchte ein rollenden Mittel zu berechnen, um eine Schätzung für jeden Tag auf der Grundlage eines dreitägigen Fenster zu bekommen. Wie ich aus dieser Frage verstehe. Die Rollfunktionen berechnen das Fenster anhand einer bestimmten Anzahl von Werten und nicht eines bestimmten Datumsbereichs. Gibt es eine andere Funktion, die diese Funktionalität umsetzt oder bin ich stecken meine eigenen Sample Eingabedaten: Output würde nur eine Zeile für jedes Datum haben. EDIT x2: fixed typo Dieses Beispiel scheint ein gewichtetes Mittel zu nennen, wie in andyhaydens kommentiert. Zum Beispiel gibt es zwei Umfragen auf 1025 und jeweils eine auf 1026 und 1027. Wenn Sie nur resample und dann den Mittelwert, dies effektiv gibt doppelt so viel Gewichtung für die Umfragen auf 1026 und 1027 im Vergleich zu denen auf 1025. Zu geben Gleiches Gewicht zu jeder Umfrage anstatt gleichgewicht zu jedem Tag. Du kannst so etwas wie das Folgende machen. Das gibt Ihnen die rohen Zutaten für eine Umfrage-basierte Mittel statt einer Tag-basierte Mittel. Wie vorher werden die Umfragen auf 1025 gemittelt, aber das Gewicht für 1025 wird auch gespeichert und ist das Doppelte auf 1026 oder 1027, um zu reflektieren, dass zwei Umfragen auf 1025 genommen wurden. Beachten Sie, dass das rollende Mittel für 1027 jetzt 0.51500 ist (poll - Gewichtet) anstatt 52.1667 (Tag-gewichtet). Beachten Sie auch, dass es Änderungen an den APIs für Resample und Rolling seit Version 0.18.0.Moving durchschnittliche und exponentielle Glättung Modelle Als ein erster Schritt in Bewegung über mittlere Modelle, zufällige Walk-Modelle und lineare Trend-Modelle, Nicht-Season-Muster und Trends Kann mit einem gleitenden Durchschnitt oder Glättungsmodell extrapoliert werden. Die Grundannahme hinter Mittelwertbildung und Glättung von Modellen ist, dass die Zeitreihe lokal stationär mit einem langsam variierenden Mittel ist. Daher nehmen wir einen bewegten (lokalen) Durchschnitt, um den aktuellen Wert des Mittelwerts abzuschätzen und dann das als die Prognose für die nahe Zukunft zu verwenden. Dies kann als Kompromiss zwischen dem mittleren Modell und dem random-walk-without-drift-Modell betrachtet werden. Die gleiche Strategie kann verwendet werden, um einen lokalen Trend abzuschätzen und zu extrapolieren. Ein gleitender Durchschnitt wird oft als quotsmoothedquot Version der ursprünglichen Serie, weil kurzfristige Mittelung hat die Wirkung der Glättung der Beulen in der ursprünglichen Serie. Durch die Anpassung des Grades der Glättung (die Breite des gleitenden Durchschnitts), können wir hoffen, eine Art von optimalem Gleichgewicht zwischen der Leistung der mittleren und zufälligen Wandermodelle zu schlagen. Die einfachste Art von Mittelungsmodell ist die. Einfache (gleichgewichtete) Moving Average: Die Prognose für den Wert von Y zum Zeitpunkt t1, der zum Zeitpunkt t gemacht wird, entspricht dem einfachen Durchschnitt der letzten m Beobachtungen: (Hier und anderswo verwende ich das Symbol 8220Y-hat8221 zu stehen Für eine Prognose der Zeitreihe Y, die zum frühestmöglichen früheren Datum durch ein gegebenes Modell gemacht wurde.) Dieser Durchschnitt ist in der Periode t (m1) 2 zentriert, was impliziert, dass die Schätzung des lokalen Mittels dazu neigen wird, hinter dem wahren zu liegen Wert des lokalen Mittels um etwa (m1) 2 Perioden. So sagen wir, dass das Durchschnittsalter der Daten im einfachen gleitenden Durchschnitt (m1) 2 relativ zu dem Zeitraum ist, für den die Prognose berechnet wird: Dies ist die Zeitspanne, mit der die Prognosen dazu neigen, hinter den Wendepunkten in den Daten zu liegen . Zum Beispiel, wenn Sie durchschnittlich die letzten 5 Werte sind, werden die Prognosen etwa 3 Perioden spät in Reaktion auf Wendepunkte. Beachten Sie, dass, wenn m1, das einfache gleitende Durchschnitt (SMA) - Modell entspricht dem zufälligen Walk-Modell (ohne Wachstum). Wenn m sehr groß ist (vergleichbar mit der Länge der Schätzperiode), entspricht das SMA-Modell dem mittleren Modell. Wie bei jedem Parameter eines Prognosemodells ist es üblich, den Wert von k anzupassen, um die besten Quoten für die Daten zu erhalten, d. h. die kleinsten Prognosefehler im Durchschnitt. Hier ist ein Beispiel für eine Reihe, die zufällige Schwankungen um ein langsam variierendes Mittel zeigt. Zuerst können wir versuchen, es mit einem zufälligen Spaziergang Modell, das entspricht einem einfachen gleitenden Durchschnitt von 1 Begriff: Das zufällige Spaziergang Modell reagiert sehr schnell auf Änderungen in der Serie, aber in diesem Fall nimmt es viel von der Quotierung in der Daten (die zufälligen Schwankungen) sowie das quotsignalquot (das lokale Mittel). Wenn wir stattdessen einen einfachen gleitenden Durchschnitt von 5 Begriffen ausprobieren, erhalten wir einen glatteren Prognosen: Der 5-fach einfache gleitende Durchschnitt liefert in diesem Fall deutlich kleinere Fehler als das zufällige Spaziergangmodell. Das Durchschnittsalter der Daten in dieser Prognose beträgt 3 ((51) 2), so dass es dazu neigt, hinter den Wendepunkten um etwa drei Perioden zurückzukehren. (Zum Beispiel scheint ein Abschwung in der Periode 21 aufgetreten zu sein, aber die Prognosen drehen sich nicht um einige Perioden später.) Beachten Sie, dass die Langzeitprognosen des SMA-Modells eine horizontale Gerade sind, genau wie im zufälligen Spaziergang Modell. So geht das SMA-Modell davon aus, dass es keinen Trend in den Daten gibt. Während die Prognosen aus dem zufälligen Wandermodell einfach dem letzten beobachteten Wert entsprechen, sind die Prognosen des SMA-Modells gleich einem gewichteten Durchschnitt der letzten Werte. Die von Statgraphics für die Langzeitprognosen des einfachen gleitenden Durchschnittes berechneten Vertrauensgrenzen werden nicht weiter erhöht, wenn der Prognosehorizont zunimmt. Das ist offensichtlich nicht richtig Leider gibt es keine zugrundeliegende statistische Theorie, die uns sagt, wie sich die Konfidenzintervalle für dieses Modell erweitern sollten. Allerdings ist es nicht zu schwer, empirische Schätzungen der Vertrauensgrenzen für die längerfristigen Prognosen zu berechnen. Zum Beispiel könnten Sie eine Kalkulationstabelle einrichten, in der das SMA-Modell zur Vorhersage von 2 Schritten voraus, 3 Schritten voraus, etc. im historischen Datenmuster verwendet werden würde. Sie können dann die Stichproben-Standardabweichungen der Fehler bei jedem Prognosehorizont berechnen und dann Konfidenzintervalle für längerfristige Prognosen durch Addition und Subtraktion von Vielfachen der entsprechenden Standardabweichung aufbauen. Wenn wir einen 9-fach einfachen gleitenden Durchschnitt versuchen, bekommen wir noch glattere Prognosen und mehr von einem nacheilenden Effekt: Das Durchschnittsalter beträgt nun 5 Perioden ((91) 2). Wenn wir einen 19-fachen gleitenden Durchschnitt nehmen, steigt das Durchschnittsalter auf 10: Beachten Sie, dass die Prognosen in der Tat hinter den Wendepunkten um etwa 10 Perioden zurückbleiben. Welche Menge an Glättung ist am besten für diese Serie Hier ist eine Tabelle, die ihre Fehlerstatistik vergleicht, auch einen 3-Term-Durchschnitt: Modell C, der 5-fache gleitende Durchschnitt, ergibt den niedrigsten Wert von RMSE um einen kleinen Marge über die 3 - term und 9-term Mittelwerte, und ihre anderen Statistiken sind fast identisch. So können wir bei Modellen mit sehr ähnlichen Fehlerstatistiken wählen, ob wir ein wenig mehr Reaktionsfähigkeit oder ein wenig mehr Glätte in den Prognosen bevorzugen würden. (Zurück zum Anfang der Seite) Browns Einfache Exponential-Glättung (exponentiell gewichteter gleitender Durchschnitt) Das oben beschriebene einfache gleitende Durchschnittsmodell hat die unerwünschte Eigenschaft, dass es die letzten k-Beobachtungen gleichermaßen behandelt und alle vorherigen Beobachtungen völlig ignoriert. Intuitiv sollten vergangene Daten in einer allmählicheren Weise abgezinst werden - zum Beispiel sollte die jüngste Beobachtung ein wenig mehr Gewicht als die 2. jüngste, und die 2. jüngsten sollte ein wenig mehr Gewicht als die 3. jüngsten bekommen, und bald. Das einfache exponentielle Glättungsmodell (SES) erreicht dies. Sei 945 eine quotsmoothing constantquot (eine Zahl zwischen 0 und 1). Eine Möglichkeit, das Modell zu schreiben, besteht darin, eine Reihe L zu definieren, die den gegenwärtigen Pegel (d. h. den lokalen Mittelwert) der Reihe repräsentiert, wie er von den Daten bis zur Gegenwart geschätzt wird. Der Wert von L zum Zeitpunkt t wird rekursiv aus seinem eigenen vorherigen Wert wie folgt berechnet: Somit ist der aktuelle geglättete Wert eine Interpolation zwischen dem vorherigen geglätteten Wert und der aktuellen Beobachtung, wobei 945 die Nähe des interpolierten Wertes auf den letzten Wert steuert Überwachung. Die Prognose für die nächste Periode ist einfach der aktuell geglättete Wert: Gleichermaßen können wir die nächste Prognose direkt in Bezug auf vorherige Prognosen und frühere Beobachtungen in einer der folgenden gleichwertigen Versionen ausdrücken. In der ersten Version ist die Prognose eine Interpolation zwischen vorheriger Prognose und vorheriger Beobachtung: In der zweiten Version wird die nächste Prognose erhalten, indem man die vorherige Prognose in Richtung des vorherigen Fehlers um einen Bruchteil 945 anpasst Zeit t. In der dritten Version ist die Prognose ein exponentiell gewichteter (dh diskontierter) gleitender Durchschnitt mit Rabattfaktor 1-945: Die Interpolationsversion der Prognoseformel ist am einfachsten zu bedienen, wenn man das Modell auf einer Tabellenkalkulation implementiert: es passt in eine Einzelzelle und enthält Zellreferenzen, die auf die vorherige Prognose, die vorherige Beobachtung und die Zelle hinweisen, in der der Wert von 945 gespeichert ist. Beachten Sie, dass bei 945 1 das SES-Modell einem zufälligen Walk-Modell entspricht (ohne Wachstum). Wenn 945 0 ist, entspricht das SES-Modell dem mittleren Modell, vorausgesetzt, dass der erste geglättete Wert gleich dem Mittelwert ist. (Zurück zum Anfang der Seite) Das Durchschnittsalter der Daten in der einfach-exponentiellen Glättungsprognose beträgt 1 945 gegenüber dem Zeitraum, für den die Prognose berechnet wird. (Das soll nicht offensichtlich sein, aber es kann leicht durch die Auswertung einer unendlichen Reihe gezeigt werden.) Die einfache gleitende Durchschnittsprognose neigt daher dazu, hinter den Wendepunkten um etwa 1 945 Perioden zurückzukehren. Zum Beispiel, wenn 945 0,5 die Verzögerung 2 Perioden ist, wenn 945 0,2 die Verzögerung 5 Perioden beträgt, wenn 945 0,1 die Verzögerung 10 Perioden und so weiter ist. Für ein gegebenes Durchschnittsalter (d. H. Verzögerung) ist die Prognose der einfachen exponentiellen Glättung (SES) der einfachen gleitenden Durchschnitts - (SMA) - Prognose etwas überlegen, da sie die jüngste Beobachtung - Es ist etwas mehr auffallend auf Veränderungen, die in der jüngsten Vergangenheit auftreten. Zum Beispiel hat ein SMA-Modell mit 9 Begriffen und einem SES-Modell mit 945 0,2 beide ein Durchschnittsalter von 5 für die Daten in ihren Prognosen, aber das SES-Modell setzt mehr Gewicht auf die letzten 3 Werte als das SMA-Modell und am Gleichzeitig ist es genau 8220forget8221 über Werte mehr als 9 Perioden alt, wie in dieser Tabelle gezeigt: Ein weiterer wichtiger Vorteil des SES-Modells gegenüber dem SMA-Modell ist, dass das SES-Modell einen Glättungsparameter verwendet, der stufenlos variabel ist, so dass er leicht optimiert werden kann Indem ein Quotsolverquot-Algorithmus verwendet wird, um den mittleren quadratischen Fehler zu minimieren. Der optimale Wert von 945 im SES-Modell für diese Baureihe ergibt sich auf 0,2961, wie hier gezeigt: Das Durchschnittsalter der Daten in dieser Prognose beträgt 10.2961 3.4 Perioden, was ähnlich ist wie bei einem 6-fach einfach gleitenden Durchschnitt. Die Langzeitprognosen des SES-Modells sind eine horizontale Gerade. Wie im SMA-Modell und dem zufälligen Walk-Modell ohne Wachstum. Allerdings ist zu beachten, dass die von Statgraphics berechneten Konfidenzintervalle nun in einer vernünftig aussehenden Weise abweichen und dass sie wesentlich schmaler sind als die Konfidenzintervalle für das zufällige Spaziergangmodell. Das SES-Modell geht davon aus, dass die Serie etwas vorhersehbar ist als das zufällige Spaziergangmodell. Ein SES-Modell ist eigentlich ein Spezialfall eines ARIMA-Modells. So bietet die statistische Theorie der ARIMA-Modelle eine fundierte Grundlage für die Berechnung von Konfidenzintervallen für das SES-Modell. Insbesondere ist ein SES-Modell ein ARIMA-Modell mit einer nicht-seasonalen Differenz, einem MA (1) Term und keinem konstanten Term. Ansonsten bekannt als ein quotARIMA (0,1,1) Modell ohne constantquot. Der MA (1) - Koeffizient im ARIMA-Modell entspricht der Menge 1-945 im SES-Modell. Zum Beispiel, wenn man ein ARIMA (0,1,1) Modell ohne Konstante an die hier analysierte Serie passt, ergibt sich der geschätzte MA (1) Koeffizient 0,7029, was fast genau ein minus 0.2961 ist. Es ist möglich, die Annahme eines nicht-null konstanten linearen Trends zu einem SES-Modell hinzuzufügen. Um dies zu tun, geben Sie einfach ein ARIMA-Modell mit einer nicht-seasonalen Differenz und einem MA (1) Begriff mit einer Konstante, d. h. ein ARIMA (0,1,1) Modell mit konstant. Die langfristigen Prognosen werden dann einen Trend haben, der dem durchschnittlichen Trend entspricht, der über den gesamten Schätzungszeitraum beobachtet wird. Sie können dies nicht in Verbindung mit saisonaler Anpassung tun, da die saisonalen Anpassungsoptionen deaktiviert sind, wenn der Modelltyp auf ARIMA eingestellt ist. Allerdings können Sie einen konstanten langfristigen exponentiellen Trend zu einem einfachen exponentiellen Glättungsmodell (mit oder ohne saisonale Anpassung) hinzufügen, indem Sie die Inflationsanpassungsoption im Vorhersageverfahren verwenden. Die jeweilige Quotenquote (prozentuale Wachstumsrate) pro Periode kann als Steigungskoeffizient in einem linearen Trendmodell geschätzt werden, das an die Daten in Verbindung mit einer natürlichen Logarithmus-Transformation angepasst ist, oder sie kann auf anderen, unabhängigen Informationen über langfristige Wachstumsaussichten basieren . (Zurück zum Seitenanfang) Browns Linear (dh Double) Exponentielle Glättung Die SMA Modelle und SES Modelle gehen davon aus, dass es in den Daten keinen Trend gibt (was in der Regel ok oder zumindest nicht so schlecht ist für 1- Schritt-voraus Prognosen, wenn die Daten relativ laut sind), und sie können modifiziert werden, um einen konstanten linearen Trend wie oben gezeigt zu integrieren. Was ist mit kurzfristigen Trends Wenn eine Serie eine unterschiedliche Wachstumsrate oder ein zyklisches Muster zeigt, das sich deutlich gegen den Lärm auszeichnet, und wenn es notwendig ist, mehr als einen Zeitraum voraus zu prognostizieren, dann könnte auch eine Einschätzung eines lokalen Trends erfolgen Ein Problem. Das einfache exponentielle Glättungsmodell kann verallgemeinert werden, um ein lineares exponentielles Glättungsmodell (LES) zu erhalten, das lokale Schätzungen sowohl von Ebene als auch von Trend berechnet. Das einfachste zeitveränderliche Trendmodell ist das lineare, exponentielle Glättungsmodell von Browns, das zwei verschiedene geglättete Serien verwendet, die zu unterschiedlichen Zeitpunkten zentriert sind. Die Prognoseformel basiert auf einer Extrapolation einer Linie durch die beiden Zentren. (Eine ausgefeiltere Version dieses Modells, Holt8217s, wird unten diskutiert.) Die algebraische Form des linearen exponentiellen Glättungsmodells von Brown8217s, wie das des einfachen exponentiellen Glättungsmodells, kann in einer Anzahl von verschiedenen, aber äquivalenten Formen ausgedrückt werden. Die quadratische Form dieses Modells wird gewöhnlich wie folgt ausgedrückt: Sei S die einfach geglättete Reihe, die durch Anwendung einer einfachen exponentiellen Glättung auf die Reihe Y erhalten wird. Das heißt, der Wert von S in der Periode t ist gegeben durch: (Erinnern Sie sich, dass unter einfachem Exponentielle Glättung, das wäre die Prognose für Y in der Periode t1.) Dann sei Squot die doppelt geglättete Reihe, die durch Anwendung einer einfachen exponentiellen Glättung (mit demselben 945) auf die Reihe S erhalten wird: Schließlich ist die Prognose für Y tk. Für irgendwelche kgt1 ist gegeben durch: Dies ergibt e 1 0 (d. h. Cheat ein Bit, und lassen Sie die erste Prognose gleich der tatsächlichen ersten Beobachtung) und e 2 Y 2 8211 Y 1. Nach denen Prognosen mit der obigen Gleichung erzeugt werden. Dies ergibt die gleichen angepassten Werte wie die Formel auf Basis von S und S, wenn diese mit S 1 S 1 Y 1 gestartet wurden. Diese Version des Modells wird auf der nächsten Seite verwendet, die eine Kombination aus exponentieller Glättung mit saisonaler Anpassung darstellt. Holt8217s Lineare Exponential-Glättung Brown8217s LES-Modell berechnet lokale Schätzungen von Level und Trend durch Glättung der aktuellen Daten, aber die Tatsache, dass es dies mit einem einzigen Glättungsparameter macht, legt eine Einschränkung auf die Datenmuster, die es passen kann: das Niveau und den Trend Dürfen nicht zu unabhängigen Preisen variieren. Holt8217s LES-Modell adressiert dieses Problem, indem es zwei Glättungskonstanten einschließt, eine für die Ebene und eine für den Trend. Zu jeder Zeit t, wie in Brown8217s Modell, gibt es eine Schätzung L t der lokalen Ebene und eine Schätzung T t der lokalen Trend. Hier werden sie rekursiv aus dem Wert von Y, der zum Zeitpunkt t beobachtet wurde, und den vorherigen Schätzungen des Niveaus und des Tendenzes durch zwei Gleichungen berechnet, die eine exponentielle Glättung für sie separat anwenden. Wenn der geschätzte Pegel und der Trend zum Zeitpunkt t-1 L t82091 und T t-1 sind. Dann ist die Prognose für Y tshy, die zum Zeitpunkt t-1 gemacht worden wäre, gleich L t-1 T t-1. Wenn der Istwert beobachtet wird, wird die aktualisierte Schätzung des Pegels rekursiv durch Interpolation zwischen Y tshy und dessen Prognose L t-1 T t-1 unter Verwendung von Gewichten von 945 und 1 945 berechnet. Die Änderung des geschätzten Pegels, Nämlich L t 8209 L t82091. Kann als eine laute Messung des Trends zum Zeitpunkt t interpretiert werden. Die aktualisierte Schätzung des Trends wird dann rekursiv durch Interpolation zwischen L t 8209 L t82091 und der vorherigen Schätzung des Trends T t-1 berechnet. Mit Gewichten von 946 und 1-946: Die Interpretation der Trend-Glättungs-Konstante 946 ist analog zu der Niveau-Glättungs-Konstante 945. Modelle mit kleinen Werten von 946 gehen davon aus, dass sich der Trend nur sehr langsam über die Zeit ändert, während Modelle mit Größer 946 nehmen an, dass es sich schneller ändert. Ein Modell mit einer großen 946 glaubt, dass die ferne Zukunft sehr unsicher ist, denn Fehler in der Trendschätzung werden bei der Prognose von mehr als einer Periode sehr wichtig. (Zurück zum Seitenanfang) Die Glättungskonstanten 945 und 946 können in der üblichen Weise durch Minimierung des mittleren quadratischen Fehlers der 1-Schritt-voraus-Prognosen geschätzt werden. Wenn dies in Statgraphics geschieht, ergeben sich die Schätzungen auf 945 0.3048 und 946 0,008. Der sehr kleine Wert von 946 bedeutet, dass das Modell eine sehr geringe Veränderung des Trends von einer Periode zur nächsten einnimmt, so dass dieses Modell grundsätzlich versucht, einen langfristigen Trend abzuschätzen. In Analogie zum Begriff des Durchschnittsalters der Daten, die bei der Schätzung der lokalen Ebene der Serie verwendet wird, ist das Durchschnittsalter der Daten, die bei der Schätzung des lokalen Trends verwendet wird, proportional zu 1 946, wenn auch nicht genau gleich . In diesem Fall stellt sich heraus, dass es sich um 10.006 125 handelt. Dies ist eine sehr genaue Zahl, da die Genauigkeit der Schätzung von 946 wirklich 3 Dezimalstellen ist, aber sie ist von der gleichen allgemeinen Größenordnung wie die Stichprobengröße von 100 Dieses Modell ist durchschnittlich über eine ganze Menge Geschichte bei der Schätzung der Trend. Die prognostizierte Handlung unten zeigt, dass das LES-Modell einen geringfügig größeren lokalen Trend am Ende der Serie schätzt als der im SEStrend-Modell geschätzte konstante Trend. Auch der Schätzwert von 945 ist fast identisch mit dem, der durch die Anpassung des SES-Modells mit oder ohne Trend erhalten wird. Das ist also fast das gleiche Modell. Nun, sehen diese aus wie vernünftige Prognosen für ein Modell, das soll ein lokaler Trend schätzen Wenn Sie diese Handlung, es sieht so aus, als ob der lokale Trend hat sich nach unten am Ende der Serie Was ist passiert Die Parameter dieses Modells Wurden durch die Minimierung der quadratischen Fehler von 1-Schritt-voraus Prognosen, nicht längerfristige Prognosen geschätzt, in welchem Fall der Trend doesn8217t machen einen großen Unterschied. Wenn alles, was Sie suchen, sind 1-Schritt-vor-Fehler, sehen Sie nicht das größere Bild der Trends über (sagen) 10 oder 20 Perioden. Um dieses Modell mehr im Einklang mit unserer Augapfel-Extrapolation der Daten zu erhalten, können wir die Trend-Glättung konstant manuell anpassen, so dass es eine kürzere Grundlinie für Trendschätzung verwendet. Zum Beispiel, wenn wir uns dafür entscheiden, 946 0,1 zu setzen, dann ist das Durchschnittsalter der Daten, die bei der Schätzung des lokalen Trends verwendet werden, 10 Perioden, was bedeutet, dass wir den Trend über die letzten 20 Perioden oder so vermitteln. Hier8217s, was die Prognose Handlung aussieht, wenn wir 946 0,1 gesetzt, während halten 945 0,3. Das sieht für diese Serie intuitiv vernünftig aus, obwohl es wahrscheinlich gefährlich ist, diesen Trend in Zukunft mehr als 10 Perioden zu extrapolieren. Was ist mit den Fehlerstatistiken Hier ist ein Modellvergleich für die beiden oben gezeigten Modelle sowie drei SES-Modelle. Der optimale Wert von 945 für das SES-Modell beträgt etwa 0,3, aber es werden ähnliche Ergebnisse (mit etwas mehr oder weniger Ansprechverhalten) mit 0,5 und 0,2 erhalten. (A) Holts linear exp. Glättung mit alpha 0.3048 und beta 0.008 (B) Holts linear exp. Glättung mit alpha 0,3 und beta 0,1 (C) Einfache exponentielle Glättung mit alpha 0,5 (D) Einfache exponentielle Glättung mit alpha 0,3 (E) Einfache exponentielle Glättung mit alpha 0.2 Ihre Stats sind nahezu identisch, so dass wir wirklich die Wahl treffen können Von 1-Schritt-voraus Prognosefehler innerhalb der Datenprobe Wir müssen auf andere Überlegungen zurückgreifen. Wenn wir stark davon überzeugt sind, dass es sinnvoll ist, die aktuelle Trendschätzung auf das, was in den letzten 20 Perioden passiert ist, zu stützen, so können wir einen Fall für das LES-Modell mit 945 0,3 und 946 0,1 machen. Wenn wir agnostisch darüber sein wollen, ob es einen lokalen Trend gibt, dann könnte eines der SES-Modelle leichter zu erklären sein und würde auch mehr Mittelwert der Prognosen für die nächsten 5 oder 10 Perioden geben. (Rückkehr nach oben) Welche Art von Trend-Extrapolation ist am besten: horizontal oder linear Empirische Evidenz deutet darauf hin, dass, wenn die Daten bereits für die Inflation angepasst wurden (falls erforderlich), dann kann es unklug sein, kurzfristig linear zu extrapolieren Trends sehr weit in die Zukunft. Trends, die heute deutlich werden, können in Zukunft aufgrund unterschiedlicher Ursachen wie Produktveralterung, erhöhter Konkurrenz und zyklischer Abschwünge oder Aufschwünge in einer Branche nachlassen. Aus diesem Grund führt eine einfache, exponentielle Glättung oftmals zu einem besseren Out-of-Sample, als es sonst zu erwarten wäre, trotz der quadratischen horizontalen Trend-Extrapolation. Gedämpfte Trendmodifikationen des linearen exponentiellen Glättungsmodells werden auch in der Praxis häufig verwendet, um eine Note des Konservatismus in seine Trendprojektionen einzuführen. Das LES-Modell mit gedämpftem Trend kann als Spezialfall eines ARIMA-Modells, insbesondere eines ARIMA (1,1,2) - Modells, implementiert werden. Es ist möglich, Konfidenzintervalle um Langzeitprognosen zu berechnen, die durch exponentielle Glättungsmodelle erzeugt werden, indem sie sie als Sonderfälle von ARIMA-Modellen betrachten. (Vorsicht: Nicht alle Software berechnet die Konfidenzintervalle für diese Modelle korrekt.) Die Breite der Konfidenzintervalle hängt von (i) dem RMS-Fehler des Modells ab, (ii) der Art der Glättung (einfach oder linear) (iii) der Wert (S) der Glättungskonstante (n) und (iv) die Anzahl der voraussichtlichen Perioden, die Sie prognostizieren. Im Allgemeinen werden die Intervalle schneller ausgebreitet als 945 im SES-Modell größer und sie breiten sich viel schneller aus, wenn lineare statt einfache Glättung verwendet wird. Dieses Thema wird im ARIMA-Modellteil der Notizen weiter erörtert. (Zurück zum Anfang der Seite) Backtesting ein Moving Average Crossover in Python mit Pandas Im vorherigen Artikel über Research Backtesting Umgebungen In Python Mit Pandas haben wir eine objektorientierte forschungsorientierte Backtesting-Umgebung erstellt und sie auf einer zufälligen Prognosestrategie getestet. In diesem Artikel werden wir von der Maschine Gebrauch machen, die wir eingeführt haben, um die Forschung über eine tatsächliche Strategie durchzuführen, nämlich die Moving Average Crossover auf AAPL. Moving Average Crossover-Strategie Die Moving Average Crossover-Technik ist eine äußerst bekannte, vereinfachte Impulsstrategie. Es wird oft als das Hallo-Welt-Beispiel für den quantitativen Handel betrachtet. Die hier beschriebene Strategie ist nur langwierig. Zwei separate, einfach gleitende Durchschnittsfilter werden mit unterschiedlichen Lookback-Perioden einer bestimmten Zeitreihe erstellt. Signale zum Kauf des Vermögenswertes treten auf, wenn der kürzere Rückblick gleitende Durchschnitt den längeren Rückblick gleitenden Durchschnitt überschreitet. Wenn der längere Durchschnitt später den kürzeren Durchschnitt übersteigt, wird der Vermögenswert zurückverkauft. Die Strategie funktioniert gut, wenn eine Zeitreihe einen starken Trend einbringt und dann langsam den Trend rückgängig macht. Für dieses Beispiel habe ich Apple, Inc. (AAPL) als Zeitreihe gewählt, mit einem kurzen Rückblick von 100 Tagen und einem langen Rückblick von 400 Tagen. Dies ist das Beispiel der zipline algorithmischen Handelsbibliothek. Wenn wir also unseren eigenen Backtester umsetzen wollen, müssen wir sicherstellen, dass er mit den Ergebnissen in der Zipline übereinstimmt. Implementierung Achten Sie darauf, dem vorherigen Tutorial zu folgen. Die beschreibt, wie die anfängliche Objekthierarchie für den Backtester aufgebaut wird, andernfalls wird der unten stehende Code nicht funktionieren. Für diese spezielle Implementierung habe ich die folgenden Bibliotheken verwendet: Die Implementierung von macross. py erfordert backtest. py aus dem vorherigen Tutorial. Der erste Schritt besteht darin, die notwendigen Module und Objekte zu importieren: Wie im vorherigen Tutorial werden wir die Strategy abstract Basisklasse unterteilen, um MovingAverageCrossStrategy zu produzieren. Die alle Details enthält, wie man die Signale erzeugt, wenn die gleitenden Mittelwerte von AAPL einander kreuzen. Das Objekt erfordert ein kurzes Fenster und ein langes Fenster, auf dem es zu bedienen ist. Die Werte wurden auf Vorgaben von 100 Tagen bzw. 400 Tagen gesetzt, wobei die gleichen Parameter im Hauptbeispiel der Zipline verwendet wurden. Die gleitenden Durchschnitte werden durch die Verwendung der Pandas Rollingmean-Funktion auf den Bars erstellt. Schließen Sie den Preis der AAPL-Aktie. Sobald die einzelnen sich bewegenden Mittelwerte konstruiert worden sind, wird die Signalreihe erzeugt, indem die Kolonne gleich 1,0 eingestellt wird, wenn der kurze gleitende Durchschnitt größer ist als der lange gleitende Durchschnitt oder 0,0 ansonsten. Daraus können die Positionen Aufträge erzeugt werden, um Handelssignale darzustellen. Das MarketOnClosePortfolio ist aus dem Portfolio untergeordnet. Die in backtest. py gefunden wird. Es ist fast identisch mit der im vorigen Tutorial beschriebenen Implementierung, mit der Ausnahme, dass die Trades nun auf einer Close-to-Close-Basis statt einer Open-to-Open-Basis durchgeführt werden. Weitere Informationen darüber, wie das Portfolio-Objekt definiert ist, finden Sie im vorherigen Tutorial. Ive verließ den Code in Vollständigkeit und behalte dieses Tutorial in sich geschlossen: Jetzt, da die MovingAverageCrossStrategy und MarketOnClosePortfolio Klassen definiert wurden, wird eine Hauptfunktion aufgerufen, um alle Funktionalität zusammen zu binden. Darüber hinaus wird die Performance der Strategie über eine Kurve der Eigenkapitalkurve untersucht. Das Pandas DataReader-Objekt lädt OHLCV-Preise von AAPL-Aktien für den Zeitraum vom 1. Januar 1990 bis zum 1. Januar 2002 zu, an welchem Punkt die Signale DataFrame erstellt werden, um die Langzeitsignale zu erzeugen. Anschließend wird das Portfolio mit einer Anfangskapitalbasis von 100.000 USD erwirtschaftet und die Renditen werden auf der Eigenkapitalkurve berechnet. Der letzte Schritt ist es, matplotlib zu verwenden, um ein zweidimensionales Diagramm von beiden AAPL-Preisen zu zeichnen, überlagert mit den gleitenden Durchschnitten und Buysell-Signalen sowie die Eigenkapitalkurve mit den gleichen Buysell-Signalen. Der Plottencode wird aus dem Zipline-Implementierungsbeispiel genommen (und modifiziert). Die grafische Ausgabe des Codes ist wie folgt. Ich habe von der IPython-Paste-Befehl Gebrauch gemacht, um diese direkt in die IPython-Konsole zu setzen, während in Ubuntu, so dass die grafische Ausgabe im Blick blieb. Die rosa upticks stellen den Kauf der Aktie dar, während die schwarzen Abschlüsse den Verkauf wieder verkaufen: Wie man sieht, verliert die Strategie im Laufe der Zeit Geld mit fünf Hin - und Rückfahrten. Dies ist nicht verwunderlich, da das Verhalten von AAPL im Laufe des Zeitraums, das einen leichten Abwärtstrend aufwies, gefolgt von einem erheblichen Aufschwung, der 1998 begann. Die Rückblickperiode der gleitenden Durchschnittssignale ist ziemlich groß und dies hat den Gewinn des Endhandels beeinflusst , Die sonst die Strategie rentabel gemacht haben könnte. In den folgenden Artikeln werden wir ein anspruchsvolleres Mittel zur Leistungsanalyse schaffen und beschreiben, wie man die Lookback-Perioden der einzelnen gleitenden Mittelsignale optimiert. Nur mit dem quantitativen Handel begonnen
No comments:
Post a Comment