Friday, 3 November 2017

Bewegungs Durchschnitt Autokovarianz


Autokorrelationsfunktion Beachten Sie, dass 0 die Varianz des stochastischen Prozesses ist. Die Autokovarianzfunktion bei lag k. Für k 0, der Zeitreihe wird durch die Autokorrelationsfunktion (ACF) bei Verzögerung k definiert. Für k 0, der Zeitreihe ist definiert durch Die Varianz der Zeitreihe ist r 0. Ein Plot von r k gegen k ist als Korrelogramm bekannt. Überwachung . Die oben angegebene Definition der Autokovarianz unterscheidet sich von der üblichen Definition der Kovarianz zwischen 1. , Y n-k und k 1. , Y n in zweierlei Hinsicht: (1) wir teilen durch n anstelle von nk und wir subtrahieren den gesamten Mittelwert anstatt der Mittel von 1. , Y n-k und k 1. , Y n. Für Werte von n, die in bezug auf k groß sind. Der Unterschied wird klein sein. Beispiel 1 . Berechnen Sie s 2 und r 2 für die Daten im Bereich B4: B19 von Abbildung 1. Abbildung 1 ACF bei Verzögerung 2 Die Formeln zur Berechnung von s 2 und r 2 unter Verwendung der üblichen COVARIANCE. S - und CORREL-Funktionen sind in den Zellen G4 und G5 dargestellt. Die Formeln für s 0. S 2 und r 2 aus Definition 2 sind in den Zellen G8, G11 und G12 (zusammen mit einer alternativen Formel in G13) gezeigt. Beachten Sie, dass die Werte für s 2 in den Zellen E4 und E11 nicht zu unterschiedlich sind, ebenso wie die Werte für r 2, die in den Zellen E5 und E12 angezeigt werden, je größer die Probe ist, desto wahrscheinlicher sind diese Werte ähnlich Real Statistics Function. Das reale Statistik-Ressourcenpaket liefert die folgenden Funktionen: ACF (R1, k) der ACF-Wert bei Verzögerung k für die Zeitreihen im Bereich R1 ACVF (R1, k) die Autokovarianz bei Verzögerung k für die Zeitreihen im Bereich R1 Beachten Sie, dass ACF (R1, k) ist gleichbedeutend mit SUMPRODUCT (OFFSET (R1,0,0, COUNT (R1) - k) - AVERAGE (R1), OFFSET (R1, k, 0, COUNT (R1) - k) - AVERAGE (R1 )) DEVSQ (R1) Beobachtung. Es gibt theoretische Vorteile für die Verwendung von Division durch n anstelle von nk in der Definition von s k. Dass die Kovarianz - und Korrelationsmatrizen immer definitiv nicht negativ sein werden (siehe Positive Definitivmatrizen). Überwachung . Auch wenn sich die Definition der Autokorrelation etwas von der Korrelation unterscheidet, nimmt k (oder r k) immer noch einen Wert zwischen -1 und 1 ein, wie wir in der Eigenschaft 2 sehen. Beispiel 2. Bestimmen Sie die ACF für die Verzögerung 1 bis 10 für die Dow Jones-Schlussmittelwerte für den Monat Oktober 2015, wie in den Spalten A und B von 2 gezeigt und konstruieren Sie das entsprechende Korrelogramm. Die Ergebnisse sind in Abbildung 2 dargestellt. Die Werte in Spalte E werden berechnet, indem die Formel ACF (B4: B25, D5) in Zelle E5, Hervorhebung des Bereichs E5: E14 und Drücken von Strg-D gesetzt wird. Abbildung 2 ACF und Correlogram Wie aus den Werten in Spalte E oder dem Diagramm ersichtlich ist, fallen die ACF-Werte langsam auf Null ab. Dies ist typisch für einen autoregressiven Prozess. Überwachung . Eine Faustregel besteht darin, den obigen Vorgang für die Verzögerung 1 bis n 3 oder n 4 durchzuführen, was für die obigen Daten 224 6 oder 223 beträgt. 7 Unser Ziel ist es zu sehen, ob zu diesem Zeitpunkt das ACF signifikant ist (dh statistisch anders ist Von null). Wir können dies tun, indem wir die folgende Eigenschaft verwenden. Eigenschaft 3 (Bartlett): In großen Stichproben, wenn eine Zeitreihe der Größe n rein zufällig ist, dann für alle k Beispiel 3. Bestimmen Sie, ob der ACF bei Verzögerung 7 für die Daten aus Beispiel 2 signifikant ist. Wie wir aus Abbildung 3 sehen können, ist der kritische Wert für den Test in Eigenschaft 3 .417866. Da r 7 .303809 lt .417866, schließen wir, dass sich nicht signifikant von Null unterscheidet. Abbildung 3 Bartletts Test Beachten Sie, dass Werte von k bis 5 signifikant sind und die höher als 5 nicht signifikant sind. Eine statistisch leistungsfähigere Version von Eigenschaft 4, besonders für kleinere Proben, wird durch die nächste Eigenschaft gegeben. Beispiel 4 Verwenden Sie die Box-Pierce - und Ljung-Box-Statistik, um zu ermitteln, ob die ACF-Werte in Beispiel 2 für alle Verzögerungen kleiner oder gleich 5 (die Nullhypothese) statistisch gleich Null sind. Die Ergebnisse sind in Abbildung 4 dargestellt. Abbildung 4 Box-Pierce - und Ljung-Box-Tests Aus diesen Tests geht hervor, dass ACF (k) für mindestens ein k 5 signifikant unterschiedlich ist, was mit dem Korrelogramm in Abbildung 2 übereinstimmt. Real Statistik Funktionen. Das Real Statistics Resource Pack bietet die folgenden Funktionen, um die von den oben genannten Eigenschaften beschriebenen Tests durchzuführen. BARTEST (r, n, lag) p-Wert von Bartletts testen auf Korrelationskoeffizient r basierend auf einer Zeitreihe der Größe n für die angegebene Verzögerung. BARTEST (R1, lag) BARTEST (r, n, lag) wobei n die Anzahl der Elemente im Bereich R1 und r ACF (R1, lag) PIERCE (R1 ,, lag) Box-Pierce-Statistik Q für Bereich R1 und die angegebene Verzögerung BPTEST (R1 ,, lag) p-Wert für den Box-Pierce-Test für Bereich R1 und die spezifizierte Verzögerung LJUNG (R1 ,, lag) Ljung-Box Statistik Q für Bereich R1 und die spezifizierte Verzögerung LBTEST (R1 ,, lag) p - Wert für den Ljung-Box-Test für den Bereich R1 und die angegebene Verzögerung In den obigen Funktionen, bei denen das zweite Argument fehlt, wird der Test mit dem Autokorrelationskoeffizienten (ACF) durchgeführt. Wenn der Wert stattdessen 1 oder pacf ist, wird der Test unter Verwendung des partiellen Autokorrelationskoeffizienten (PACF) durchgeführt, wie im nächsten Abschnitt beschrieben. Tatsächlich, wenn das zweite Argument irgendeinen Wert außer 1 oder pacf annimmt, wird der ACF-Wert verwendet. Z. B. BARTEST (.303809,22,7) .07708 für Beispiel 3 und LBTEST (B4: B25, acf, 5) 1.81E-06 für Beispiel 4.GEOS 585A, Angewandte Zeitreihenanalyse Telefon: (520) 621-3457 Fax: (520) 621-8229 Öffnungszeiten Freitag, 1: 00-6: 00 PM (bitte per E-Mail an Terminbesprechung) Kursbeschreibung Analysewerkzeuge im Zeit - und Frequenzbereich werden im Rahmen von Beispielzeitreihen eingeführt. Ich benutze einen Datensatz von Beispiel-Zeitreihen, um Methoden zu veranschaulichen und den Datensatz jedes Semester zu ändern, den der Kurs angeboten wird. In diesem Jahr stammt der Beispiel-Datensatz aus einem NSF-Projekt zur Schneedeckenvariabilität im American River Basin of California. Dieser Datensatz umfasst Baum-Ring-Chronologien, Klimadaten, Stream-Aufzeichnungen und Zeitreihen von Schnee-Wasser-Äquivalenten, die an Schneekanäle gemessen werden. Sie werden Ihre eigenen Zeitreihen für den Einsatz im Kurs zusammenstellen. Diese könnten aus deinem eigenen Forschungsprojekt kommen. Zurück zum Seitenanfang Das ist ein Einführungskurs mit Schwerpunkt auf praktischen Aspekten der Zeitreihenanalyse. Methoden werden hierarchisch eingeführt - beginnend mit Terminologie und exploratorischen Grafiken, Umzug in deskriptive Statistiken und enden mit grundlegenden Modellierungsverfahren. Themen sind Detrending, Filtering, autoregressive Modellierung, Spektralanalyse und Regression. Du verbringst die ersten zwei Wochen damit, Matlab auf deinem Laptop zu installieren, eine grundlegende Einführung in Matlab zu bekommen und deinen Dataset der Zeitreihen für den Kurs zusammenzustellen. Zwölf Themen oder Unterrichtsstunden werden dann abgedeckt, jeweils eine Woche oder zwei Unterrichtsstunden. Zwölf Klassenzuordnungen gehen mit den Themen zusammen. Zuweisungen bestehen aus Methoden, indem sie vordefinierte Matlab-Skripte (Programme) auf Ihre Zeitreihen und Interpretation der Ergebnisse ausführen. Der Kurs 3 Credits für Studenten auf dem Campus an der University of Arizona in Tucson, und 1 Kredit für Online-Studenten. Jede Zeitreihe mit einem konstanten Zeitinkrement (z. B. Tag, Monat, Jahr) ist ein Kandidat für den Einsatz im Kurs. Beispiele sind tägliche Niederschlagsmessungen, saisonaler Gesamtstromfluss, Sommermittellufttemperatur, Jahresindizes des Baumwachstums, Indizes der Meeresoberflächentemperatur und der tägliche Höhenanstieg eines Strauches. Als Ergebnis der Einnahme des Kurses sollten Sie: Grundlegende Zeitreihenkonzepte und Terminologie in der Lage sein, Zeitreihen zu wählen, die für Ziele geeignet sind, die wissenschaftliche Literatur kritisch auswerten zu können, wobei die angewandten Zeitreihenmethoden ein besseres Verständnis der Zeitreiheneigenschaften von Ihnen haben Eigener Datensatz in der Lage sein, die Ergebnisse der Zeitreihenanalyse in schriftlicher Form prägnant zusammenzufassen Voraussetzungen Ein einführender Statistikkurs Zugang zu einem Laptop, der Matlab in der Lage ist, Matlab installiert zu haben. Erlaubnis des Instruktors (Studenten und Online-Studenten) Andere Voraussetzungen Wenn Sie an einer Universität sind Arizona (UA) Student auf dem Campus in Tucson, haben Sie Zugang zu Matlab und benötigte Toolboxen über eine UA-Site-Lizenz als keine Kosten-Software. Keine vorherige Erfahrung mit Matlab ist erforderlich, und Computerprogrammierung ist nicht Teil des Kurses. Wenn Sie online sind, nicht auf dem Campus an der UA, können Sie den Kurs im Frühjahr 2017 Semester als iCourse nehmen. Sie müssen sicherstellen, dass Sie Zugang zu Matlab und den benötigten Toolboxen haben (siehe unten) an Ihrem Standort. Zugang zum Internet. Es gibt keinen Papierwechsel im Kurs. Notizen und Abtretungen werden elektronisch ausgetauscht und abgeschlossene Aufträge werden elektronisch über das System der Universität von Arizona Desire2Learn (D2L) übermittelt. Matlab Version. Ich aktualisiere Scripts und Funktionen jetzt und dann mit der aktuellen Website-Lizenz-Version von Matlab, und die Updates könnten Matlab-Funktionen nicht verfügbar in früheren Matlab Releases. Für 2017 verwende ich Matlab Version 9.1.0.441655 (R2016b). Wenn Sie eine frühere Version verwenden, stellen Sie sicher, dass es Matlab Release 2007b oder höher ist. Zusätzlich zum Haupt-Matlab-Paket werden vier Toolboxen verwendet: Statistik, Signalverarbeitung, Systemidentifikation und Spline (Matlab Release 2010a oder früher) oder Curve Fitting (Matlab Release 2010b oder höher) Verfügbarkeit Der Kurs wird im Frühjahrssemester angeboten Jedes zweite Jahr (2015, 2017, etc.). Es ist offen für Studenten und kann auch von Undergraduate Senioren mit Genehmigung des Lehrers genommen werden. Die Einschreibung der ansässigen UA-Studenten ist bei 18 für das Frühjahrssemester 2017 begrenzt. Eine kleine Anzahl von Online-Studenten wurde in der Regel auch durch den Kurs auf verschiedene Weise untergebracht. Der Weg ist jetzt der oben beschriebene iCourse Veranstaltungsort. Zurück zum Seitenanfang Kursübersicht (Lektionen) Der Zeitplan erlaubt in der Regel etwa zwei Wochen, um Daten zu sammeln und mit Matlab vertraut zu werden. Dann ist eine Woche (zwei Unterrichtsstunden) jedem der 12 Lektionen oder Themen gewidmet. Klasse trifft sich am Dienstag und Donnerstag. Ein neues Thema wird am Dienstag eingeführt und wird am darauffolgenden Donnerstag fortgesetzt. Donnerstags Klasse endet mit einer Aufgabe und einer Demonstration des Laufen des Skripts auf meine Beispieldaten. Die Abtretung ist fällig (muss von Ihnen auf D2L hochgeladen werden) vor dem Unterricht am folgenden Dienstag. Die erste 12-stündige dieser Dienstleistungs-Klasse wird für die geführte Selbsteinschätzung und die Einstufung der Abtretung und das Hochladen von bewerteten (abgestuften) Zuordnungen an D2L verwendet. Die restlichen 45 Minuten werden verwendet, um das nächste Thema vorzustellen. Du musst deinen Laptop dienstags zur Klasse bringen. Die 12 Lektionen oder Themen, die im Kurs behandelt werden, sind in der Klassenübersicht aufgelistet. Online-Studenten werden erwartet, dass die gleichen Zeitplan der Einreichung von Aufträgen als die ansässigen Studenten folgen, aber keinen Zugang zu den Vorlesungen haben. Eingeschriebene Aufträge von Online-Studenten sind nicht selbstbeurteilt, sondern werden von mir eingestuft. Online-Studierende haben Zugang zu D2L für die Einreichung von Aufträgen. Frühjahr 2017 Semester. Klasse trifft zweimal pro Woche für 75 Minuten Sitzungen, 9: 00-10: 15 Uhr TTh, im Zimmer 424 (Konferenzraum) von Bryant Bannister Baum-Ring-Gebäude (Gebäude 45B). Der erste Tag der Klasse ist Jan 12 (Do). Der letzte Tag der Klasse ist Mai 2 (Di). Es gibt keine Klasse während der Woche der Spring Break (Mar 11-19). Sie analysieren die Daten Ihrer eigenen Wahl in den Klassenzuordnungen. Wie in der Kursübersicht angegeben. Es gibt viel Flexibilität in der Wahl der Zeitreihen. Ich werde einen Katalog von geeigneten Zeitreihen zur Verfügung stellen, aber es ist am besten, den Kurs auf Ihren eigenen Datensatz zu konzentrieren. Die erste Zuweisung beinhaltet das Ausführen eines Skripts, das die Daten und Metadaten speichert, die Sie in Mat-Datei, dem nativen Format von Matlab gesammelt haben. Nachfolgende Zuordnungen zeichnen Daten aus der Mattendatei für die Zeitreihenanalyse. Zuordnungen Die 12 Themen werden nacheinander über das Semester adressiert, das etwa 15 Wochen dauert. Über die ersten zwei Wochen (4-5 Klassentreffen) werden für einige Einführungsmaterialien verwendet, entschieden und sammeln Sie Ihre Zeitreihen und bereiten Matlab auf Ihrem Laptop vor. Jede Woche danach widmet er sich einem der 12 Kursthemen. Jede Zuordnung besteht darin, ein Kapitel von Notizen zu lesen, ein zugehöriges Matlab-Skript auszuführen, das ausgewählte Methoden der Zeitreihenanalyse auf Ihre Daten anwendet und die Interpretation der Ergebnisse aufschreibt. Zuweisungen erfordern das Verständnis der Vorlesungsthemen sowie die Fähigkeit, den Computer und die Software zu nutzen. Sie übermitteln Aufträge, indem sie sie an D2L vor der Dienstag-Klasse hochladen, wenn das nächste Thema eingeführt wird. Die erste halbe Stunde dieser Dienstag-Klasse wird für die geführte Selbsteinschätzung der Abtretung verwendet, einschließlich des Hochladens von selbst abgestuften pdfs an D2L. Ich überprüfe eine oder mehrere der abgestuften Zuweisungen pro Woche (durch zufällige Auswahl) und kann die Note ändern. Um herauszufinden, wie Sie auf Zuordnungen zugreifen können, klicken Sie auf Zuordnungsdateien. Lesungen bestehen aus Klassennoten. Es gibt zwölf Sätze von. pdf Notizen Dateien. Eine für jeden der Kursthemen. Diese. pdf-Dateien können über das Web abgerufen werden. Weitere Informationen zu den verschiedenen Themen des Kurses finden Sie unter Referenzen, die am Ende eines jeden Kapitels der Klassenhinweise aufgeführt sind. Die Noten basieren ganz auf der Leistung der Aufträge, die jeweils 10 Punkte wert sind. Es gibt keine Prüfungen. Die Gesamtzahl der möglichen Punkte für die 12 Themen beträgt 12 x 10 120. Eine Klasse von A benötigte 90-100 Prozent der möglichen Punkte. Eine Klasse von B benötigt 80-90 Prozent. Eine Klasse von C erfordert 70-80 Prozent und so weiter. Die Noten werden durch Selbsteinschätzung durch eine im Klassenzimmer vorgestellte Rubrik bestimmt. Die Anzahl der verdienten Punkte sollte an der Spitze jeder abgestuften Zuordnung markiert werden. Ihr Markup der Zuordnung sollte die Annotation von Markdowns unter Bezugnahme auf einen in der Klasse dargestellten Rubrik (z. B. -0,5, rp3 bedeutet Abzug von -0,5 wegen eines Fehlers im Zusammenhang mit Rubrik Punkt 3) Zuweisungen, die in der Klasse am Donnerstag gegeben werden, enthalten Fällig (auf D2L von Ihnen hochgeladen) vor dem Beginn der Klasse am folgenden Dienstag. Die erste halbe Stunde der Diensttagssitzung widmet sich der Präsentation einer Einstufungs-Rubrik, der Selbsteinschätzung der abgeschlossenen Aufträge und dem Hochladen von selbstständigen Zuordnungen an D2L. Dieser Zeitplan gibt Ihnen 4 Tage zu vervollständigen und laden Sie die Zuordnung zu D2L vor 9.00 Uhr Dienstag. D2L verfolgt die Zeit, in der die Zuordnung hochgeladen wurde, und es wird keine Strafe beurteilt, solange sie vor 9.00 Uhr am Dienstag zum Fälligkeitsdatum hochgeladen wird. Wenn Sie irgendwelche geplanten Notwendigkeiten haben, weg von der Klasse zu sein (z. B. Teilnahme an einer Konferenz), sind Sie verantwortlich für das Hochladen Ihrer Aufgabe vor 9.00 Uhr am Dienstag ist es fällig, und für das Hochladen der Selbst-sortierten Version um 10.15 Uhr am selben Tag. Mit anderen Worten, der Zeitplan ist der gleiche wie für die Schüler, die in der Klasse sind. Wenn ein Notfall aufkommt (z. B. bekommt man die Grippe) und kann nicht die Abtretung oder Einschätzung im Zeitplan machen, bitte senden Sie mir eine E-Mail und wir werden eine Unterkunft erreichen. Andernfalls wird eine Strafe von 5 Punkten (die Hälfte der insgesamt verfügbaren Punkte für die Übung) beurteilt. Einführung in die Zeitreihe Organisation von Daten für die Analyse Eine Zeitreihe ist weitgehend definiert als jede Reihe von Messungen zu verschiedenen Zeiten genommen. Einige grundlegende beschreibende Kategorien von Zeitreihen sind 1) lang vs kurz, 2) sogar Zeitschritt vs unebener Zeitschritt, 3) diskrete vs kontinuierliche, 4) periodische vs aperiodische, 5) stationäre vs nichtstationäre und 6) univariate vs multivariate . Diese Eigenschaften sowie die zeitliche Überlappung mehrerer Serien müssen bei der Auswahl eines Datensatzes zur Analyse in diesem Kurs berücksichtigt werden. Sie analysieren Ihre eigenen Zeitreihen im Kurs. Die ersten Schritte sind, diese Serien auszuwählen und sie in Strukturen in einer Matten-Datei zu speichern. Gleichmäßigkeit in der Speicherung von vornherein ist für diese Klasse bequem, so dass die Aufmerksamkeit dann auf das Verständnis der Zeitreihen-Methoden konzentriert werden kann, um den Computer-Code zu debuggen, um die Daten für die Analyse bereitzustellen. Eine Struktur ist eine Matlab-Variable ähnlich einer Datenbank, in der der Inhalt von Textfeldbezeichnern zugegriffen wird. Eine Struktur kann Daten von verschiedenen Formen speichern. Zum Beispiel könnte ein Feld eine numerische Zeitreihenmatrix sein, ein anderer könnte Text sein, der die Datenquelle beschreibt usw. In der ersten Zuweisung werden Sie ein Matlab-Skript ausführen, das Ihre Zeitreihen und Metadaten aus ascii Textdateien liest, die Sie vorher vorbereiten und Speichert die Daten in Matlab-Strukturen in einer einzigen Mat-Datei. In nachfolgenden Zuordnungen werden Sie die Zeitreihenmethoden auf die Daten anwenden, indem Sie Matlab-Skripte und Funktionen ausführen, die die Mat-Datei laden und auf diese Strukturen arbeiten. Auswählen von Beispieldaten, die für Zuordnungen während des Kurses verwendet werden sollen Lesen: (1) Notes1.pdf, (2) Erste Schritte, die über das MATLAB-Hilfemenü zugänglich sind Antwort: Führen Sie das Skript geosa1.m aus und beantworten Sie die in der Datei aufgeführten Fragen in a1.pdf Wie man die Kategorien der Zeitreihen unterscheidet Wie man MATLAB anfängt und beendet Wie man MATLAB-Befehle an der Eingabeaufforderung einträgt Wie man Figuren im Bildfenster erstellt Wie man Figuren in deinem Textverarbeitungsprogramm exportiert Unterschied zwischen MATLAB-Skripten und Funktionen Wie man Skripte und Funktionen ausführt Form einer MATLAB-Strukturvariable Wie man das Skript geosa1.m anwendet, um einen Satz von Zeitreihen und Metadaten in MATLAB-Strukturen zu erhalten Die Wahrscheinlichkeitsverteilung einer Zeitreihe beschreibt die Wahrscheinlichkeit, dass eine Beobachtung in einen bestimmten Wertebereich fällt. Eine empirische Wahrscheinlichkeitsverteilung für eine Zeitreihe kann durch Sortierung und Rangfolge der Werte der Serie erreicht werden. Quantile und Perzentile sind nützliche Statistiken, die direkt aus der empirischen Wahrscheinlichkeitsverteilung genommen werden können. Viele parametrische statistische Tests nehmen an, dass die Zeitreihe eine Probe aus einer Population mit einer bestimmten Populationswahrscheinlichkeitsverteilung ist. Oft wird die Bevölkerung als normal angenommen. Dieses Kapitel enthält einige grundlegende Definitionen, Statistiken und Plots im Zusammenhang mit der Wahrscheinlichkeitsverteilung. Zusätzlich wird ein Test (Lilliefors-Test) eingeführt, um zu prüfen, ob eine Probe aus einer Normalverteilung mit unspezifiziertem Mittelwert und Abweichung stammt. Antwort: Führen Sie das Skript geosa2.m aus und beantworten Sie die in der Datei aufgelisteten Fragen in a2.pdf Definitionen von Begriffen: Zeitreihen, Stationarität, Wahrscheinlichkeitsdichte, Verteilungsfunktion, Quantil, Spreizung, Ort, Mittelwert, Standardabweichung und Schräglauf Wertvollste Grafik in der Zeitreihenanalyse - das Zeitreihenplot Wie man das Kastenplot, das Histogramm und das normale Wahrscheinlichkeitsdiagramm interpretiert Parameter und Form der Normalverteilung Lilliefors Test für Normalität: grafische Beschreibung, Annahmen, Null und alternative Hypothesen Caveat auf Interpretation von Signifikanzniveaus von statistischen Tests, wenn Zeitreihen nicht zufällig in der Zeit sind Wie man geosa2.m anwendet, um die Verteilungseigenschaften einer Zeitreihe zu überprüfen und die Serie auf Normalität zu testen Autokorrelation bezieht sich auf die Korrelation einer Zeitreihe mit ihren eigenen vergangenen und zukünftigen Werten. Autokorrelation wird auch manchmal als verzögerte Korrelation oder serielle Korrelation bezeichnet. Die sich auf die Korrelation zwischen Mitgliedern einer Reihe von Zahlen bezieht, die in der Zeit angeordnet sind. Positive Autokorrelation könnte als eine spezifische Form der Beharrlichkeit angesehen werden. Eine Tendenz für ein System, in demselben Zustand von einer Beobachtung zum nächsten zu bleiben. Zum Beispiel ist die Wahrscheinlichkeit, dass morgen regnerisch ist, größer, wenn heute regnerisch ist, als wenn heute trocken ist. Geophysikalische Zeitreihen werden häufig aufgrund von Trägheits - oder Übertragungsprozessen im physikalischen System autokorrigiert. Zum Beispiel könnten die sich langsam entwickelnden und bewegten Niederdrucksysteme in der Atmosphäre dem täglichen Niederschlag Beharrlichkeit verleihen. Oder die langsame Entwässerung der Grundwasserreserven könnte eine Korrelation mit den aufeinanderfolgenden Jahresströmen eines Flusses vermitteln. Oder gespeicherte Photosynthate können Korrelationen zu aufeinanderfolgenden Jahreswerten von Baum-Ring-Indizes vermitteln. Autokorrelation kompliziert die Anwendung von statistischen Tests durch die Verringerung der Anzahl der unabhängigen Beobachtungen. Autokorrelation kann auch die Identifizierung einer signifikanten Kovarianz oder Korrelation zwischen Zeitreihen (z. B. Niederschlag mit einer Baumringreihe) erschweren. Autokorrelation kann für Vorhersagen ausgenutzt werden: eine autokorrelierte Zeitreihe ist vorhersehbar, probabilistisch, weil zukünftige Werte von aktuellen und vergangenen Werten abhängen. Drei Werkzeuge zur Beurteilung der Autokorrelation einer Zeitreihe sind (1) das Zeitreihenplot, (2) das verzögerte Scatterplot und (3) die Autokorrelationsfunktion. Antwort: Führen Sie das Skript geosa3.m aus und beantworten Sie die in der Datei aufgelisteten Fragen in a3.pdf Definitionen: Autokorrelation, Persistenz, serielle Korrelation, Autokorrelationsfunktion (acf), Autokovarianzfunktion (acvf), effektive Stichprobengröße Wie man Autokorrelation in der Zeitreihe erkennt Plot So verwenden Sie verzögerte Scatterplots, um Autokorrelation zu beurteilen Wie man die geplante Acf interpretiert Wie man die Stichprobengröße für Autokorrelation anpasst Mathematische Definition der Autokorrelationsfunktion Begriffe, die die Breite des berechneten Konfidenzbandes des acf beeinflussen Der Unterschied zwischen einem einseitigen und zwei - sided Test von signifikanter Verzögerung-1 Autokorrelation Wie man geos3.m anwendet, um die Autokorrelation einer Zeitreihe zu studieren Das Spektrum einer Zeitreihe ist die Verteilung der Varianz der Serie als Funktion der Frequenz. Das Ziel der Spektralanalyse ist es, das Spektrum zu schätzen und zu studieren. Das Spektrum enthält keine neue Information darüber hinaus in der Autokovarianzfunktion (acvf), und tatsächlich kann das Spektrum mathematisch durch Umwandlung des acvf berechnet werden. Aber das Spektrum und die Darstellung der Informationen über die Varianz der Zeitreihen aus komplementären Gesichtspunkten. Die acf fasst Informationen im Zeitbereich und das Spektrum im Frequenzbereich zusammen. Antwort: Führen Sie Skript geosa4.m und beantworten Sie die in der Datei aufgeführten Fragen in a4.pdf Definitionen: Frequenz, Periode, Wellenlänge, Spektrum, Nyquist Frequenz, Fourier Frequenzen, Bandbreite Gründe für die Analyse eines Spektrums Wie man ein gezeichnetes Spektrum in Bezug auf die Verteilung interpretiert Der Varianz Die Differenz zwischen einem Spektrum und einem normalisierten Spektrum Definition des Lag-Fensters, wie es bei der Schätzung des Spektrums nach der Blackman-Tukey-Methode verwendet wird Wie die Wahl des Lag-Fensters die Bandbreite und Varianz des geschätzten Spektrums beeinflusst Wie man ein weißes Rauschspektrum definiert Und autoregressives Spektrum So skizzieren einige typische Spektralformen: Weißes Rauschen, autoregressive, quasi-periodische, niederfrequente Hochfrequenz Wie man geosa4.m anwendet, um das Spektrum einer Zeitreihe nach der Blackman-Tukey-Methode Autoregressive-Moving zu analysieren Durchschnittliche (ARMA) Modellierung Autoregressive-Moving-Average (ARMA) Modelle sind mathematische Modelle der Persistenz oder Autokorrelation in einer Zeitreihe. ARMA-Modelle sind weit verbreitet in Hydrologie, Dendrochronologie, Ökonometrie und anderen Bereichen eingesetzt. Es gibt mehrere mögliche Gründe für die Anpassung der ARMA-Modelle an Daten. Modellierung kann dazu beitragen, das physische System zu verstehen, indem sie etwas über den physischen Prozess, der Persistenz in die Serie baut, aufdeckt. Beispielsweise kann ein einfaches physikalisches Wasser-Gleichgewicht-Modell, das aus Begriffen für Niederschlagseintrag, Verdampfung, Infiltration und Grundwasserspeicherung besteht, gezeigt werden, um eine Stromflussreihe zu ergeben, die einer bestimmten Form des ARMA-Modells folgt. ARMA-Modelle können auch verwendet werden, um das Verhalten einer Zeitreihe aus vergangenen Werten allein vorherzusagen. Eine solche Vorhersage kann als Grundlinie verwendet werden, um mögliche Bedeutung anderer Variablen für das System zu bewerten. ARMA-Modelle sind weit verbreitet für die Vorhersage der wirtschaftlichen und industriellen Zeitreihen verwendet. ARMA-Modelle können auch verwendet werden, um Beharrlichkeit zu entfernen. In der Dendrochronologie wird beispielsweise die ARMA-Modellierung routinemäßig angewendet, um Restchronronen-Zeitreihen des Ringbreitenindex ohne Abhängigkeit von vergangenen Werten zu erzeugen. Diese Operation, genannt Prewhitening, soll die biologisch bedingte Beharrlichkeit aus der Reihe entfernen, so dass die Reste besser geeignet sein können, den Einfluss von Klima und anderen äußeren Umweltfaktoren auf das Baumwachstum zu untersuchen. Antwort: Führen Sie Skript geosa5.m aus und beantworten Sie die in der Datei aufgeführten Fragen in a5.pdf Die funktionale Form der einfachsten AR - und ARMA-Modelle Warum solche Modelle als autoregressiver oder gleitender Durchschnitt bezeichnet werden Die drei Schritte in der ARMA-Modellierung Die Diagnosemuster der Autokorrelations - und Teilautokorrelationsfunktionen für eine AR (1) Zeitreihe Definition des endgültigen Vorhersagefehlers (FPE) und wie die FPE zur Auswahl eines besten ARMA-Modells verwendet wird Definition der Portmanteau-Statistik und wie es und die acf von Residuen sein kann Verwendet, um zu beurteilen, ob ein ARMA-Modell die Beharrlichkeit in einer Reihe effektiv modelliert. Wie das Prinzip der Sparsamkeit in der ARMA-Modellierung angewendet wird Definition der Vorwarnung Wie die Prähabilitation beeinflusst (1) das Auftreten einer Zeitreihe und (2) das Spektrum einer Zeitreihe Wie man geosa5.m auf ARMA-Modell anwendet eine Zeitreihe Spektralanalyse - geglättete Periodogrammmethode Es gibt viele verfügbare Methoden zur Schätzung des Spektrums einer Zeitreihe. In der Lektion 4 sahen wir die Blackman-Tukey-Methode an, die auf der Fourier-Transformation der geglätteten, abgeschnittenen Autokovarianz-Funktion basiert. Das geglättete Periodogramm-Verfahren umgibt die Transformation des acf durch direkte Fourier-Transformation der Zeitreihen und die Berechnung des Rohperiodogramms, eine Funktion, die erstmals in den 1800er Jahren zum Studium der Zeitreihen eingeführt wurde. Das Rohperiodogramm wird durch Anwenden von Kombinationen oder Spannen eines oder mehrerer Filter geglättet, um das geschätzte Spektrum zu erzeugen. Die Glätte, Auflösung und Varianz der Spektralschätzungen wird durch die Wahl der Filter gesteuert. Eine stärker akzentuierte Glättung des Rohperiodogramms erzeugt ein zugrunde liegendes, glatt variierendes Spektrum oder Nullkontinuum, gegen das spektrale Peaks auf Signifikanz geprüft werden können. Dieser Ansatz ist eine Alternative zur Spezifikation einer funktionalen Form des Null-Kontinuums (z. B. AR-Spektrum). Antwort: Führen Sie Skript geosa6.m und beantworten Sie die in der Datei aufgelisteten Fragen in a6.pdf Definitionen: Rohperiodogramm, Daniell-Filter, Spanne des Filters, Null-Kontinuum-Glätte, Stabilität und Auflösung von Spektrumverjüngung, Polsterung, Leckage Die vier Hauptschritte bei der Schätzung Das Spektrum durch das geglättete Periodogramm Wie sich der Effekt der Wahl des Filters auf die Glätte, Stabilität und Auflösung des Spektrums erstreckt Wie das Nullkontinuum bei der Prüfung der Signifikanz der Spektralspitzen verwendet wird Wie man geosa6.m anwendet, um das Spektrum einer Zeit zu schätzen Serie durch die geglättete Periodogramm-Methode und Test auf Periodizität bei einer bestimmten Frequenz Trend in einer Zeitreihe ist eine langsame, allmähliche Veränderung in irgendeiner Eigenschaft der Serie über das gesamte Intervall untersucht. Trend ist manchmal lose definiert als eine langfristige Veränderung im Mittelwert (Abbildung 7.1), kann aber auch auf Veränderungen in anderen statistischen Eigenschaften verweisen. Zum Beispiel haben die Baumringreihen der gemessenen Ringbreite häufig einen Trend sowohl in der Varianz als auch im Mittel (Abbildung 7.2). In der traditionellen Zeitreihenanalyse wurde eine Zeitreihe in Trend-, Saison - oder periodische Komponenten und unregelmäßige Schwankungen zerlegt und die verschiedenen Teile wurden separat untersucht. Moderne Analysetechniken behandeln häufig die Serie ohne solche routinemäßige Zersetzung, aber eine getrennte Betrachtung des Trends ist noch oft erforderlich. Detrending ist die statistische oder mathematische Operation der Entfernung von Trend aus der Serie. Detrending wird oft angewendet, um ein Merkmal zu entfernen, das gedacht wird, um die interessanten Beziehungen zu verzerren oder zu verdecken. In der Klimatologie zum Beispiel könnte ein Temperaturverlauf aufgrund der städtischen Erwärmung eine Beziehung zwischen Trübung und Lufttemperatur verdecken. Detrending wird auch manchmal als Vorverarbeitungsschritt verwendet, um Zeitreihen für die Analyse durch Methoden, die die Stationarität übernehmen, vorzubereiten. Viele alternative Methoden stehen zur Verfügung. Ein einfacher linearer Trend im Mittel kann durch Subtrahieren einer kleinsten Quadrate-passenden Geraden entfernt werden. Kompliziertere Trends könnten unterschiedliche Verfahren erfordern. Zum Beispiel wird die kubische Glättung Spline wird häufig in der Dendrochronologie verwendet, um zu passen und zu entfernen Ring-Breite Trend, die möglicherweise nicht linear oder nicht einmal monoton zunehmende oder abnehmende Zeit. Beim Studieren und Entfernen des Trends ist es wichtig, die Wirkung der Detrifizierung auf die spektralen Eigenschaften der Zeitreihe zu verstehen. Dieser Effekt kann durch den Frequenzgang der Detrending-Funktion zusammengefasst werden. Antwort: Führen Sie Skript geosa7.m und beantworten Sie die in der Datei aufgelisteten Fragen in a7.pdf Definitionen: Frequenzgang, Spline, kubische Glättung Spline Vor - und Nachteile des Verhältnisses vs Differenz Detrending Interpretation von Terme in der Gleichung für den Spline-Parameter Wie wählt man ein Spline interaktiv aus dem gewünschten Frequenzgang Wie das Spektrum durch die Verzerrung beeinflusst wird Wie man die Bedeutung der Trendkomponente in einer Zeitreihe misst Wie man geosa7.m einsetzt, um interaktiv eine Spline-Detrending-Funktion zu wählen und eine Zeitreihe zu vernachlässigen Das geschätzte Spektrum einer Zeit Serie gibt die Verteilung der Varianz als Funktion der Frequenz. Abhängig von dem Zweck der Analyse können einige Frequenzen von größerem Interesse sein als andere, und es kann hilfreich sein, die Amplitude von Variationen bei anderen Frequenzen zu reduzieren, indem sie statistisch herausgefiltert werden, bevor sie die Serie ansehen und analysieren. Zum Beispiel können die hochfrequenten (Jahr zu Jahr) Variationen in einer gemessenen Entladungsaufzeichnung einer Wasserscheide relativ unwichtig für die Wasserversorgung in einem Becken mit großen Reservoirs sein, die mehrere Jahre des mittleren Jahresabflusses speichern können. Wo niederfrequente Variationen von Hauptinteresse sind, ist es wünschenswert, die Entladungsaufzeichnung zu glätten, um die kurzfristigen Schwankungen zu eliminieren oder zu reduzieren, bevor die Entladungsaufzeichnung verwendet wird, um die Bedeutung von klimatischen Variationen der Wasserversorgung zu untersuchen. Glättung ist eine Form der Filterung, die eine Zeitreihe erzeugt, in der die Bedeutung der Spektralkomponenten bei hohen Frequenzen reduziert wird. Elektrotechniker nennen diese Art von Filter ein Tiefpassfilter, da die niederfrequenten Variationen durch den Filter hindurchgehen dürfen. In einem Tiefpaßfilter werden die niederfrequenten Wellen (Langzeitwellen) durch die Glättung kaum beeinflusst. Es ist auch möglich, eine Reihe so zu filtern, dass die niederfrequenten Schwankungen reduziert und die hochfrequenten Schwankungen nicht beeinflusst werden. Diese Art von Filter wird als Hochpassfilter bezeichnet. Detrending ist eine Form der Hochpassfilterung: Die angepasste Trendlinie verfolgt die niedrigsten Frequenzen, und die Residuen aus der Trendlinie haben diese niedrigen Frequenzen entfernt. Eine dritte Art der Filterung, die sogenannte Bandpassfilter, reduziert oder filtert sowohl hohe als auch niedrige Frequenzen aus und hinterlässt ein gewisses Zwischenfrequenzband relativ unbeeinflußt. In dieser Lektion decken wir mehrere Methoden der Glättung oder Tiefpassfilterung ab. Wir haben bereits besprochen, wie die kubische Glättung Spline für diesen Zweck nützlich sein könnte. Hier werden vier weitere Filtertypen besprochen: 1) einfacher gleitender Durchschnitt, 2) Binomial, 3) Gaußsche und 4) Fensterung (Hamming-Methode). Überlegungen bei der Auswahl eines Typs von Tiefpaßfilter sind der gewünschte Frequenzgang und die Spanne oder Breite des Filters. Antwort: Führen Sie Skript geosa8.m und beantworten Sie die in der Datei aufgelisteten Fragen in a8.pdf Definitionen: Filter, Filtergewichte, Filterspanne, Tiefpassfilter, Hochpaßfilter, Bandpassfilter Frequenzgang eines Filters Wie der Gaußsche Filter ist auf die Gaußsche Verteilung bezogen Wie man einen einfachen Binomialfilter manuell baut (ohne den Computer) Wie beschreibe ich die Frequenzgangfunktion in Bezug auf ein System mit sinusförmiger Eingabe und Ausgabe Wie man geosa8.m einsetzt, um interaktiv ein Gauß-, Binomial zu entwerfen Oder Hamming-Fenster-Tiefpassfilter für eine Zeitreihe Der Pearson-Produkt-Moment-Korrelationskoeffizient ist wahrscheinlich die einzige am weitesten verbreitete Statistik, um die Beziehung zwischen zwei Variablen zusammenzufassen. Statistische Bedeutung und Einschränkungen der Interpretation des Korrelationskoeffizienten, wie sie auf Zeitreihen angewendet werden, sind Themen dieser Lektion. Unter bestimmten Annahmen hängt die statistische Signifikanz eines Korrelationskoeffizienten nur von der Stichprobengröße ab, die als Anzahl unabhängiger Beobachtungen definiert ist. Wenn Zeitreihen autokorreliert werden, sollte bei der Bewertung der Signifikanz eine effektive Stichprobengröße, die niedriger als die tatsächliche Stichprobengröße ist, verwendet werden. Transiente oder falsche Beziehungen können für einige Perioden eine signifikante Korrelation ergeben und nicht für andere. Die zeitliche Variation der Stärke der linearen Korrelation kann mit Korrekturen untersucht werden, die für ein Schiebefenster berechnet wurden. Wenn jedoch viele Korrelationskoeffizienten gleichzeitig ausgewertet werden, sollten die Konfidenzintervalle angepasst werden (Bonferroni-Anpassung), um die erhöhte Wahrscheinlichkeit zu vermeiden, einige hohe Korrelationen zu beobachten, wo keine Beziehung existiert. Die Interpretation von Gleitkorrelationen kann auch durch zeitliche Variationen von Mittelwert und Varianz der Reihe kompliziert werden, da die gleitende Korrelation die Kovariation in Form von standardisierten Abweichungen von Mitteln im Zeitfenster von Interesse widerspiegelt, die sich von den Langzeitmitteln unterscheiden können. Schließlich sollte betont werden, dass der Pearson-Korrelationskoeffizient die Stärke der linearen Beziehung misst. Scatterplots sind nützlich, um zu prüfen, ob die Beziehung linear ist. Antwort: Führen Sie Skript geosa9.m ​​und beantworten Sie die in der Datei aufgelisteten Fragen in a9.pdf Mathematische Definition des Korrelationskoeffizienten Annahmen und Hypothesen für die Signifikanzprüfung des Korrelationskoeffizienten Wie man das Signifikanzniveau des Korrelationskoeffizienten berechnet und das Signifikanzniveau für die Autokorrelation anpasst Die einzelnen Zeitreihen Caveats zur Interpretation des Korrelationskoeffizienten Bonferroni-Anpassung an die Signifikanz der Korrelation unter Mehrfachvergleichen Inflation der Varianz des geschätzten Korrelationskoeffizienten bei der Zeitreihe autokorreliert Mögliche Auswirkungen der Datenumwandlung auf die Korrelation Wie man Plots von Gleitkorrelationen interpretiert Wie man geosa9 anwendet. M zu analysieren Korrelationen und gleitende Korrelationen zwischen Paaren von Zeitreihen Lagged Beziehungen sind charakteristisch für viele natürliche physikalische Systeme. Die verkürzte Korrelation bezieht sich auf die Korrelation zwischen zwei zeitlich veränderten Zeitreihen zueinander. Lagged Korrelation ist wichtig, um die Beziehung zwischen Zeitreihen aus zwei Gründen zu studieren. Zuerst kann eine Reihe eine verzögerte Antwort auf die andere Reihe haben, oder vielleicht eine verzögerte Antwort auf einen gemeinsamen Stimulus, der beide Reihen beeinflusst. Zweitens kann die Reaktion einer Reihe auf die andere Reihe oder ein äußerer Reiz in der Zeit verschmiert werden, so dass ein auf eine Beobachtung beschränkter Stimulus eine Antwort bei mehreren Beobachtungen hervorruft. Zum Beispiel, wegen der Lagerung in Reservoirs, Gletscher, etc. die Volumenentladung eines Flusses in einem Jahr kann von Niederschlag in den mehreren vorangegangenen Jahren abhängen. Oder wegen der Veränderungen der Kronendichte und der Photosynthatspeicherung kann die Breite eines Baumringes in einem Jahr vom Klima mehrerer vorausgehender Jahre abhängen. Der einfache Korrelationskoeffizient zwischen den beiden Serien, die in der Zeit richtig ausgerichtet sind, ist unzureichend, um die Beziehung in solchen Situationen zu charakterisieren. Nützliche Funktionen, die wir als Alternative zum einfachen Korrelationskoeffizienten untersuchen, sind die Kreuzkorrelationsfunktion und die Impulsantwortfunktion. Die Kreuzkorrelationsfunktion ist die Korrelation zwischen der Reihe, die in Abhängigkeit von der Anzahl der Beobachtungen des Versatzes gegeneinander verschoben ist. Wenn die einzelnen Serien autokorreliert sind, kann die geschätzte Kreuzkorrelationsfunktion als Maß für die verzögerte Beziehung verzerrt und irreführend sein. Wir werden uns zwei Ansätze anschließen, um das Muster der Kreuzkorrelationen zu klären. Einer ist, die Beharrlichkeit einzeln zu entfernen oder vor der Serie vor der Kreuzkorrelation zu schätzen. Bei diesem Ansatz werden die beiden Serien im Wesentlichen gleichberechtigt betrachtet. Eine Alternative ist der Systemansatz: Zeigen Sie die Serie als dynamisches Linearsystem an - eine Serie die Eingabe und die andere die Ausgabe - und schätzen Sie die Impulsantwortfunktion. Die Impulsantwortfunktion ist die Antwort der Ausgabe auf Strom und zukünftige Zeiten auf einen hypothetischen Impuls der Eingabe, der auf die aktuelle Zeit beschränkt ist. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script. STA101 Introduction to Probability and Statistics STA102 Exploratory Data Analysis STA103 Principles of Sample Surveys STA121 Programming Methodology STA122 Computational Methods and Data Analysis I SMA101 Basic Mathematics SMA103 Calculus I SMA104 Calculus II SMA106 Calculus III STA 101: Introduction to Probability and Statistics Frequency distributions, relative and cumulative distributions, various frequency curves, mean, mode, median, quartiles and percentiles, standard deviation, symmetrical and skewed distributions. Probability: sample space and events definition of probability, properties of probability random variables probability distributions expected values of random variables. Elements of Markov chains. Co-requisites . SMA101, SMA103 STA 102: Exploratory Data Analysis Data, grouping data, graphs and charts, standard leaf diagrams, Box and Whisker diagrams. Variables and their frequency distributions, summary measures. The comparison problem - an exploratory view. An exploratory look at association. The staircase and the short cut to inference. Distributions and their troubles. Kinds of nonnormality and robustness. The role of vague concepts. Indication, determination or inference. Indication and indicators. Data analysis and computer graphics. Graphs on determination and inference. Methods of assessing real uncertainty, Bayesian ideas, empirical priors, Bayes theorem. Prior information for normal data binomial data and beta priors Poisson data and gamma priors. Binomial probability paper the normal probability paper. STA 103: Principles of Sample Surveys Uses, scope and advantages of sample survey types of survey survey organisation sample survey design. Purposive, probability and quota sampling. Simple random sampling stratified sampling systematic sampling multistage sampling and pps selections. Estimation of means, totals and proportions variance calculations. Sampling error. Sources of error, nonresponse. Management of surveys. STA 121: Programming Methodology Principles of computer organisation. Information storage. Bits, bytes, words, ordinary and floating point representation of numbers. Character codes. Structured programming using high level language e. g. Pascal. FORTRAN, C programme structure. Abstract data types. Mathematical expressions and operations. Logical expressions and operations. Control structures. Functions. Procedures. Report and display design, library procedures. Types of problems computers can solve. General structure of installation mainframe versus stand alone micro computers: networking operating systems, compiler systems and utilities. STA 122: Computational Methods and Data Analysis I Computer graphics. Statistical packages and libraries. Role of computers in data bases. Survey applications. Number systems errors and accuracy interpolation finite differences difference equations successive approximation or iterative techniques. Numerical solution of non-linear equations. Writing programs to implement numerical algorithms. Application of numerical analysis, software packages such as NAG. Pre-requisites: STA121, STA103, SMA103 STA201 Probability and Statistics I STA202 Principles of Statistical Inference STA221 Economic and Social Statistics STA222 Introduction to Time Series Analysis STA223 Operations Research I STA224 Computational Methods and Data Analysis II SMA201 Advanced Calculus SMA203 Linear Algebra I SMA204 Linear Algebra II SMA205 Introduction to Algebra SMA208 Ordinary Differential Equations STA201: Probability and Statistics I Particular distributions: Bernoulli, binomial, Poisson, geometric, hypergeometric, uniform, exponential and normal random variables and their distributions. Bivariate frequency distributions. Joint probability tables and marginal probabilities. Moments and moment generating function. Markov and Chebychev inequalities. Special univariate distributions. Bivariate probability distributions joint marginal and conditional distributions Independence Bivariate expectation Regression and Correlation Calculation of regression and correlation coefficients for bivariate data. STA202: Introduction to Statistical Inference Meaning of statistics, objectives of statistical investigation. Statistical decision problems, basic concepts of inference. Role of normal distribution in statistics. Random samples, use of random number tables. Inference about population means: point and interval estimates, simple one sample and two sample tests. Linear regression and correlation analysis. Analysis of variance. Analysis of frequency data. Simple nonparametric tests. STA221: Economic and Social Statistics Economic Statistics: Gross domestic product, index numbers, retail price index, consumer price index, product index balance of payments and trade statistics. Demography: Scope, uses and sources of demographic and socio-economic data methods of enumeration demographic concepts and measures current and cohort methods of description and analysis rates and ratios standardisation construction of life tables. Measurement of fertility, mortality and nuptiality. Determinants of age structure and the intrinsic growth rate. Survey data interpretation of demographic statistics, tests of consistency and reliability. Social Statistics: Nature of social statistics sources of social statistics conceptual problems validity and reliability concepts definition and classification. Measurement problems in social surveys socio-economic indicators. Studies in the integration of social statistics. History of Statistics development in Kenya. Sources and methods in official statistics in Kenya. STA222 Introduction to Time Series Analysis An introduction to time series in time domain and spectral domain. Estimation of trends and seasonal effects, autoregressive moving average models, forecasting, indicators, harmonic analysis, spectra. STA223: Operations Research I Linear programming: Formulation of LP problems. The simplex algorithms duality theory and economic interpretations. Post optimality (sensitivity) analysis. Introduction to transportation and assignment problems. Survey of continuous optimisation problems. Unconstrained optimisation problems and methods of solution. Introduction to constrained optimisation. Integer programming methods of integer programming. STA224: Computational Methods and Data Analysis II Numerical solution of linear systems numerical evaluation of eigenvalues and eigenvectors. Numerical integration and differentiation. Data structures, arrays and their implementation, strings application and implementation of stacks, queues, linked lists, trees and graphs: Survey application, questionnaire design data processing, data editing and correction editing and imputation principles writing of edit specification, use of an edit specification, use of an edit package. Tabulation, table design, writing of a table specification use of a tabulation package. Writing programs to implement numerical algorithms. Application of numerical analysis software package such as NAG. Simulation: random and pseudo random numbers generation of uniform variates outline of tests, mention of physical devices for uniform generators generation of variates from standard distributions e. g. normal, exponential etc. Pre-requisites: STA122, STA201 STA301 Probability and Statistics II STA302 Linear Modelling I STA303 Theory of Estimation STA304 Testing Hypotheses STA305 Probability Modelling STA306 Applied Time Series Analysis I STA307 Analysis of Experimental Designs I STA308 Sample Survey Theory and Methods I STA321 Operations Research II STA322 Computational Methods and Data Analysis III STA318 Statistical Inference I STA301: Probability and Statistics II Distribution functions of random variables bivariate normal distribution. Derived distributions such as chi-square, t and F. Statistical independence. Random samples. Multinomial distributions. Functions of several random variables. The independence of and S 2 in normal samples. Order statistics. Convergence and limit theorems. STA302: Linear Modelling I Linear models: linear regression analysis, analysis of variance and covariance, diagnostics of residuals, transformations. Non-linear regression: use of transformations, polynomial regression. Large sample theory for non-normal linear models. Collinearity. Outliers. Random effects models estimation of variance components in one-way and two-way models. GLIM package. Pre-requisite . STA303 Co-requisite: STA304 STA303: Theory of Estimation Properties of point estimators. Sufficient statistics, the factorisation criterion complete statistics. Minimum variance unbiased estimators Cramer-Rao inequality Fisher information efficient estimators. Maximum likelihood estimators and their properties. Interval estimation. Least squares estimation in linear models: simple linear model, the general linear model weighted least squares interval estimation in linear models. STA304: Testing Hypotheses Concepts of statistical hypothesis and statistical test optimal tests, Neyman Pearson lemma properties of tests unbiasedness, consistency confidence sets and tests generalised likelihood ratio tests tests for correlation and regression, general linear hypotheses. STA305: Probability Modelling Stochastic processes, definition and examples. Bernoulli process: probability model, waiting times. Markov chains: discrete time Markov chains, holding times, stationary distributions, classification of states. Birth and death processes, stationary distributions. Queuing models: deterministic approximations, examples of queuing systems, application to arrival and departure processes, heavy traffic etc. STA306: Applied Time Series Analysis I Stationary time series, removal of trend and seasonal differences, moments and autocorrelation. Simple autoregressive and moving average models, moments and autocorrelations, the conditions of stationarity invertibility. Mixed (ARMA) models and the AR representation of MA and ARMA models. Fitting and testing time series models. Forecasting, methods of forecasting, scientific forecasting, basic forecasting models, forecasting criteria. Model building and identification. Series used as examples: simulated series, stock market prices etc. STA307: Analysis of Experimental Designs I General principles: randomisation, replication, blocking, covariates, orthogonality, balance, logical control or error, sequential design. Estimation of treatment contrasts and their precision, treatment structure comparison with a control. Some common designs: completely randomised design, randomised complete block design, rationale for blocking latin squares, rationale, randomisation, analysis relative merits of designs. Introduction to factorial experiments: 2 2 and 2 3 designs calculation and interpretation of effects and interactions. Incomplete block design, optimality criteria. Crossed and nested block structures. Pre-requisite: STA202, Co-requisites STA302, STA304 STA308: Sample Survey Theory and Methods I Review of general principles of survey design. Populations and sampling frames. Simple random sampling properties of estimates, determination of sample size. Ratio and regression estimation. Stratification, optimality considerations. One-stage and two-stage cluster sampling. Systematic sampling. Multistage designs. Criteria for choosing sampling designs. Pre-requisites: STA201, STA103. STA318: Statistical Inference I Properties of point estimators: unbiasedness, sufficiency, minimal sufficiency, consistency, relative efficiency, minimum variance unbiased estimators evaluating the goodness of a point estimator. Method of moments, maximum likelihood estimators and their properties. Confidence intervals, large and small sample intervals. Concepts of statistical hypothesis and statistical test optimal tests, calculation of size and power of a test finding the sample size. Neyman Pearson lemma properties of tests - unbiasedness, consistency. Likelihood ratio tests-common large sample tests. Bayesian estimation Bayesian tests and confidence sets. Fundamental aspects of nonparametric inference such as rank, permutation and goodness of fit tests nonparametric estimation of quantiles and density functions robust estimation of location and scale parameters. Pre-requisites: STA202, STA301 Note: STA318 must not be taken together with STA303 andor STA304 STA321: Operations Research II Aims and scope of stochastic modelling. Decisions under risk, decision trees, decisions under uncertainty. Markov decision processes, dynamic programming models linear programming solution of the Markovian decision problem. Queuing models, types of queues roles of Poisson and exponential probability models queues with combined arrivals and departures queues with priorities of service. Traffic flow models. Inventory models, practical stock systems types of inventory scheduling policies storage models. Simulation models, roles of random numbers simulation experiments Monte Carlo calculus and variance reduction techniques, simulation as estimation, control variates, antithetic variates, stratified and importance sampling choice of sampling size. Analogue simulation systems e. g. queues, inventories, traffic networks, storage systems. Pre-requisites: STA223, STA201 STA322: Computational Methods and Data Analysis III Application of statistical packages (e. g. GLIM, SPSS, SPLUS, GENSTAT, etc) in statistical data analysis. Simulation of simple deterministic and stochastic systems simulation of inventory and stock control systems, queuing systems, traffic networks etc. Polynomial interpolation, spline approximation, solution of ordinary differential equations. Stability and efficiency concepts. Monte Carlo methods. Management information systems management of information systems. File systems and database systems database design. Project management and implementation use of computer development tools, Case studies. Report writing, presentations. Data communication and networks, applications case studies. Pre-requisite: STA 224 STA401 Measure, Probability and Integration STA402 Bayesian Inference and Decision Theory STA403 Nonparametric Methods STA404 Applied Multivariate Methods STA420 Project in Statistics Statistical Theory and Methods STA405 Linear Modelling II STA406 Applied Stochastic Processes STA407 Analysis of Experimental Designs II STA408 Robust Methods and Nonparametrics STA409 Applied Time Series Analysis II STA410 Sample Survey Theory and Methods II STA419 Statistical Inference II Applied Statistical Methods STA421 Operations Research III STA422 Stochastic Models for Social Processes STA423 Stochastic Models for Biological Processes STA424 Statistical Methods for Industrial Processes STA425 Statistical Demography STA426 Applied Population Analysis STA428 Applied Demography STA429 Econometric Models I STA430 Econometric Models II STA432 Applied Econometrics STA434 Survey Research Methods STA435 Biometrics Methods I STA436 Biometrics Methods II STA437 Survival Analysis STA 401: Measure, Probability and Integration Measure and integration: Measurable functions, measures, measure space integration, monotone convergence theorem, Fatous lemma convergence theorems Radon Nikodym theorem Lebesgue decomposition. Probability Theory: Probability as a measure probability space random variables distribution functions and characteristic functions. Sums of random variables, independence. Modes of convergence of sequences of random variables. Borel-Canteli lemmas and the zero-one laws, laws of large numbers and central limit theorem. Pre-requisites . SMA206, STA301 STA 402: Bayesian Inference and Decision Theory Elements of decision theory: Statistical games the no data problem. Loss and regret, mixed actions, the minimax principle, Bayes actions decision with sample data decision rules, risk function, Bayes decision rules. Bayesian inference: Problems associated with classical approach Bayes approach: prior and posteri distributions specification of prior distribution Bayesian estimation, properties of Bayes estimators Bayesian tests and confidence sets examples of situations where Bayesian and classical approaches give equivalent or nearly equivalent results. One-parameter and multiparameter models, predictive checking and sensitivity analysis. Simulation of probability distributions. Sequential methods: Sequential probability ratio test Stein fixed width confidence intervals. Current methodological issues in Statistics. Pre-requisites: STA301, STA304 STA403: Non parametric Methods Nonparametric inference, simple one-sample tests order statistics, empirical distribution function, ranks and runs general nature of nonparametric tests, allocation of scores, confidence intervals efficiency and robustness considerations dealing with tied observations. Goodness of fit tests. General two-sample and c-sample problems linear rank tests Wilcoxons rank sum test use of rank sum procedures for assessing symmetry and in analysis of variance Friedman test, two-sample tests of dispersion. Measures and tests for association analysis of contingency tables Kendalls t, Spearmans rank correlation coefficient of concordance. Efficiency of nonparametric procedures. STA404: Applied Multivariate Methods Practical Examples of multivariate data summarising multivariate data, mean vectors and covariance matrices, correlation matrix. The multinormal distribution. Sampling from the multinormal, MLEs and tests for the mean vector simultaneous confidence intervals tests of structural relationship. Testing equality of two population means. MLEs of partial and multiple correlations and tests testing for complete independence canonical correlations and variates, test of canonical correlation and reduction in dimensionality. Classification into one of two populations. Calculation and interpretation of principal components. Elements of multivariate analysis of variance, one-way grouping and two-way grouping without interaction. STA405: Linear Modelling II Analysis of the general linear model: model building, model selection and validation, variable selection stepwise and best subset regression. Introduction to response surface methodology. Modelling under prior and additional information, ridge regression. Modelling of nonnormal data. Treatment of outliers in regression models. Robustness, graphical techniques. Generalised linear models, measurement of association in two-way tables log-linear and other models for contingency tables logit, probit, categorical data, score tests, case studies. STA406: Applied Stochastic Processes Review of Random phenomena in time and space, mention of point processes, distributions, stationarity. Theory of recurrent events. Martingales, stopping times. Markov processes. Brownian motion. Renewal theory, the key renewal theorem the renewal equation. Stochastic differential equations. STA407: Analysis of Experimental Designs II Review of experimental and statistical objectives. General 2 n design, confounding of one or more effects, partial confounding: fractional replication block compositions. Factors at 3 levels 3 2 and 3 3 experiments with and without confounding, estimation of effects. Split plot designs. Incomplete block designs: nature and need for incomplete blocks types of designs, balanced designs, balanced incomplete block design, intra and inter block analysis partially balanced incomplete blocks-two associate classes only. Youden squares lattice designs relative merits of designs. Planning of experiments choice of design, economic considerations, treatment design experimental design. Determination of optimum plotblock size and shape. STA408: Robust Methods and Nonparametrics Distribution-free methods permutation theory. Robust estimation influence functions. Semi-empirical inference, Monte-Carlo methods, simulation models Jacknife and bootstrapping. Robust regression. Pre-requisites: STA403, STA405 STA409: Applied Time Series Analysis II Probability models for time series, stationary processes, the autocorrelation function pure random process, MA and AR processes mixed models, integrated models the general linear process, continuous processes. Model identification and estimation, estimating the autocovariance and autocorrelation functions fitting AR and MA processes estimating the parameters of mixed and integrated models the Box-Jenkins seasonal model residual analysis. Forecasting, univariate and multivariate procedure prediction theory. Spectral theory, the spectral density function Fourier analysis and harmonic decompositions periodogram analysis spectral analysis, effects of linear filters estimation of spectra confidence intervals for the spectrum. STA410: Sample Survey Theory and Methods II The history of survey sampling. Techniques of sample design: multiphase designs selection with probability proportional to size (PPS) general aspects of replicated and successive sampling panel design model based sampling. Bias and nonresponse: sources of survey errors, non-coverage, nonresponse. African household survey capability program: scope, types of surveys undertaken, sampling techniques used, issues and problems. Use of appropriate software to calculate standard errors. STA419: Statistical Inference II Elements of Statistical decision theory. Bayesian methods: prior and posterior distribution. Bayesian estimation. properties of Bayes estimators, one-parameter and multiparameter models, hierarchical models, predictive checking and sensitivity analysis. Simulation of probability distributions. Nonparametric inference: Order statistics, empirical distribution functions, ranks and runs confidence intervals. Linear rank tests. Measures and tests of association analysis of contingency tables. Efficiency of nonparametric procedures. Pre-requisite . STA318 Note: STA419 Must not be taken with STA402 andor STA403 STA 420: Project in Statistics The project is undertaken during the second semester in the fourth year of study and is equivalent to one course unit. A satisfactory report must be completed, marked by both the students supervisor(s) and the external examiner, and presented in a final oral examination. The project shall be graded independently out of a maximum of 100 marks distributed as follows: 70 for project report and 30 for oral presentation. STA 421: Operations Research III Dynamic programming and heuristics. Project scheduling probability and cost considerations in project scheduling project control. Critical path analysis. Reliability problems replacement and maintenance costs discounting group replacement, renewal process formulation, application of dynamic programming. Queuing theory in practice: obstacles in modelling queuing systems, data gathering and testing, queuing decision models, case studies. Game theory, matrix games minimax strategies, saddle points, mixed strategies, solution of a game. Behavioural decision theory, descriptive models of human decision making the use of decision analysis in practice. STA422: Stochastic Models For Social Processes The statistical analysis for labour turnover Markov chains and renewal models for manpower forecasting and control career prospects, demand forecasting. Models for size and duration, open and closed Markov models for social and occupational mobility, models for the diffusion of news and rumours and competition for social groups. Criteria for establishing priorities in planning in advanced and developing countries. Methods for forecasting the demand for education and the demand and supply of teachers. Methods of forecasting manpower requirement. Computable models for the education system. STA423: Stochastic Models for Biological Processes Basic laws of genetics mutation, inherited defects in man, their persistence and geographical variation genetic counselling measures of relationship and identity effects of inbreeding genetic linkage Markov models in population genetics. Recovery, relapse, and death due to disease cell survival after irradiation compartmental analysis. Epidemic models, deterministic and stochastic versions models for the control of infectious diseases models for the management of insect pest populations. Leslie matrix models, application in management of natural resources. STA424: Statistical Methods for Industrial Processes Tolerance limits process control. R, p and c charts, their construction and use cusum charts, V-mask and decision interval procedures and their properties. Acceptance sampling for attributes and variables operating characteristic curve and average run length single, double, sequential plans choice in light of producers and consumers risks and by decision theory approach. Models of systems running in time. Stock control models. Reliability problems. STA425: Statistical Demography Simple models of population growth analysis of mortality using life tables model life tables continuous and multiple decrement formulations statistical properties of life table estimators proportional hazards and multistate life tables. Stable and stationary populations and their use for estimation of demographic parameters continuous formulation of population dynamics equation solutions of renewal equation. Discrete formulation of population projections. Parity progression ratios. Mathematical models for fertility and mortality schedules. Quantitative models of nuptiality models of reproductivity and measurement of fecundability. Analytic and simulation approaches to reproductivity and household structure. Sources of demographic data. Pre-requisite . SMA106, SMA208, STA221 STA426: Applied Population Analysis This course is intended to deal with the use of demographic concepts and techniques in social, economic, and medical planning and research. Examples of topics to be dealt with include: The use of population projections at national level studies of provision of places in higher education the momentum of population growth in developing countries the application of regional and local projections in planning housing, schooling etc manpower planning household and family structure and composition impact of contraception and abortion on fertility the use of survey data in assessing family planning programmes womens participation in labour force the impact of breast feeding on fertility and infant mortality inputs to planning of primary health care occupational mortality unemployment and mortality. STA428: Applied Demography Collection of demographic data: Historical development of demographic statistics stages involved in planning a census content of census and survey schedules basic response errors structure of census organisations vital registration, types of demographic sample survey the World Fertility Survey Programme. Demographic sampling and survey design: Applications of principles of statistical sampling to demographic surveys types of demographic sample survey designs questionnaire and schedule design. Evaluation of family planning programmes: Aims of programmes methods of evaluation evaluation of programmes demographic impact, methods of analysis case studies. Report Writing on analysis of demographic data: Evaluation of data analysis and checking for consistency and convergence of parameters interpretations of findings implications for planning and policy formulation conclusions. STA429: Econometric Models I Sources of data, national accounts, price indices. Econometrics methods and applications aggregated and desegregated models models of the national economy, models of sectors. The linear model: multiple regression, t - and F-tests, dummy variables, multicollinearity, general linear restrictions, dynamic models. Time series autoregressive models, seasonal adjustment, generalised least squares, serial correlation, heteroscedasticity, distributed lags, simultaneous equation systems, instrumental variables and two-stage least squares. General linear model, model specification, autocorrelation in linear models. Pre-requisites: STA221, STA302 STA430: Econometric Models II Structural and reduced forms, lagged endogenous variables identifiability, global and local identifiablility, multicollinearity estimation of simultaneous equation systems, subsystems, and single equations types of estimators, their asymptotic properties hypothesis testing, types of tests and their asymptotic properties, testing over-identifying constraints testing for misspecification. STA432: Applied Econometrics Econometric model building and testing probit and tobit analysis use of econometric concepts and techniques in economic and development planning and research models for plan preparation at the enterprise and national levels derivation and use of shadow prices in development planning and project scheduling demand analysis labour market behaviour models of unemployment econometric analysis of inflation monetarist models rational expectations and the natural rate hypotheses models of consumer and investment behaviour use of the standard computer packages in econometrics including practical exercises case studies. STA434: Survey Research Methods This course is intended to deal with the practical issues in the planning, design, execution and management of sample surveys. The course work will consist of several assignments of practical problems. Course Outline: Problems of measurement and scaling attitude measurement study design methods of data collection interviewing techniques questionnaire design response errors structure of interviewer effects problems of and procedures for compensation for non-response. STA435: Biometrics Methods I Biological assay: direct and indirect assays dilution assays dose response relationships parallel line and slope ratio assays multiple assays assays based on quantal responses. Agricultural trials crop weather modelling plot sampling techniques lay out of field experiments combining analyses over sites and seasons planning future experiments. Sampling and estimating biological populations. Longitudinal data analysis: Design considerations exploring longitudinal data generalised linear models for longitudinal data. Pre-requisites: STA302, STA307 STA 436: Biometrics Methods II Clinical trials: protocal design parallel studies cross over designs drop outs and protocal violators repeated measurements multi-centre trials sequential methods. Epidemiological studies: descriptive epidemiology investigative epidemiology causation, case control and cohort studies outbreak investigations community diagnosis sources of bias in epidemiological studies. STA437: Survival Analysis Survival function hazard function cumulative hazard function censoring Kaplan-Meier survival curve parametric and nonparametric representation of the survival and hazard distributions. Two-sample and k-sample tests proportional hazard models accelerated failure time models models for grouped survival data inclusion of covariates - Coxs P. H model applications of model checking competing risks - extensions of Coxs model. Frailty models. Pre-requisites: STA304, STA403.odels II STA432 Applied Econometrics STA434 Survey Research Methods STA435 Biometrics Methods I STA436 Biometrics Methods II STA437 Survival Analysis The complete course requires 8 semesters each of 15 weeks. Flexible registration rules allow students to control their own pace of progress through the programme. The minimum number of units a student may take in one semester is three. The total number of units required in the course is 44. A candidate may be exempted from some course units and credit transferred from approved institutions, subject to the following conditions. (i)Request for exemption should be made in writing, on admission, addressed to the Dean of the Faculty of Science and must be accompanied by officially endorsed supporting documents including the institutions syllabuses for the relevant courses. (ii)Satisfactory performance in applicable examinations in the relevant courses. (iii)Payment of appropriate exemption fees. (iv) No candidate shall be exempted from more than one third of the total number of units required in the course. (v)A candidate may be required to sit and pass applicable University of Nairobi examinations in the relevant course units, provided they have paid the appropriate examinations fees. This is a distinctive feature of the training programme. It consists of a series of practical exercises for each of which students write a report and take part in a class discussion All applicants should hold one of the following minimum qualification or equivalent: (i)Mean grade C at KCSE plus at least grade B in Mathematics. (ii) Diploma in Statistics (iii) Diploma in Computer Studies (iv) Diploma in Education, with mathematics as a major subject. (v) A-level: 2 Principal passes in mathsphysics, mathschem. mathsgeog, mathsecon. (vi) A degree in a mathematical subject from a recognised university. The subject of statistical science is concerned with the application of probability and modern mathematical methods to solve complex and practical problems which involve uncertainty. These uncertainties are usually associated with scientific, technological, economic, biological or environmental problems. The methodology employed draws upon mathematics and probability to establish a theoretical foundation, computing resources for handling data, and an understanding of the scientific method for meaningful application. The B. Sc. course is designed to provide broad education in the basic theory and methods of statistics, that would enable the student to apply the knowledge acquired to a wide range of practical problems in research, industry, economic and social development, agriculture and medical research, etc. The programme provides for four main areas of specialisation: Mathematical Statistics, Economic Statistics, Demography and Social Statistics, and Biometry People trained in Statistical science work in research teams performing such tasks as: Design of survey programmes Econometric modelling of development plans Epidemiological investigations of disease Clinical trials of newly developed drugs Field trials of new crop varieties Surveys of adoption of novel farming methods Modelling in population and quantitative genetics To succeed, statisticians must have a definite competence in mathematics. Mathematical ability is not the sole criterion for success. Statisticians must be able to communicate effectively with investigators untrained in statistical science. The teaching is organised via a combination of lectures, compulsory reading, laboratories and homework. Class attendance is required. Courses are taught in English. Examinations are held at the end of every semester Exploratory Data Analysis Description. Data, grouping data, graphs and charts, standard leaf diagrams, Box and Whisker diagrams. Variables and their frequency distributions, summary measures. The comparison problem - an exploratory view. An exploratory look at association. The staircase and the short cut to inference. Distributions and their troubles. Kinds of nonnormality and robustness. The role of vague concepts. Indication, determination or inference. Indication and indicators. Data analysis and computer graphics. Graphs on determination and inference. Methods of assessing real uncertainty, Bayesian ideas, empirical priors, Bayes theorem. Prior information for normal data binomial data and beta priors Poisson data and gamma priors. Binomial probability paper the normal probability paper. Pre-requisite: STA10 Programming Methodology Description. Principles of computer organisation. Information storage. Bits, bytes, words, ordinary and floating point representation of numbers. Character codes. Structured programming using high level language e. g. Pascal. FORTRAN, C programme structure. Abstract data types. Mathematical expressions and operations. Logical expressions and operations. Control structures. Functions. Procedures. Report and display design, library procedures. Types of problems computers can solve. General structure of installation mainframe versus stand alone micro computers: networking operating systems, compiler systems and utilities. Co-requisite: SMA 101 Probability And Statistics I Description. Particular distributions: Bernoulli, binomial, Poisson, geometric, hypergeometric, uniform, exponential and normal random variables and their distributions. Bivariate frequency distributions. Joint probability tables and marginal probabilities. Moments and moment generating function. Markov and Chebychev inequalities. Special univariate distributions. Bivariate probability distributions joint marginal and conditional distributions Independence Bivariate expectation Regression and Correlation Calculation of regression and correlation coefficients for bivariate data. Pre-requisite: STA101. Economic And Social Science Description. Economic Statistics: Gross domestic product, index numbers, retail price index, consumer price index, product index balance of payments and trade statistics. Demography: Scope, uses and sources of demographic and socio-economic data methods of enumeration demographic concepts and measures current and cohort methods of description and analysis rates and ratios standardisation construction of life tables. Measurement of fertility, mortality and nuptiality. Determinants of age structure and the intrinsic growth rate. Survey data interpretation of demographic statistics, tests of consistency and reliability. Social Statistics: Nature of social statistics sources of social statistics conceptual problems validity and reliability concepts definition and classification. Measurement problems in social surveys socio-economic indicators. Studies in the integration of social statistics. History of Statistics development in Kenya. Sources and methods in official statistics in Kenya. Operations Research I Description. Linear programming: Formulation of LP problems. The simplex algorithms duality theory and economic interpretations. Post optimality (sensitivity) analysis. Introduction to transportation and assignment problems. Survey of continuous optimisation problems. Unconstrained optimisation problems and methods of solution. Introduction to constrained optimisation. Integer programming methods of integer programming. Computational Methods And Data Analysis Ii Description. Numerical solution of linear systems numerical evaluation of eigenvalues and eigenvectors. Numerical integration and differentiation. Data structures, arrays and their implementation, strings application and implementation of stacks, queues, linked lists, trees and graphs: Survey application, questionnaire design data processing, data editing and correction editing and imputation principles writing of edit specification, use of an edit specification, use of an edit package. Tabulation, table design, writing of a table specification use of a tabulation package. Writing programs to implement numerical algorithms. Application of numerical analysis software package such as NAG. Simulation: random and pseudo random numbers generation of uniform variates outline of tests, mention of physical devices for uniform generators generation of variates from standard distributions e. g. normal, exponential etc. Pre-requisites: STA122, STA201 Principles Of Statistical Inference Description. Meaning of statistics, objectives of statistical investigation. Statistical decision problems, basic concepts of inference. Role of normal distribution in statistics. Random samples, use of random number tables. Inference about population means: point and interval estimates, simple one sample and two sample tests. Linear regression and correlation analysis. Analysis of variance. Analysis of frequency data. Simple nonparametric tests. Probability And Statistics Ii Description. Distribution functions of random variables bivariate normal distribution. Derived distributions such as chi-square, t and F. Statistical independence. Random samples. Multinomial distributions. Functions of several random variables. The independence of and S 2 in normal samples. Order statistics. Convergence and limit theorems. Pre-requisite: STA201 Theory Of Estimation Description. Properties of point estimators. Sufficient statistics, the factorisation criterion complete statistics. Minimum variance unbiased estimators Cramer-Rao inequality Fisher information efficient estimators. Maximum likelihood estimators and their properties. Interval estimation. Least squares estimation in linear models: simple linear model, the general linear model weighted least squares interval estimation in linear models. Pre-requisite:STA201 Probability Modelling Description. Stochastic processes, definition and examples. Bernoulli process: probability model, waiting times. Markov chains: discrete time Markov chains, holding times, stationary distributions, classification of states. Birth and death processes, stationary distributions. Queuing models: deterministic approximations, examples of queuing systems, application to arrival and departure processes, heavy traffic etc. Pre-requisite: STA201, Co-requisite: STA301 Analysis Of Experimental Designs I Description. General principles: randomisation, replication, blocking, covariates, orthogonality, balance, logical control or error, sequential design. Estimation of treatment contrasts and their precision, treatment structure comparison with a control. Some common designs: completely randomised design, randomised complete block design, rationale for blocking latin squares, rationale, randomisation, analysis relative merits of designs. Introduction to factorial experiments: 2 2 and 2 3 designs calculation and interpretation of effects and interactions. Incomplete block design, optimality criteria. Crossed and nested block structures. Operations Research Ii Description. Aims and scope of stochastic modelling. Decisions under risk, decision trees, decisions under uncertainty. Markov decision processes, dynamic programming models linear programming solution of the Markovian decision problem. Queuing models, types of queues roles of Poisson and exponential probability models queues with combined arrivals and departures queues with priorities of service. Traffic flow models. Inventory models, practical stock systems types of inventory scheduling policies storage models. Simulation models, roles of random numbers simulation experiments Monte Carlo calculus and variance reduction techniques, simulation as estimation, control variates, antithetic variates, stratified and importance sampling choice of sampling size. Analogue simulation systems e. g. queues, inventories, traffic networks, storage systems. Computational Methods And Data Analysis Iii Description. Application of statistical packages (e. g. GLIM, SPSS, SPLUS, GENSTAT, etc) in statistical data analysis. Simulation of simple deterministic and stochastic systems simulation of inventory and stock control systems, queuing systems, traffic networks etc. Polynomial interpolation, spline approximation, solution of ordinary differential equations. Stability and efficiency concepts. Monte Carlo methods. Management information systems management of information systems. File systems and database systems database design. Project management and implementation use of computer development tools, Case studies. Report writing, presentations. Data communication and networks, applications case studies. Measure, Probabilty And Integration Description. Measure and integration: Measurable functions, measures, measure space integration, monotone convergence theorem, Fatous lemma convergence theorems Radon Nikodym theorem Lebesgue decomposition. Probability Theory: Probability as a measure probability space random variables distribution functions and characteristic functions. Sums of random variables, independence. Modes of convergence of sequences of random variables. Borel-Canteli lemmas and the zero-one laws, laws of large numbers and central limit theorem. Linear Modelling Ii Description. Analysis of the general linear model: model building, model selection and validation, variable selection stepwise and best subset regression. Introduction to response surface methodology. Modelling under prior and additional information, ridge regression. Modelling of nonnormal data. Treatment of outliers in regression models. Robustness, graphical techniques. Generalised linear models, measurement of association in two-way tables log-linear and other models for contingency tables logit, probit, categorical data, score tests, case studies. Analysis Of Experimental Designs Ii Description. Review of experimental and statistical objectives. General 2 n design, confounding of one or more effects, partial confounding: fractional replication block compositions. Factors at 3 levels 3 2 and 3 3 experiments with and without confounding, estimation of effects. Split plot designs. Incomplete block designs: nature and need for incomplete blocks types of designs, balanced designs, balanced incomplete block design, intra and inter block analysis partially balanced incomplete blocks-two associate classes only. Youden squares lattice designs relative merits of designs. Planning of experiments choice of design, economic considerations, treatment design experimental design. Determination of optimum plotblock size and shape. Pre-requisite: STA307 Applied Time Series Analysis Ii Description. Probability models for time series, stationary processes, the autocorrelation function pure random process, MA and AR processes mixed models, integrated models the general linear process, continuous processes. Model identification and estimation, estimating the autocovariance and autocorrelation functions fitting AR and MA processes estimating the parameters of mixed and integrated models the Box-Jenkins seasonal model residual analysis. Forecasting, univariate and multivariate procedure prediction theory. Spectral theory, the spectral density function Fourier analysis and harmonic decompositions periodogram analysis spectral analysis, effects of linear filters estimation of spectra confidence intervals for the spectrum.

No comments:

Post a Comment