【第5弾】SARIMAで時系列分析に挑戦【SARIMAモデルの構築】 - 楽しんで学習するITエンジニアの備忘録ブログ

7月14日(水)過ぎには晴天の毎日が続き、

清々しい日々を送ることができそうだ。

でもどんな日であったとしても、

SARIMAを利用して、時系列データ分析に挑戦中であることは変わらない。

前回までで、SARIMAで利用するパラメータ推定が完了したので、

実際にSARIMAモデルの構築を行っていきたい。

さあ、今日も１ミリでも前へ。

自分史上最幸の一日を目指していきたいと思います。

■■■■■■■■■■■■■■■■■■■■■■■■

■■■時系列データは、月別の牛乳生産量■■■

■■■■■■■■■■■■■■■■■■■■■■■■

1962年1月から1975年12月までの約14年間で、レコード数は168行。

当然ですが、データは前回と同じどすえ～。

f:id:takanarukodou2:20210706182147p:plain

　　　　　　　　　　図１．月別牛乳生産量の推移（1カ月単位）

■■■■■■■■■■■■■■■■■■■■■■■■

■■■■推定されたパラメータの振り返り■■■

■■■■■■■■■■■■■■■■■■■■■■■■

「Best model: ARIMA(1,1,0)(0,1,1)[12] intercept」

　ARIMA(p,d,q)(P,D,Q)[M]と照らし合わせることで、それぞれの値が明確になった。

※pとは、過去データをどの位利用するか。2の場合、時点tの予測に時点t-1と時点t-2を利用。【NoSeason】

※qとは、過去の予測と観測値の違い(残差)のデータをどの程度利用するか。【NoSeason】

※dとは、時点tと時点t+nの差を計算する時のnを指す。【NoSeason】

※Pとは、過去データをどの位利用するか。2の場合、時点tの予測に時点t-1と時点t-2を利用。【Season】

※Qとは、過去の予測と観測値の違い(残差)のデータをどの程度利用するか。【Season】

※Dとは、時点tと時点t+nの差を計算する時のnを指す。【Season】

※p,d,qは、p次ARモデル、d階差分系列、q次MAモデルを表す。

■■■■■■■■■■■■■■■■■■■■■■■■

■■■■■SARIMAモデルの構築■■■■■■■

■■■■■■■■■■■■■■■■■■■■■■■■

model = SARIMAX(train['Production'],order=(1,1,0),seasonal_order=(0,1,1,12))

results = model.fit()
results.summary()

上記を実行した結果、下記となった。

・・・統計の知識が不足しているせいか、実に難解だ。

まずは、これを読み解きたい。

Statespace Model Results

**状態空間モデルの結果**
Dep. Variable: 変数	Production	No. Observations: トレーニングデータ数	142
Model: モデル	SARIMAX(1, 1, 0)x(0, 1, 1, 12)	Log Likelihood 対数尤度	-445.603
Date: 実行年月日	Fri, 09 Jul 2021	AIC 赤池情報量規準	897.205
Time: 実行時分秒	13:43:57	BIC ベイズ情報量規準	905.785
Sample: データの範囲	01-01-1962- 10-01-1973	HQIC ？？？	900.691
Covariance Type: 共分散タイプ？	opg ※outer product of gradients

AICとBIC？情報量基準とは？ – Miidas Research

※AICは、モデルの当てはまり度を表す。値が小さい程当てはまりが良い。

※BICは、多くの項目を含むとペナルティを課す。

※情報量規準が小さいモデルを選ぶとよい。

◆重みのP値は0.05よりも低いため、モデルにすべての係数を保持する

	coef 係数	std err 標準偏差	z z値	P>\|z\| P値	[0.025 95%	0.975] 信頼区間
ar.L1 AR変数 (1個の時間ステップ遅れ？)	-0.2728	0.087	-3.149	0.002	-0.443	-0.103
ma.S.L12 MA変数 (12個の時間ステップ遅れ？)	-0.6158	0.086	-7.163	0.000	-0.784	-0.447
sigma2 分散？	56.0243	5.765	9.719	0.000	44.726	67.323

回帰分析のサマリの読み方 | CrossKnowledge (parallelcareerlab.com)

Python 3のARIMAを使用した時系列予測のガイド (codeflow.site)

Time Series Forecasting Using a Seasonal ARIMA Model: A Python Tutorial (techrando.com)

※標準偏差：係数の推定値の標準誤差。小さい値ほど精度が高い。

※P値：各係数の値が0である帰無仮説を検定した確率。5%以下であれば係数0以外と言えるか？

※z値：（目標値－平均値）／標準偏差。30を超える場合はz検定。分布は正規分布。値が大きい程意味がある説明変数であることを示している。

※95%信頼区間：信頼区間を100回求めた場合、100回の内95回は信頼区間の範囲の中に真の値が含まれる。

※ar.L1やma.L1は、1タイムステップ遅れる。

※ar.S.L12やma.S.L12は、12タイムステップ遅れる。

Ljung-Box (Q): リュングボックス検定	24.06	Jarque-Bera (JB): ジャグラーベラ検定	40.04
Prob(Q): 0.98と高いので、ランダムで独立しているということか？	0.98	Prob(JB): 0.00と低いので尖度と歪度を有していないということか？	0.00
Heteroskedasticity (H): 分散不均一性検定	1.12	Skew: 歪度	0.86 左に偏っている
Prob(H) (two-sided): 0.71と高めなので不均一ということか？	0.71	Kurtosis: 尖度	5.12 鋭いピークと長く太い裾

Ljung-Box (Q):

リュングボックス検定

24.06

Jarque-Bera (JB):

ジャグラーベラ検定

40.04

Prob(Q):

0.98と高いので、

ランダムで

独立しているということか？

0.98

Prob(JB):