Scikit-learnのRidgeクラス徹底解説！Pythonで過学習に強い線形回帰を実装する方法

Pythonのscikit-learnを使って線形回帰モデルを構築した際、「学習データでは精度が高いのに、未知のデータでは全く予測が当たらない」という壁にぶつかったことはありませんか？

それは、モデルが学習データに過剰に適合してしまう**「過学習」**が原因かもしれません。

この記事では、その過学習を効果的に抑制するための強力な武器、scikit-learnの**Ridgeクラス**について徹底的に解説します。

この記事を読み終える頃には、あなたは以下のスキルを習得しています。

Ridge回帰が過学習を防ぐ仕組み（L2正則化）を理解できる
Ridgeクラスの基本的な使い方（学習、予測、評価）をマスターできる
モデルの性能を左右する重要パラメータalphaの調整方法がわかる
RidgeCVを使って最適なモデルを効率的に構築できるようになる

さあ、Ridgeクラスを使いこなし、より汎化性能の高い予測モデルを構築する第一歩を踏み出しましょう。

はじめに：線形回帰の「過学習」をRidgeで解決しよう
Ridge回帰の心臓部「L2正則化」とは？
基本的な使い方：Ridgeクラスでモデルを構築する
Ridgeクラスの重要パラメータalphaを理解する
実践的なalphaの探索：RidgeCVクラスの活用
まとめ：Ridgeクラスを使いこなし、モデルの汎化性能を高めよう

はじめに：線形回帰の「過学習」をRidgeで解決しよう

まず結論から。Ridgeクラスは、通常の線形回帰に「正則化」という機能を加えることで、過学習を抑制したモデルを構築するためのクラスです。

通常の線形回帰（LinearRegressionクラス）は、学習データとの誤差を最小化することだけを目標に学習します。そのため、データにノイズが多かったり、特徴量が多すぎたりすると、そのノイズまで学習しようとしてしまい、非常に複雑で極端な係数を持つモデルが出来上がってしまいます。これが過学習です。

Ridgeクラスは、この「係数が極端に大きくなる」ことをペナルティによって防ぎます。これにより、モデルをよりシンプルで滑らかな状態に保ち、未知のデータに対する予測性能（汎化性能）を高めることができるのです。

Ridge回帰の心臓部「L2正則化」とは？

Ridge回帰が過学習を防ぐ仕組みは**「L2正則化」**と呼ばれます。

これは、モデルを評価する際の指標（損失関数）に、**「すべての係数（重み）の二乗和」**というペナルティ項を追加する技術です。

少し難しく聞こえますが、イメージとしては**「モデルの複雑さに対する罰金」**のようなものです。

モデルは学習時、予測誤差を小さくしようとする（本来の目的）
同時に、係数の二乗和（罰金）も小さくしようとする
結果として、係数が極端に大きくなることを避け、全体的にバランスの取れた小さな値に落ち着く

この「罰金の厳しさ」をコントロールするのが、Ridgeクラスの最も重要なパラメータである**alpha**です。alphaが大きいほど罰金が厳しくなり、係数はより強く0に引き寄せられます。

基本的な使い方：Ridgeクラスでモデルを構築する

それでは、実際にコードを見ながらRidgeクラスの使い方を学びましょう。LinearRegressionを使ったことがある方なら、驚くほど簡単だと感じるはずです。

必要なライブラリのインポートとデータ準備

まずは、必要なモジュールをインポートし、訓練用とテスト用のデータを準備します。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import mean_squared_error

# サンプルデータを生成
X, y = make_regression(
    n_samples=100,
    n_features=50,
    n_informative=15, # 予測に意味のある特徴量
    noise=25,       # ノイズの量
    random_state=42
)

# 訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

Ridgeインスタンスの作成とfitメソッドによる学習

Ridgeクラスをインスタンス化し、fitメソッドに訓練データを渡してモデルを学習させます。このとき、パラメータalphaを指定します。

# Ridgeクラスのインスタンスを作成 (alpha=1.0)
# alphaは正則化の強さを決めるパラメータ
ridge_model = Ridge(alpha=1.0)

# モデルを学習させる
ridge_model.fit(X_train, y_train)

たったこれだけで学習は完了です。

predictメソッドでの予測とscoreメソッドでの評価

学習済みモデルを使って、新しいデータ（テストデータ）に対する予測を行うにはpredictメソッドを使います。また、モデルの精度（決定係数 R2）を評価するにはscoreメソッドが便利です。

# テストデータを使って予測
y_pred = ridge_model.predict(X_test)

# scoreメソッドで決定係数を評価
score = ridge_model.score(X_test, y_test)
print(f"モデルのスコア (決定係数 R^2): {score:.4f}")

# 平均二乗誤差でも評価してみる
mse = mean_squared_error(y_test, y_pred)
print(f"平均二乗誤差 (MSE): {mse:.2f}")

通常の線形回帰（LinearRegression）との比較

Ridgeの効果を実感するために、同じデータでLinearRegressionも学習させて結果を比較してみましょう。

# 比較用のLinearRegressionモデル
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

# 評価
lr_score = lr_model.score(X_test, y_test)
lr_mse = mean_squared_error(y_test, lr_model.predict(X_test))

print(f"--- 比較 ---")
print(f"LinearRegression: Score={lr_score:.4f}, MSE={lr_mse:.2f}")
print(f"Ridge (alpha=1.0): Score={score:.4f}, MSE={mse:.2f}")

多くの場合、Ridgeを使ったモデルの方がスコアが高く（1に近い）、MSEが低くなるはずです。これが過学習を抑制した効果です。

Ridgeクラスの重要パラメータalphaを理解する

alphaはRidge回帰の性能を決定づける最も重要なパラメータです。この値を変えることで、モデルの係数がどのように変化するかを見てみましょう。

# 複数のalphaでモデルを作成し、係数を比較する
alphas = [0.01, 1.0, 100.0]
coefs = []

for a in alphas:
    model = Ridge(alpha=a)
    model.fit(X_train, y_train)
    coefs.append(model.coef_)

# グラフで可視化
plt.figure(figsize=(10, 6))
ax = plt.gca()
ax.plot(coefs[0], 'o', label='alpha=0.01')
ax.plot(coefs[1], '^', label='alpha=1.0')
ax.plot(coefs[2], 'v', label='alpha=100.0')
plt.xlabel('Coefficient index')
plt.ylabel('Coefficient magnitude')
plt.title('Ridge coefficients as a function of the regularization')
plt.legend()
plt.show()

このグラフから、**alphaが大きくなるほど、すべての係数が0に向かって縮小していく（ペナルティが強くなる）**様子がはっきりと分かります。最適なalphaを見つけることが、良いモデルを作る鍵となります。

実践的なalphaの探索：RidgeCVクラスの活用

最適なalphaをどうやって見つければよいのでしょうか。手動で色々な値を試すのは非効率です。

そこで登場するのがRidgeCVクラスです。CVはクロスバリデーション（Cross-Validation）の略で、複数のalpha候補の中から、モデルの汎化性能が最も高くなるものを自動で探索してくれます。

使い方はRidgeとほぼ同じです。alphas引数に試したいalphaの候補をリストで渡すだけです。

from sklearn.linear_model import RidgeCV

# 試したいalphaの候補 (対数スケールで設定するのが一般的)
alpha_candidates = np.logspace(-2, 2, 50) # 0.01から100まで50個

# RidgeCVのインスタンスを作成
ridge_cv_model = RidgeCV(alphas=alpha_candidates, store_cv_values=True)

# モデルを学習（最適なalphaの探索が自動で行われる）
ridge_cv_model.fit(X_train, y_train)

# 見つかった最適なalpha
print(f"最適なalpha: {ridge_cv_model.alpha_:.4f}")

# 最適なモデルでのスコア
best_score = ridge_cv_model.score(X_test, y_test)
print(f"RidgeCVモデルのスコア: {best_score:.4f}")

fitを実行するだけで、交差検証を通じて最適なalphaが選ばれ、そのalphaを使ってモデル全体が再学習されます。.alpha_属性で最適な値を確認できます。