PythonのScikit-learnを使ってクラスタリングを試す中で、「DBSCANのパラメータepsの調整が難しすぎる…」「データの密度が場所によって全然違うから、うまくクラスタが作れない」といった壁にぶつかった経験はありませんか?
機械学習、特に教師なし学習のクラスタリングは、データに隠された構造を見つけ出す強力な手法ですが、アルゴリズムの特性を理解し、適切に使いこなす必要があります。
この記事では、そんなあなたの悩みを解決するため、Scikit-learnに搭載されているOPTICSアルゴリズムの使い方を、これ以上ないほど徹底的に解説します。
はじめに:この記事を読めばOPTICSの実装方法が全てわかる
この記事は、単にOPTICSのコードを紹介するだけではありません。理論的な背景から、実践的なパラメータ調整のコツ、そして結果を深く理解するための可視化手法まで、あなたがOPTICSをマスターするために必要な知識を一つの記事に凝縮しました。
OPTICSは「密度の異なるクラスタ」を扱うための強力なツール
OPTICS(Ordering Points To Identify the Clustering Structure)は、有名な密度ベースクラスタリングアルゴリズムであるDBSCANの進化版です。
その最大の特徴は、密な部分と疎な部分が混在するような、現実世界のデータにありがちな「密度の異なるクラスタ」を非常にうまく扱える点にあります。DBSCANが苦手としていたこの課題を克服するために設計されており、より柔軟でロバストな分析を可能にします。
この記事で学べる3つのこと:実装、パラメータ、可視化
この記事を最後まで読み終える頃には、あなたは以下の3つのスキルを習得しているはずです。
- 【実装】 Scikit-learnを使い、OPTICSクラスタリングを実行する一連のコードを理解し、書けるようになる。
- 【パラメータ】
min_samplesやxiといったOPTICSの重要パラメータの意味を深く理解し、データに合わせて調整する勘所がわかる。 - 【可視化】 OPTICSの結果をリーチビリティプロットや散布図で可視化し、データからより多くの洞察を引き出す方法を学べる。
さあ、OPTICSの世界へ踏み出し、あなたのデータ分析スキルを一段階レベルアップさせましょう!
なぜDBSCANではなくOPTICSなのか?
OPTICSを学ぶ前に、多くの人が最初に触れるであろうDBSCANとの違いを明確にしておくことが、その価値を理解する上で非常に重要です。
DBSCANが抱えるepsパラメータの問題点
DBSCANは、**eps(epsilon)**という単一の半径(距離の閾値)を用いて、データポイントの「近傍」を定義します。このepsの値によって、クラスタリングの結果が劇的に変わるため、非常に繊細な調整が求められます。
ここに、高密度なクラスタと低密度なクラスタが混在するデータセットがあると想像してください。
- もし
epsを小さく設定すれば、高密度なクラスタは正しく検出できるかもしれません。しかし、低密度なクラスタの点同士はepsの範囲内に入らず、すべてノイズとして扱われてしまうでしょう。 - 逆に
epsを大きく設定すれば、低密度なクラスタを捉えられるようになりますが、今度は高密度なクラスタが他のクラスタと融合してしまい、一つの巨大なクラスタとして誤って認識される可能性があります。
このように、単一のepsではデータセット全体の多様な密度構造に対応するのが原理的に難しいのです。
OPTICSが提供する柔軟なクラスタリング
OPTICSは、このeps問題を根本的に解決します。
OPTICSは特定のeps値を要求しません。その代わりに、全てのデータポイントに対して、それがどれだけ密な領域にあるかを示す指標(コア距離)と、近傍の点に「到達」するのに必要な距離(到達可能性距離)を計算します。
この計算結果をもとに、データポイントを「密な領域から順に訪れていく」ような特別な順番に並べ替えます。この順序付けられたデータと到達可能性距離をプロット(リーチビリティプロット)することで、データの密度構造が階層的に可視化されます。
これにより、分析者は様々な密度のクラスタを一度に特定し、どこでクラスタを分割するかを後から柔軟に決めることができるのです。これが、OPTICSがDBSCANよりも優れている決定的なポイントです。
ステップ・バイ・ステップで学ぶ!OPTICSの基本的な使い方
それでは、いよいよPythonとScikit-learnを使ってOPTICSを動かしてみましょう。以下の4つのステップに沿って進めれば、誰でも簡単に実装できます。
このコードはscikit-learnバージョン1.0以降での動作を想定しています。
Step 1: 必要なライブラリのインストールとインポート
まずは、分析に必要なライブラリを準備します。scikit-learnとmatplotlibがインストールされていない場合は、ターミナルやコマンドプロンプトでインストールしてください。
pip install scikit-learn matplotlib numpyインストールが終わったら、Pythonスクリプトに必要なモジュールをインポートします。
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import OPTICS
from sklearn.datasets import make_blobs
print("ライブラリのインポートが完了しました。")Step 2: 分析用のサンプルデータを作成する
OPTICSの強みを実感するために、make_blobs関数を使って意図的に密度の異なる3つのクラスタを持つデータセットを生成します。
# 乱数を固定して、いつでも同じデータが生成されるようにする
np.random.seed(42)
# 3つの異なる中心と密度(標準偏差 cluster_std)を持つクラスタを定義
centers = [[-2, 2], [3, 5], [5, -3]]
cluster_stds = [0.4, 1.2, 0.25]
# make_blobsでデータを生成
X, y = make_blobs(n_samples=500, centers=centers, cluster_std=cluster_stds, random_state=42)
# 生成したデータをプロットして確認
plt.figure(figsize=(10, 7))
plt.scatter(X[:, 0], X[:, 1], s=15, alpha=0.8)
plt.title("Generated Sample Data with Different Densities")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.grid(True)
plt.show()実行すると、左上(中密度)、右上(低密度)、右下(高密度)の3つの点の集まりがプロットされたはずです。このデータにDBSCANを適用するのは、epsの調整が非常に難しいことが想像できるでしょう。
Step 3: OPTICSモデルをインスタンス化し学習させる
いよいよOPTICSモデルの登場です。OPTICSクラスのインスタンスを作成し、.fit()メソッドで学習させます。ここでは、最も重要なパラメータであるmin_samplesとxiを指定します。(各パラメータの詳細は次の章で解説します)
# OPTICSモデルのインスタンスを作成
# min_samples: 近傍点の最小数。データのスケールや密度に応じて調整する。
# xi: クラスタを分離するための閾値。小さいほど細かく分割される。
optics_model = OPTICS(min_samples=15, xi=0.05, min_cluster_size=0.05)
# モデルをデータに適合させる(クラスタリングの実行)
optics_model.fit(X)
print("OPTICSモデルの学習が完了しました。")Step 4: クラスタリング結果のラベルを取得する
学習が完了すると、各データポイントがどのクラスタに属するかを示すラベルがlabels_属性に格納されます。
# 各データポイントに割り当てられたクラスタラベルを取得
labels = optics_model.labels_
# 検出されたクラスタの数を確認(-1はノイズを表すため除外)
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
# ノイズと判定された点の数を確認
n_noise_ = list(labels).count(-1)
print(f"検出されたクラスタ数: {n_clusters_}")
print(f"ノイズとして分類された点の数: {n_noise_}")
print(f"ユニークなラベル一覧: {np.unique(labels)}")この結果を見ることで、OPTICSがデータをいくつのグループに分け、どれをノイズと判断したかの概要を掴むことができます。
OPTICSを使いこなす鍵!主要パラメータの徹底解説
OPTICSの真価を引き出すには、いくつかの主要なパラメータを理解することが不可欠です。ここでは、特に重要な3つのパラメータと、調整のヒントを詳しく解説します。
min_samples:クラスタの「核」となる密度を定義する
min_samplesは、ある点が密な領域の中心(コアオブジェクト)と見なされるために、その点の近傍に必要なデータポイントの最小数を指定します。 これはDBSCANの同名のパラメータと全く同じ役割です。
- どう影響するか?: この値を大きくすると、より高密度な領域だけがクラスタとして認識されるようになります。その結果、疎な領域の点はノイズと判定されやすくなります。逆に小さすぎると、本来ノイズであるべき点までクラスタの一部として取り込んでしまう可能性があります。
- 設定の目安: 一般的には5〜50程度の値から試すことが多いです。データの次元数が高い場合は、より大きな値を設定することが推奨されます(経験則として
2 * n_featuresなど)。まずはデフォルト値の5や、少し大きめの20あたりで試してみるのが良いでしょう。
xi:クラスタの分離度を調整する最重要パラメータ
xi (クシー) は、OPTICSに特有の最も重要なパラメータです。これは、リーチビリティプロットにおける「谷」の急峻さを検出し、クラスタの境界を決定するための閾値として機能します。
- どう影響するか?:
xiは0から1の間の値をとり、クラスタをどれだけ細かく分割するかを制御します。xiを小さくする(例: 0.01)と、ごくわずかな密度の低下(浅い谷)でもクラスタの境界と見なすようになり、結果としてクラスタは細かく分割されます。xiを大きくする(例: 0.2)と、かなり明確な密度の低下(深い谷)がない限りクラスタを分割しなくなるため、クラスタはより大きく、少なくなります。
- 設定の目安: デフォルトは
0.05です。まずはこの値で試し、後述するリーチビリティプロットを見ながら、クラスタが想定よりも細かすぎるか、あるいは大きすぎるかに応じてこの値を増減させるのが定石です。
min_cluster_size:検出するクラスタの最小規模を指定する
min_cluster_sizeは、その名の通り、一つのクラスタとして認識されるために必要な最小のデータポイント数を指定します。 このサイズに満たない点の集まりは、すべてノイズとして扱われます。
- どう影響するか?:
min_samplesで密な領域を定義した後、さらにこのパラメータで「小さすぎる塊」を除外することができます。これにより、ノイズの除去をより直感的にコントロールできます。 - 設定の目安: 整数で絶対数を指定するか、0から1の浮動小数点数でデータセット全体に対する割合を指定できます。例えば、
min_cluster_size=50とすれば50点未満の塊はノイズに、min_cluster_size=0.1とすれば全データの10%未満の塊はノイズになります。分析の目的(微小な異常クラスタも検出したいか、など)に応じて設定します。
【TIPS】パラメータ調整の考え方と順番
これらのパラメータを効率的に調整するための、おすすめの順番と考え方を紹介します。
min_samplesを最初に決める: まず、データセットの特性やドメイン知識から、「意味のある塊」が最低でも何点くらいで構成されるべきかを考え、min_samplesを設定します。これは大まかな値で構いません。- リーチビリティプロットを可視化する: 次の章で解説するリーチビリティプロットを描画します。この時点では
xiはデフォルトのままでOKです。 - プロットを見ながら
xiを調整する: リーチビリティプロットに現れる「谷」がクラスタに対応します。この谷の切れ目を見ながら、xiの値を調整して、自分のイメージに合うクラスタ分割を探ります。 min_cluster_sizeで仕上げる: 最後に、小さすぎるクラスタがノイズとして扱われるようにmin_cluster_sizeで微調整します。
この流れで進めることで、闇雲にパラメータを試すよりもずっと効率的に最適な設定を見つけることができます。
結果を可視化して分析を深める実践テクニック
OPTICSのクラスタリング結果は、可視化することで初めてその真価を発揮します。ここでは必須の可視化手法を2つ紹介します。
手法1:リーチビリティプロットでデータの階層構造を読み解く
リーチビリティプロットは、OPTICSアルゴリズムの「心臓部」とも言える可視化手法です。横軸はOPTICSによって並べ替えられたデータポイントの順序、縦軸は到達可能性距離(点がどれだけ密な領域にあるか)を表します。
# リーチビリティプロットの描画
reachability = optics_model.reachability_[optics_model.ordering_]
labels = optics_model.labels_[optics_model.ordering_]
plt.figure(figsize=(12, 7))
ax1 = plt.subplot(1, 1, 1)
# 各クラスタごとに色分けしてプロット
colors = ['c.', 'b.', 'r.', 'g.', 'y.', 'm.']
for klass, color in zip(range(0, 5), colors):
Xk = np.arange(len(X))[labels == klass]
Rk = reachability[labels == klass]
ax1.plot(Xk, Rk, color, alpha=0.5)
# ノイズは黒でプロット
Xk_noise = np.arange(len(X))[labels == -1]
Rk_noise = reachability[labels == -1]
ax1.plot(Xk_noise, Rk_noise, 'k.', alpha=0.3)
# グラフの整形
ax1.plot(np.arange(len(X)), np.full_like(reachability, 2., dtype=float), 'k--', alpha=0.5)
ax1.set_ylabel('Reachability Distance')
ax1.set_title('Reachability Plot')
plt.grid(True)
plt.show()このプロットから読み取るべきポイントは以下の通りです。
- 深い谷: 谷になっている部分が、密度の高いクラスタに対応します。谷が深ければ深いほど、そのクラスタの密度が高いことを示します。
- 平坦な谷底: 谷の底が平坦で長く続いているほど、そのクラスタの密度が均一であることを意味します。
- 高い山(ピーク): 山はクラスタ間の境界や、疎な領域(ノイズ)を表します。
このグラフを見ることで、私たちのサンプルデータには明確な3つの谷(クラスタ)が存在することが一目瞭然です。
手法2:散布図でクラスタリング結果を直感的に把握する
最後に、クラスタリング結果を元のデータに色付けしてプロットし、最終的な結果を直感的に確認しましょう。
# クラスタリング結果の散布図による可視化
plt.figure(figsize=(10, 7))
# ユニークなラベルを取得
unique_labels = np.unique(optics_model.labels_)
# 各ラベルに色を割り当てる
colors = [plt.cm.get_cmap('Spectral')(each) for each in np.linspace(0, 1, len(unique_labels))]
for k, col in zip(unique_labels, colors):
if k == -1:
# ノイズは黒色で表示
col = [0, 0, 0, 1]
# 同じクラスタに属するデータポイントをマスク
class_member_mask = (optics_model.labels_ == k)
# マスクを使ってデータポイントをプロット
xy = X[class_member_mask]
plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
markeredgecolor='k', markersize=8, label=f'Cluster {k}')
plt.title(f'OPTICS Clustering Result (Clusters found: {n_clusters_})')
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.legend()
plt.grid(True)
plt.show()この散布図を見れば、密度の異なる3つのクラスタが、それぞれ異なる色で明確に分離されていることがわかります。xiやmin_samplesの値を変更すると、この色分けがどのように変わるかを試してみると、パラメータの働きをより深く理解できるでしょう。
OPTICSはいつ使うべき?得意なことと注意点
OPTICSは万能ではありません。その特性を理解し、適切な場面で使うことが重要です。
OPTICSが真価を発揮するユースケース
以下のような状況で、OPTICSは特に強力な武器となります。
- 密度の異なるクラスタが混在している: これが最も典型的なユースケースです。例えば、ECサイトの顧客セグメンテーションで、頻繁に購入するヘビーユーザー(密)の集団と、たまにしか購入しないライトユーザー(疎)の集団を同時に抽出したい場合など。
- クラスタの形状が複雑で非凸状: DBSCANと同様に、k-meansが苦手とする入り組んだ形状のクラスタを検出できます。
- データの階層構造を探索したい: リーチビリティプロットを使うことで、大きなクラスタの中に、さらに密度の高い部分クラスタが存在するかどうか、といった階層的な関係性を分析したい場合に役立ちます。
大規模データセットを扱う際の計算コストに関する注意
OPTICSの主なデメリットは、計算コストです。アルゴリズムの性質上、データポイント間の距離を広範囲にわたって計算する必要があるため、データサイズが大きくなる(数十万件を超える)と計算にかなりの時間がかかることがあります。
Scikit-learnの実装は空間インデックス(k-d treeやball tree)を用いて最適化されていますが、それでも非常に大規模なデータセットに適用する際は、計算リソースと時間に注意が必要です。事前にデータをサンプリングする、あるいは計算コストがより低い他のアルゴリズムを検討することも選択肢となります。
まとめ:OPTICSをあなたの分析ツールキットに加えよう
今回は、Scikit-learnのOPTICSについて、その背景理論から実装、パラメータ調整、可視化までを徹底的に解説しました。
最後に、この記事の重要なポイントを振り返りましょう。
- OPTICSはDBSCANの進化版: DBSCANの最大の課題であった「単一の
epsパラメータ問題」を解決し、密度の異なるクラスタを柔軟に扱えます。 - 使い方は4ステップ: ライブラリ準備 → データ作成 → モデル学習 → ラベル取得という簡単な流れで実装できます。
- パラメータが鍵: **
min_samplesで密度の基準を、xiでクラスタの分離度を、min_cluster_size**でノイズの基準をコントロールします。特にxiの調整が重要です。 - 可視化が必須: リーチビリティプロットでデータの密度構造を理解し、散布図で最終結果を直感的に確認することが、分析を成功に導きます。
これまでDBSCANで苦労してきた方も、これからクラスタリングを学ぶ方も、ぜひこのOPTICSという強力な選択肢をあなたの分析ツールキットに加えてみてください。きっと、これまで見えなかったデータの中の新たな構造を発見する手助けとなるはずです。


コメント