PythonとScikit-learnでNMFを使いこなす！主要パラメータと実装のコツ

はじめに
NMF（非負値行列因子分解）とは？ – 簡単なおさらい
Scikit-learnにおけるNMFの基本コード
NMFを使いこなすための主要パラメータ徹底解説
実装で役立つ3つのコツ
まとめ

はじめに

「PythonのScikit-learnでNMF（非負値行列因子分解）を使ってみたけれど、いまいち良い結果が出ない…」「NMFクラスのパラメータがたくさんあって、どれをどう設定すればいいのか分からない…」「NMFをもっとうまく活用して、データから価値ある情報を取り出したい！」

もしあなたがこのように感じているなら、この記事はきっとお役に立てます。

NMFは、テキストマイニングのトピック抽出や画像の要素分解など、非常に強力で応用範囲の広い手法です。しかし、その真価を引き出すには、パラメータの役割を正しく理解し、データに合わせて適切に設定することが欠かせません。

この記事では、Scikit-learnのNMFを「使いこなす」ことを目標に、以下の点を徹底的に解説します。

主要なパラメータが結果にどう影響するのか
目的に応じたパラメータ設定の考え方
より良い結果を得るための実践的な3つのコツ

この記事を読み終える頃には、あなたはNMFのパラメータに迷うことなく、自信を持ってデータ分析を進められるようになっているはずです。

NMF（非負値行列因子分解）とは？ – 簡単なおさらい

まず、NMFがどのような手法なのかを簡単におさらいしましょう。

**NMF（Non-negative Matrix Factorization）とは、一言でいうと「元の行列を、意味のある複数の要素（基底）の足し算的な組み合わせに分解する手法」**です。

例えば、たくさんのニュース記事に含まれる単語の出現回数を行列にしたとします。この行列にNMFを適用すると、「『経済』に関する単語の集まり」や「『スポーツ』に関する単語の集まり」といった**基底（トピック）と、各記事がそれらのトピックをどれくらいの割合（重み）**で含んでいるかに分解できます。

重要なのは、全ての要素が**非負（0以上）**であるという点です。これにより、分解後の要素が「何かが存在しない」ではなく「何かがどれくらい存在する」という直感的に理解しやすい結果（足し算的な表現）になります。

Scikit-learnでは、sklearn.decomposition.NMFというクラスでこの機能が提供されており、数行のコードで簡単に利用できます。

Scikit-learnにおけるNMFの基本コード

パラメータの解説に入る前に、まずはScikit-learnでの最も基本的なNMFの実装コードを見てみましょう。これから解説する様々なパラメータは、このコードの中のNMF(...)の部分を調整していくことになります。

import numpy as np
from sklearn.decomposition import NMF

# 0以上の値を持つサンプルデータを作成
# (例：6つの文書 × 5つの単語 の出現回数行列)
X = np.array([
    [1, 1, 1, 0, 0],
    [2, 2, 2, 0, 0],
    [1, 1, 1, 0, 0],
    [0, 0, 5, 4, 4],
    [0, 0, 4, 5, 5],
    [0, 0, 5, 4, 4]
])

# NMFモデルのインスタンス化と学習
# n_componentsで分解後の要素数を2に指定
model = NMF(n_components=2, init='random', random_state=0)

# fit_transformで学習と、元の行列Xを分解後の重み行列Wに変換
W = model.fit_transform(X)

# components_属性に基底ベクトルHが格納される
H = model.components_

print("元の行列 X (6x5):")
print(X)
print("-" * 30)
print("重み行列 W (6x2):")
print(W)
print("-" * 30)
print("基底行列 H (2x5):")
print(H)

このコードでは、6×5の行列Xを、6×2の行列W（各文書のトピックの重み）と2×5の行列H（各トピックを構成する単語の重み）に分解しています。

NMFを使いこなすための主要パラメータ徹底解説

それでは、いよいよ本題です。NMFモデルの挙動をコントロールする、特に重要なパラメータを見ていきましょう。

n_components：分解する要素（トピック）数を決める最重要パラメータ

n_componentsは、データをいくつの要素（基底、トピック）に分解するかを決める、最も重要なパラメータです。

何を決めるか？: 分解後の行列の次元数、つまりデータに潜むと仮定する潜在的なトピックの数を指定します。上のコード例では2に設定したので、データが2つのグループに分けられました。
どう決めるか？: この値の決定に「唯一の正解」はありません。分析の目的やデータの性質に応じて、試行錯誤しながら決めるのが一般的です。
- ドメイン知識で決める: 分析対象のデータについて、「おそらく3種類くらいのカテゴリに分かれるだろう」といった事前知識があれば、その数を初期値として設定します。
- 再構成誤差で評価する: n_componentsを様々に変えてモデルを学習させ、元の行列をどれだけうまく復元できるか（再構成誤差がどれだけ小さいか）を評価して、誤差が下がらなくなる点（エルボー点）を探す方法もあります。

まずは当たりをつけた数で試してみて、結果の解釈のしやすさも考慮しながら最適な値を探していくのが良いアプローチです。

init：結果の安定性を左右する初期値の設定

NMFの計算アルゴリズムは、行列WとHの初期値に何を設定したかによって、最終的な結果が変わることがあります。initパラメータは、その初期値の計算方法を指定します。

何を決めるか？: 初期値の生成方法を指定します。これにより、結果の安定性や収束速度が変わります。
どう決めるか？: いくつか選択肢がありますが、まずは'nndsvd'系を試すのがおすすめです。
- 'random': ランダムな値で初期化します。実行するたびに結果が変わる可能性があるため、再現性を確保するにはrandom_stateの固定が必須です。
- 'nndsvd', 'nndsvda', 'nndsvdar': 特異値分解（SVD）をベースにした、より賢い初期化方法です。多くの場合、ランダムに始めるよりも高速に収束し、安定した良い結果が得られやすいとされています。迷ったら、まずは**'nndsvd'**を試してみましょう。

solver：計算方法を決める最適化アルゴリズム

solverは、分解後のに最適な行列WとHを見つけるための、具体的な計算アルゴリズム（最適化手法）を選択するパラメータです。

何を決めるか？: 行列を更新していくための計算エンジンを選びます。
どう決めるか？: 主に'cd'と'mu'の2つから選びます。
- 'mu' (Multiplicative Update): 古くからある伝統的な更新アルゴリズムです。
- 'cd' (Coordinate Descent): 座標降下法。比較的新しいアルゴリズムで、多くの場合'mu'よりも高速です。特に、後述する正則化を用いる場合は'cd'しか選択できません。

Scikit-learnのデフォルトは'cd'であり、基本的にはそのままで問題ありません。特定の損失関数（beta_loss）を使いたい場合や、論文の結果を再現したい場合などに'mu'を検討すると良いでしょう。

alpha_W, alpha_H, l1_ratio：正則化で結果をコントロールする

正則化とは、モデルが複雑になりすぎないように（過学習しないように）制約をかけることで、よりシンプルで解釈しやすい結果を得るためのテクニックです。

何を決めるか？: 分解後の行列WとHの要素が、なるべく0に近くなるように（スパースになるように）ペナルティを課します。
どう決めるか？:
- alpha_W, alpha_H: それぞれ行列WとHに対する正則化の「強さ」を指定します。値を大きくするほど、より多くの要素が0になり、結果がスパースになります。 (Scikit-learn 1.4以降。それ以前はalpha)
- l1_ratio: 正則化の種類（L1正則化とL2正則化）の割合を決めます。1.0にするとL1正則化（Lasso）になり、結果がスパースになりやすいため、特徴選択（重要な要素だけを残す）のような効果が期待できます。

例えば、トピックモデルで「各トピックを代表する単語をより明確にしたい」場合、基底行列Hに対してL1正則化をかける（alpha_H > 0, l1_ratio=1.0）ことで、重要でない単語の重みが0になり、トピックの解釈がしやすくなることがあります。

実装で役立つ3つのコツ

パラメータの意味を理解した上で、さらにNMFをうまく活用するための実践的なコツを3つ紹介します。

コツ1：適切な前処理が結果を大きく左右する（TF-IDFなど）

NMFは、入力されるデータの質に結果が大きく依存します。「Garbage In, Garbage Out（ゴミを入れれば、ゴミしか出てこない）」の原則が強く当てはまるため、前処理は非常に重要です。

特にテキストデータを扱う場合、単語の出現回数をそのまま使うよりも、TF-IDF (Term Frequency-Inverse Document Frequency) で重み付けした行列を入力とするのが定番のテクニックです。

なぜTF-IDFが良いのか？: 「です」「ます」のようにどの文書にも頻出するけれど重要でない単語の重みを下げ、特定の文書で特徴的に現れる単語の重みを高くすることができます。これにより、NMFはより本質的なトピックを抽出しやすくなります。

from sklearn.feature_extraction.text import TfidfVectorizer

# サンプルテキストデータ
documents = [
    "犬は公園を散歩するのが好きです",
    "猫は日向ぼっこをするのが好きです",
    "公園では犬がたくさん遊んでいます",
    "猫は高い場所が好きです"
]

# TF-IDFベクトル化
vectorizer = TfidfVectorizer(max_features=10) # max_featuresで語彙数を制限
X_tfidf = vectorizer.fit_transform(documents)

# このX_tfidfをNMFの入力とする
model = NMF(n_components=2, init='nndsvd', random_state=0)
W = model.fit_transform(X_tfidf)
H = model.components_

# 各トピックの重要単語を表示
feature_names = vectorizer.get_feature_names_out()
for topic_idx, topic in enumerate(H):
    print(f"トピック {topic_idx+1}:")
    top_words = [feature_names[i] for i in topic.argsort()[:-5:-1]] # 上位4単語
    print(" ".join(top_words))

コツ2：複数回試行して結果の安定性を確認する

前述の通り、NMFは初期値によって結果が変動する可能性があります。そのため、一度の実行結果だけを信じるのは危険です。

init='random' を使う場合はもちろん、'nndsvd'系でもデータによっては結果が微妙に変わることがあります。

信頼できる結果を得るためには、random_stateを変えて複数回実行してみるのが良いでしょう。何度実行しても同じような基底（トピック）が抽出されるようであれば、その結果は比較的安定していると判断できます。もし実行のたびに全く違う結果になる場合は、n_componentsの数や前処理の方法を見直す必要があるかもしれません。