PythonとScikit-learnで文書分類！LatentDirichletAllocationの実装手順を丁寧に解説

大量のニュース記事やアンケートの自由回答、レビュー文など、テキストデータが溢れる現代において、「これらの文書がそれぞれどんな話題について書かれているのか」を効率的に把握したい、と考えたことはありませんか？

この記事では、そうした課題を解決するトピックモデルという技術の基本と、その代表的な手法である**Latent Dirichlet Allocation（LDA）**の実装方法を、Pythonの機械学習ライブラリScikit-learnを使って丁寧に解説します。

この記事を読み終える頃には、正解ラベルがないテキストデータからでも、隠れたテーマや話題を自動で抽出し、文書を分類する一連の流れをマスターできます。Pythonでテキスト分析を始めたい方、教師なし学習に興味がある方は、ぜひ最後までご覧ください。

はじめに：Latent Dirichlet Allocation（LDA）とは？
1. LDAで何ができるのか？
2. 教師なし学習による「分類」のアプローチ
実装の全体像と準備
Step1. テキストデータの前処理
1. なぜ前処理が必要なのか？
2. テキストのベクトル化（CountVectorizer）
Step2. Scikit-learnでLDAモデルを学習・実行
Step3. 学習結果の解釈と文書の分類
1. 各文書がどのトピックに属するかを確認する
2. トピックごとの文書分類結果を見てみる
まとめ

はじめに：Latent Dirichlet Allocation（LDA）とは？

まずは、LDAがどのような技術なのか、その概要を掴みましょう。

LDAで何ができるのか？

LDA（Latent Dirichlet Allocation: 潜在的ディリクレ配分法）とは、一言でいうと**「文書の集合から、その背景にある潜在的なトピック（話題）を自動で見つけ出す」**ための統計的モデルです。

例えば、様々なジャンルのニュース記事が混在したデータがあるとします。LDAを適用することで、コンピュータは各記事の単語の出現パターンを学習し、「”野球”, “サッカー”, “選手”という単語がよく出る文書グループ」や「”株価”, “企業”, “市場”という単語がよく出る文書グループ」などを自動的に見つけ出します。

そして、前者を「スポーツ」、後者を「経済」といったトピックとして、私たちが解釈できるようにしてくれるのです。

教師なし学習による「分類」のアプローチ

一般的な機械学習の「分類」では、「この文書はスポーツ」「この文書は経済」といった正解ラベル（教師データ）を事前に大量に用意し、モデルに学習させる必要があります。

一方で、LDAは教師なし学習に分類されるため、そうした正解ラベルが一切不要です。あくまで文書内で「どのような単語が」「どのような組み合わせで」使われているかという情報だけを頼りに、内容が似ている文書を自動でグルーピングします。この手軽さが、LDAが多くの場面で活用される理由の一つです。

実装の全体像と準備

それでは、実際に手を動かして実装していきましょう。まずは、全体の流れと必要な準備を確認します。

今回の実装フロー

実装は以下の4つのステップで進めます。この流れを意識することで、今どの作業をしているのか迷わず進めることができます。

データ準備：分析対象のテキストデータを用意します。
テキスト前処理：テキストを単語に分割し、分析できる形（ベクトル）に変換します。
LDAモデル学習：前処理したデータを使って、LDAモデルを学習させます。
結果の解釈：学習結果からトピックを解釈し、各文書を分類します。

必要なライブラリのインストール

Scikit-learnを中心に、今回使用するPythonライブラリをインストールします。ターミナルやコマンドプロンプトで以下のコマンドを実行してください。

pip install scikit-learn numpy

使用するデータセットについて

今回は練習用として、Scikit-learnに付属している**「20 Newsgroups」**という有名なデータセットを使用します。これは、様々なテーマの電子メールニュース（ニュースグループ）の投稿を集めたもので、データ収集の手間なくすぐにテキスト分析を試すことができます。

今回はその中から、コンピュータ関連の4つのカテゴリに絞ってデータを読み込んでみましょう。

from sklearn.datasets import fetch_20newsgroups

# 分析対象のカテゴリを指定
categories = [
    'comp.graphics',
    'comp.os.ms-windows.misc',
    'comp.sys.ibm.pc.hardware',
    'comp.sys.mac.hardware',
]

# データの読み込み
# ヘッダー、フッター、引用部分を除外して純粋な本文に近づける
dataset = fetch_20newsgroups(subset='all', categories=categories,
                             shuffle=True, random_state=42,
                             remove=('headers', 'footers', 'quotes'))

print(f"{len(dataset.data)}件のドキュメントを読み込みました。")
# 出力例: 3880件のドキュメントを読み込みました。

Step1. テキストデータの前処理

LDAで精度の良い分析を行うには、テキストデータを適切に「掃除」する前処理が非常に重要です。良いモデルは良いデータから生まれます。

なぜ前処理が必要なのか？

コンピュータは単語の意味を理解できません。そのため、「the」「a」「is」のような頻出するものの意味の薄い単語や、記号、数字などが多く含まれていると、それらがノイズとなってしまい、トピックをうまく抽出できません。

前処理は、こうした分析のノイズを取り除き、コンピュータが単語の重要度を正しく評価できるようにするための不可欠なステップです。

テキストのベクトル化（CountVectorizer）

Scikit-learnのCountVectorizerは、テキストデータを「単語の出現回数を数えた表（ベクトル）」に変換してくれる非常に便利なツールです。この変換と同時に、不要な単語の除去も行います。

from sklearn.feature_extraction.text import CountVectorizer

# CountVectorizerのインスタンスを作成
# max_df: 使われすぎている単語を除外 (例: 95%以上の文書に出現する単語は無視)
# min_df: 使われなさすぎている単語を除外 (例: 2つ以下の文書にしか出現しない単語は無視)
# stop_words: 'english'を指定すると、英語の一般的なストップワードを除外
vectorizer = CountVectorizer(max_df=0.95, min_df=2, stop_words='english')

# テキストデータをベクトル化
X = vectorizer.fit_transform(dataset.data)

print("ベクトル化した後のデータの形状:", X.shape)
# 出力例: ベクトル化した後のデータの形状: (3880, 10260)
# → 3880件の文書が、10260種類の単語で表現されていることがわかる

Step2. Scikit-learnでLDAモデルを学習・実行

データの前処理が完了したら、いよいよこの記事の主役であるLDAモデルを学習させます。Scikit-learnを使えば、驚くほど簡単なコードで実装できます。

LatentDirichletAllocationの基本的な使い方

まずはLatentDirichletAllocationクラスをインポートし、モデルのインスタンスを作成します。そして、fitメソッドで前処理済みのデータを学習させます。

from sklearn.decomposition import LatentDirichletAllocation

# LDAモデルのインスタンスを作成
# n_components: 抽出したいトピックの数
# random_state: 結果を固定するためのシード値
lda = LatentDirichletAllocation(n_components=4, random_state=42)

# モデルを学習
lda.fit(X)

主要なパラメータ解説：n_components

LDAで最も重要なパラメータが、n_componentsです。これは**「データの中からいくつのトピックを見つけ出すか」**を指定するもので、分析者が事前に決める必要があります。

今回は元々のデータカテゴリが4つだったのでn_components=4としましたが、未知のデータに対しては、結果を見ながら数を調整していく試行錯誤が必要になります。

各トピックを構成する特徴的な単語を確認する

モデルの学習後、components_属性に各トピックがどのような単語で構成されているかの情報が格納されます。これを確認し、各トピックが「何に関する話題なのか」を人間が解釈します。

以下のコードで、各トピックを特徴づける単語を上位10個ずつ表示してみましょう。

# 各トピックを特徴づける単語を表示する関数
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        message = f"トピック #{topic_idx}: "
        message += " ".join([feature_names[i]
                             for i in topic.argsort()[:-n_top_words - 1:-1]])
        print(message)

# ベクトル化で使われた単語（語彙）を取得
feature_names = vectorizer.get_feature_names_out()

# 各トピックの上位10単語を表示
print_top_words(lda, feature_names, 10)

出力例:

トピック #0: graphics image file program files format images use display available
トピック #1: drive scsi card ide bus controller mac disk hard
トピック #2: windows file dos use problem window server files running db
トピック #3: use key cli chip encryption clipper government keys algorithm securityCode language: CSS (css)

この結果から、各トピックはそれぞれ「グラフィック」「ハードウェア（特にドライブ関連）」「Windows OS」「セキュリティ/暗号化」に関する話題を表していると推測できます。

Step3. 学習結果の解釈と文書の分類

モデルが各トピックの内容を学習できたので、この結果を使って実際に個々の文書を分類してみましょう。

各文書がどのトピックに属するかを確認する

transformメソッドを使うと、入力された文書が、学習済みの各トピックにどのくらいの確率で属するかを計算できます。

# 最初の文書をLDAモデルで変換
doc_topic_dist = lda.transform(X[0])

print("最初の文書のトピック分布:")
print(doc_topic_dist)

import numpy as np
topic_id = np.argmax(doc_topic_dist)
print(f"\n最初の文書はトピック {topic_id} に最も強く分類されました。")

出力例:

最初の文書のトピック分布:
[[0.00500121 0.98499539 0.00500147 0.00500193]]

最初の文書はトピック 1 に最も強く分類されました。Code language: CSS (css)

この結果は、最初の文書が約98.5%の確率で「トピック1」に属することを示しています。

トピックごとの文書分類結果を見てみる

では、本当にこの分類は妥当なのでしょうか？最初の文書の内容と、分類された「トピック1」の特徴語を比較して確認してみましょう。

# 最初の文書の原文を表示
print("--- 最初の文書の原文 ---")
print(dataset.data[0][:300], "...") # 長いので先頭300文字だけ表示

# トピック1の特徴語を再表示
print("\n--- トピック1の特徴語 ---")
print_top_words(lda, feature_names, 1)

出力例:

--- 最初の文書の原文 ---
I have a new 486dx2-66 system with a 256k cache motherboard, 8 megs
of ram, a 2 meg diamond speedstar pro vlb video card, a 540 meg ide
hard drive, a 1.44 floppy, and a Mitsumi double speed cd-rom.  I'm
running dos 6.2 and windows 3.1.  I have a Soundblaster Pro 16 ASP.

The problem i ...
--- トピック1の特徴語 ---
トピック #1: drive scsi card ide bus controller mac disk hardCode language: PHP (php)

文書の原文には system, motherboard, video card, ide hard drive といった単語が含まれており、トピック1の特徴語である drive, card, ide と強く関連していることが一目瞭然です。これにより、LDAが文書の内容を正しく捉えて分類できていることが確認できました。

まとめ

今回は、PythonのScikit-learnライブラリを使い、Latent Dirichlet Allocation（LDA）による文書分類の実装手順を解説しました。

Latent Dirichlet Allocation (LDA) を使えば、正解ラベルがないテキストデータからでも、その背景にある「トピック」を抽出し、文書を自動で分類できます。
Scikit-learnのCountVectorizerとLatentDirichletAllocationを組み合わせることで、テキストの前処理からモデルの学習、そして分類までの一連のフローをスムーズに実装できます。
LDAの性能は、**n_components（トピック数）**といったパラメータや、前処理の質に大きく影響されます。

LDAは、顧客の声の分析、論文の動向調査、ニュース記事の自動仕分けなど、ビジネスから研究まで様々な場面で応用できる非常に強力な手法です。この記事をきっかけに、ぜひご自身のデータでもトピックモデル分析に挑戦してみてください。