マニフェストをクラスタ分析
もう少しで選挙なんで各党のマニフェストを眺めていたのですが、『どの党とどの党の内容が似てるのか』という非常にどうでもいい事が気になって、クラスタ分析してデンドログラムを書いてみました。
処理は
1. 『Yahoo! JAPAN > みんなの政治 >政党別マニフェスト』のデータをコピペで収集
2. MeCabで形態素解析(記号、助詞を除く)
3. 各政党のマニフェスト間のコサイン類似度を計算
4. 距離行列をつくる
5. クラスタ分析(ward法)
です。
こんなのでマニフェストの単語とその出現数が似ている政党のグループが作れるはずです。
形態素解析→距離行列まではPerlで、クラスタ分析はGNU Rで処理してます。
結果。
2群に分けるとすると、”自民・公明・国民新党・改革クラブ”のクラスタと”社民・共産・民主・みんなの党・新党日本”になりますね。”保守”クラスタと”革新”クラスタ?
自民と公明は出てくる単語の傾向がとても似ているようです。さすが与党。
共産・社民も同様に単語の出現傾向が近いみたい。
新党日本は他の政党の主張とは離れているんですかね?どの政党からも遠いですね。
距離行列を作ったので、ついでに多次元尺度法で2次元にマッピングしてみました。
ward法のクラスタ分析の結果とずいぶん違うものができました。
今度は公明党・国民新党、民主・社民の距離が近くなりましたが、新党日本はどの政党からも離れています。
以上、なんの役にも立たない結果ですが、coLinuxの環境を再構築した勢いでつくってみました。