久々に、GitHubを更新してみました。
日向坂46の小坂菜緒さんに関する事を書いたはてなブログを集めて、MecabとWord2Vecを使って、モデルを作りました。
Qiitaできっかけになる記事を読んで作ろうと思いました。
(すみません、ストックを忘れてしまい、元記事不明です…)
Mecabの辞書は「mecab-ipadic-neologd」を使いました。また、当初は小坂さん本人のブログを使おうと思ったため、その際に作ったユーザー辞書を流用して、固有名詞はなるべく拾うようにしました。なお、形態素解析の後、名詞、動詞、形容詞のみWord2Vecに取り込みました。
言語・ライブラリーのバージョン情報は以下になります。
では、作ったモデルを検証します。
from gensim.models import word2vec
model = word2vec.Word2Vec.load("kosakana_fun_model.model")
data = model.most_similar(positive=["小坂菜緒"])
print(data)
[('松田好花', 0.9997069239616394), ('渡邉美穂', 0.9996129274368286), ('加藤史帆', 0.9994978308677673), ('宮田愛萌', 0.9993435144424438), ('高本彩花', 0.9993054866790771), ('井口眞緒', 0.9992268681526184), ('影山優佳', 0.999186098575592), ('ひより', 0.9991654753684998), ('柿崎芽実', 0.9991443157196045), ('佐々木久美', 0.9990230202674866)]
「ひより」はメンバーの濱岸ひよりさんの名前です。全て、メンバーの名前なので、一定の成果はあったと思います。