駆け出しエンジニアの作業ノート

駆け出しエンジニアが作業ノート風にまとめるページ(関係無い事もしばしば)

推しに関するコーパスを集める

久々に、GitHubを更新してみました。

 

日向坂46の小坂菜緒さんに関する事を書いたはてなブログを集めて、MecabとWord2Vecを使って、モデルを作りました。

 

www.hinatazaka46.com

ja.wikipedia.org

48pedia.org

 

Qiitaできっかけになる記事を読んで作ろうと思いました。

(すみません、ストックを忘れてしまい、元記事不明です…)

 

Mecabの辞書は「mecab-ipadic-neologd」を使いました。また、当初は小坂さん本人のブログを使おうと思ったため、その際に作ったユーザー辞書を流用して、固有名詞はなるべく拾うようにしました。なお、形態素解析の後、名詞、動詞、形容詞のみWord2Vecに取り込みました。

 

言語・ライブラリーのバージョン情報は以下になります。

 

 

では、作ったモデルを検証します。

 

from gensim.models import word2vec

model = word2vec.Word2Vec.load("kosakana_fun_model.model")
data = model.most_similar(positive=["小坂菜緒"])
print(data)

[('松田好花', 0.9997069239616394), ('渡邉美穂', 0.9996129274368286), ('加藤史帆', 0.9994978308677673), ('宮田愛萌', 0.9993435144424438), ('高本彩花', 0.9993054866790771), ('井口眞緒', 0.9992268681526184), ('影山優佳', 0.999186098575592), ('ひより', 0.9991654753684998), ('柿崎芽実', 0.9991443157196045), ('佐々木久美', 0.9990230202674866)] 

 

「ひより」はメンバーの濱岸ひよりさんの名前です。全て、メンバーの名前なので、一定の成果はあったと思います。

 

github.com