駆け出しエンジニアの作業ノート

駆け出しエンジニアが作業ノート風にまとめるページ(関係無い事もしばしば)

MeCab

PyCon JP 2020 終了

PyCon JP 2020 は全日程が終了しました。今年は、スタッフとして参加し去年の一般参加とは違った感じを受けました。 スタッフ活動やその合間でいくつかセッションを回りました。それぞれ、様々な発表がありどれも刺激的なものでした。 その中で1つ印象的な物…

推しに関するコーパスを集める

久々に、GitHubを更新してみました。 日向坂46の小坂菜緒さんに関する事を書いたはてなブログを集めて、MecabとWord2Vecを使って、モデルを作りました。 www.hinatazaka46.com ja.wikipedia.org 48pedia.org Qiitaできっかけになる記事を読んで作ろうと思い…

MeCabのユーザー辞書作成と反映方法

MeCabを用いていると、特にIT関係の単語は自分の意図しない部分で形態素が分かれてしまうことがあります。そのような場合は、ユーザーが自分で辞書を作成する事が出来ます。以下の記事を参考にしましたが、一部は自分で追加しました。なお、ユーザー辞書の元…

形態素数え上げプログラムの修正

前に書いた記事に載せた、形態素ごとに数え上げるプログラムが早速動かなくなったので、修正します。 psyduck-take-it-easy.hatenablog.com import MeCabimport ioimport pandasdef text_analysis(): text = "" m = MeCab.Tagger("-Ochasen -u /usr/local/li…

Word2Vecによるモデル構築実験

機械学習の第一歩として、Word2Vecによるモデル構築実験を行うことにしました。 既にWikipediaを使ったモデル構築例があるので、違う物を使うことにしました。対象はずばり、このブログの本文。 もちろん、膨大なデータ量が無いと正確性が出ないのは百も承知…