OpenTUT

ゆる自然言語処理 -word2vec編-

昨日

ゆる自然言語処理 -word2vec編-


自然言語とは

  • 日本語や英語など,人がコミュニケーションで利用する言語 e.g. テキスト, 会話音声

  • プログラミング言語と対になる

  • 翻訳や要約,生成をするのが自然言語処理


今回やること

  • 単語のベクトル化

  • ベクトル化した単語のコサイン類似度により,単語間の類似度を求める

  • 単語同士の加減算


手法

  • ベクトル化したモデルの用意

    • ベクトル化されたモデル(学習済みモデル)をダウンロード
    • コーパス(大量のテキストを集めたもの)の用意&モデルの学習(単語のベクトル化)
  • やる


環境

  • Google colab

  • 各種ライブラリ e.g. gensim, MeCab


モデルの作成

  • 日本語Wikipediaの記事をダウンロード

  • MeCabを使って文章を分かち書き(私は昨日です. -> 私 は 昨日 です .)

  • gensimを使ってモデルの学習(単語のベクトル化)

    • 数行書けば自動でやってくれる
    • このページの各工程はどれもそこそこ時間がかかる

デモンストレーション

  • みせます

つまったところ

  • とくになし

  • 待ち時間が長いくらい


結論

  • 単語同士の加減算ができるのはなんとなく面白いですよね

  • ライブラリのおかげでそんなに難しくないので,みんなもやってみてね