こんにちは。カトウです。サマーウォーズの季節ですね!!
前から機械学習に興味があり、新しくAIのプロジェクトにジョインできるインターンを始めたのですが、最初の仕事として、ツイートの類似度を評価するシステムを作ることになりました。5/17~5/23の期間でやってみました!
今回は、モデル選定から成果物を出すまでのフローを共有したいと思います。
ツイートについて
ツイートは140字以内でテキストデータだけであると仮定しまっす。
ツイートを分解する
ツイート(文書)は単語によって構成されています。今回は、ツイートを単語単位で分解します。
ツイートをどうやって評価するか?
単語のベクトル(あとで説明する)を足し合わせて単語の数で割り、ベクトルの平均値をツイートのベクトルにします。
比較したい2つのツイートベクトルをコサイン類似度の式(あとで説明する)に当てはめて、ざっくり0~1の数値(たまに-0.0…や1.02…などの値も検出することもある)を得ます。
0に近ければ、ツイート間の類似度が低く、1に近ければツイート間の類似度が高いことになります。
単語のベクトルとは?
単語のベクトルってなんだよ???
こんなやつ↓ 雑
ご飯=[0.22, 0.12, 0.21, 0.56],筋肉=[0.19, 0.63, 0.91, 0.37]
単語のベクトルを求めるために、word2vecというモデルを使います。
gensimというPythonのライブラリを使い、単語ベクトルの次元を引数として与えて、N次元のベクトルを得ます。
word2vecとは?
word2vecは単語をベクトルで表現することで単語の意味みたいなものを表現するモデル。
word2vecの詳細を説明すると長くなりそうなので、学習済みのword2vecのインターフェイスだけ説明すると、インプットが単語(Ex: ご飯)で、アウトプットがベクトル(Ex: [0.22, 0.12, 0.21, 0.56])となりまっす。
このアウトプットの単語ベクトルを扱うことで、単語同士の意味の近さを比べたり、また王様ー男+女=王妃のような計算をすることができる。
すごーい٩( ᐛ )و
どうやって単語ベクトルを求める?
まずは、膨大な日本語のテキストデータをGETします。
なぜなら、一度学習した単語ではないと単語ベクトルの値を求めることはできないからです。
では、この世の多くの言葉を偏りなく扱っている媒体はなんだろう。
広辞苑?新聞?
デジタルの媒体で一番扱いやすいものは、Wikipediaだと思います。
実際、多くの言語の学習済みのWikipediaのモデルがネット上に公開されてあります。
しかし、Wikipediaの学習済みモデルは、Python2系のみの対応であったり、最新の単語に対応していなかったり。。。
Twitterという最新の情報が飛びかうメディアには適していないと感じたので、Wikipediaの学習済みモデルを自分で作るという結論に至りました泣
Wikipediaの全記事で学習する
日本語版Wikipediaの全記事を取得できるサイトがあるので、そこからxml形式のデータを取得します。(12GBぐらい)
xml形式のWikipediaのデータをテキストにするためにwikiextractorというツールを使います。
結果として、textディレクトリに大量のテキストデータが生成されます。
これをwiki.txtにまとめます。(やり方はGGR)
Word2vecにテキストデータを突っ込むには、テキストデータが単語ごとに、分割された状態でなければならないです。
分割するために、MeCabというオープンソースの形態素解析エンジンを使いまっす。
MeCabを使うと
(例文)目に見えるものが真実とは限らない。(処理後)目 に 見える もの が 真実 と は 限ら ない。
このように、文章を分割することができます。
また、単語ごとの品詞を取得することもできます。(あとで使う)
MeCabでwiki.txt→wiki_wakati.txt(わかち書きされたテキストデータ)の変換を行います。
単語単位で分割したテキストデータ(wiki_wakati.txt)をgensimのword2vecの関数にぶち込みます。単語の次元数を300に設定します。
そして数時間待つと、.modelというファイルが生成されます。
これを他のファイルで読み込み、単語を入力することで、あら不思議、単語ベクトルを求めることができます。
[-0.01494294 -0.1509463 0.06123272 ..., 0.01335443 0.03439184
0.05130962]
MeCabを使ってツイートを分解する
ツイートの中で必要な情報とはなんでしょうか?
Go言語楽しい。Gopher最高!!いえええええええええええい!さいこおおおおおおおおお!
上のツイートで内容を表しているのは、Go言語とGopherでしょう。
いえ…い!さいこお…!はいらないです。
そこで、MeCabは単語ごとの品詞を取得することができるので、特定の品詞のみの単語(固有名詞と一般)を取得します。
word2vecに単語をぶち込む
word2vecに特定の品詞の単語をインプットとして、単語ベクトルを取得します。そして、その和を単語の数で割ります。
以下コード
コサイン類似度でTweet間の類似度を評価
コサイン類似度↓
今回はツイート1がベクトルq、ツイート2がベクトルdとして計算が行われるようなイメージ。
計算については、数式を書いたらいいので、具体例などは出しません。
類似性を検証してみる
実験1
[Tweet1]
サカナクションが好き
[Tweet2]
Official髭男dismが好き
[結果]
0.33682251556012055
[メモ]
アーティストが異なるけど、’好き’とミュージシャンの名前が含まれているからそこそこの値がでた。
実験2
[Tweet1]
AirPods無くした
[Tweet2]
忍者めし美味しい
[結果]
-0.06806525231440926
[メモ]
内容が全く違うので、-0.06..というかなり低い値が出た。
実験3
[Tweet1]
清少納言は枕草子を書いたと見せかけて、紫式部に書かせた。さらに、居間で昼寝をしたと見せかけて、自分の部屋に戻ったところ少し疲れたのでゲームをした。
[Tweet2]
枕草子を書いたのは実は紫式部だ。枕草子は、清少納言の家の居間についての物語だ。
[結果]
0.6668826937397055
[メモ]
お世話になってるCTOが書いた名文たち(迷文)は0.666..とかなり高い数値が出た。
考察
まだ実験のサンプリング数が少ないので肌感でしかないが、数値としては0.5~1.0の間だとツイートの類似性があることがわかりました。
まとめ(これからどうしよか)
今回は、ツイートを単語単位に分解して、単語ベクトルの平均値を評価することで、類似性を比較しました。
精度を上げるためには、単語の重要さを考慮することや、単語のクラスタリングが有効かもしれないです。
というわけで、現在、以下の2つのモデルを実装中です。
- word2vecとTF-IDF(単語の重要さを加味するやつ)を組み合わせたモデル(現在実装中)
- SCDV(単語のクラスタリングをするやつ)を使ったモデル
また、ツイートも今回はただTweetを単語単位で分解しただけですが、ツイートにリンクを含んでいたら、リンクのOGPの情報を取得をすることで、より正確にツイートを評価することができるかもしれません。
ソースコード
https://github.com/yutify/vectrizing_tweet_system
まだまだビギナーなので、こんな工夫をしたら精度が上がったなど教えてもらえると嬉しいです!!!