BOWのデータフレームを作る簡単な方法
シンプルなテーマだが,あまり情報がなかったので調べてみた.
なんらかテキスト集合からBag Of Words,つまり(単語ID, 出現回数)の集合を作る方法はよく情報提供がなされている.
よく提供されている方法としてgensimのcorporaを使ったものがあるが,そこで作れるものは[(単語1, 出現回数), (単語2, 出現回数),......]のようにタプル形式であることが多い
学習器に入力するとき,扱いやすいpandas.DataFrameオブジェクトに変換したいと思うのだが,corporaのような形式からデータフレームにするのは若干面倒だ.
今回は
テキスト情報から簡単にBOWのデータフレームを作る方法を紹介する.
結論からいってしまうと
この記事をなぞればいい.
ただし,ここで一つ落とし穴がある
>|python|
bag_of_words.toarray()
|