barilog

エンジニアリング見習い雑記

BOWのデータフレームを作る簡単な方法

シンプルなテーマだが,あまり情報がなかったので調べてみた.

なんらかテキスト集合からBag Of Words,つまり(単語ID, 出現回数)の集合を作る方法はよく情報提供がなされている.

 

 

よく提供されている方法としてgensimのcorporaを使ったものがあるが,そこで作れるものは[(単語1, 出現回数), (単語2, 出現回数),......]のようにタプル形式であることが多い

 

学習器に入力するとき,扱いやすいpandas.DataFrameオブジェクトに変換したいと思うのだが,corporaのような形式からデータフレームにするのは若干面倒だ.

 

今回は

テキスト情報から簡単にBOWのデータフレームを作る方法を紹介する.

 

結論からいってしまうと


chrisalbon.com


この記事をなぞればいい.

 

ただし,ここで一つ落とし穴がある

>|python|

bag_of_words.toarray()

|