barilog

エンジニアリング見習い雑記

論文 Twitter mood predicts the stock market

コーパステキストマイニングより引用

 ---------------------------------------------------------------------------------------------------

 Bollen(2011)は,2008年2月28日から11月28日の9,853,493個のtwitterのテキストを分析し,米国のダウ平均株価指数との関係性を調べた.ユーザー数は約270万人にもなり,1日平均で3.2万個が投稿された.これだけ膨大なテキスト情報があれば,経済に対する世の中の平均的な味方のトレンドが抽出できるのではないかと考えたのである.

 このテキスト情報のうち,彼らは書き手が自分の心的状態を明言していると思われるテキストだけを分析対象とした.そのために,"i feel"や"i am feeling","i'm feeling","i don't feel","I'm","I am","makes me"を含むテキストを抽出した.次に,確実の抽出されたテキストの集合から,どのような心理状態に関連する表現が多いかを指標化した.心理学で使われる気分プロフィール検査(POMS)をべーすとした,Google-Profile of Mood States(GPOMS)指数うを新たに提唱している.元になったPOMSは,被験者に対して現在の自分の心的状態を,「有効的な」「ふきげんな」「活発な」「限界ギリギリの」「パニック状態の」等の72種類の表現への7段階程度の当てはまりを聞く質問紙調査である.この回答を分析し,被験者の心的状態に変換し,被験者の心的状態を,平穏・警戒・確信・活気・善意・幸福の6次元の尺度で表す.GPOMSは,

Gooleの4,5-gram共起語(25億語)(Brants, Franz, 2006; Bergsma et al., 2009)を使用して,POMSの72表現に関連する964語の辞書を用いている.この拡張辞書の頻度により,確実のテキストデータから先程の6次元の尺度のスコアを計算する.

 テキスト情報を取得した2008年2月28日から11月28日について,6次元のGPOMS指数とダウ平均株価指数を用いて,Granger因果性検定を行った.その結果,「平穏」の尺度が2~5日語の平均株価との因果性があった.さらに,1日前から3日前までの「平穏」のスコアと平均株価を入力とsて翌日の平均株価を予測するモデルを,Self-organizing Fuzzy Neural Network(SOFNN)手法を用いて構築した.訓練期間は2008年2月28日から11月28日であり,テスト期間は2008年12月1日から19日である.その結果,翌日の平均株価の騰落の方向性を,86.7%の精度で予測することができた.しかし,テキスト情報を用いずに,過去の3日間の平均株価だけから予測した場合でも,73.3%の予測精度があった. 

 ---------------------------------------------------------------------------------------------------

参考文献

http://amzn.asia/2IbDzDK

https://arxiv.org/pdf/1010.3003.pdf

https://catalog.ldc.upenn.edu/products/LDC2006T13

https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/35387.pdf