barilog

エンジニアリング見習い雑記

【論文読み】Sentiment-Based Prediction of Alternative Cryptocurrency Price Fluctuations Using Gradient Boosting Tree Model

今手元に仮想通貨関係のInfluencerたちの発したtweetとBTC価格のデータセットがあるのですが,ここからBTC価格に影響のありそうなtweetを抽出し,さらにwweetからBTC価格の上下を当てる,,なんてことを研究で行っています.

 

一旦はeventstudyでBTC価格に影響のありそうなtweetを抽出するとこまではできたのですが(色々問題あり),肝心のBTC価格の上下を回帰で当てようとする部分が精度が低すぎて使い物になりませんでした..

 

これより,tweet->BTC価格の回帰

に役立ちそうな論文をあさっていました.

 

色々サーチしたところ

こちらの論文 

Sentiment-Based Prediction of Alternative Cryptocurrency Price Fluctuations Using Gradient Boosting Tree Model

 

が非常に参考になりそうだったので読んでみました.

 

submmitが2018/3で被引用数が4回,arxXivに登録されています.

 

論文の内容をまとめると

 

特徴量作成で感情分析を,回帰モデルとしてxgboostを用いてZClassicの価格を回帰分析してみたところ,相関係数が0.81になった

 

ということでした.

相関係数がなかなか高いですね.

 

 

特徴量は以下の6つのようです.

一時間あたりの取引数,Neutral, Positive, Negative, Unweighted Index, Weighted Index

 このうち

Neutral, Positive, Negativeはおそらくonehotベクトルだと思います..

Unweighted IndexとWeighted Indexがまだよく理解できていません..

 

  

入江開発室に入ってみた

入江開発室って知ってますか?最近twitterなどで徐々に認知度が上がっている開発者向けのオンラインサロンです

camp-fire.jp

 

色んなプロジェクトが並行して走っていて,サロンメンバーは好きなプロジェクトに参加できるようになっています.

 

このオンラインサロン,自分のようにチームでの開発経験が少ない人にとっては非常に有益だと思います.

なぜならば短期かつオンライン上で完遂できる開発案件にスキルが未熟なうちから関われるから.

 

 

コーディング能力またgithubやslackを介したコミュニケーションのお作法が十分に備わっていない人物が参加できる開発案件はベンチャーの6ヶ月~などの長期的な案件が多いでしょう.オンライン上の案件はほぼ開発能力が一通り身についている人が携われる案件が多い.スキルが未熟な人がオンライン上で気軽に開発経験をつめるというのは非常に貴重な場です.

 

金融テキストマイニングにおけるモデルの評価

コーパスとテキストマイング

http://amzn.asia/2IbDzDK

の読書メモ

 

 

モデルの評価の基礎的な流れは以下のとおりです.

 

 

1.訓練データからモデルを学習する

2.評価データの説明変数をモデルに入力し評価データの目的変数の値を推測する.

3.実際の評価データの目的変数の値と推測した値とを比較することで予測精度(予測誤差)を計算する.

 

さて金融テキストマイニングでは,データは時系列である点に注意しましょう.未来の訓練データで学習したモデルを過去の評価データに適用しても,予測精度を正しく計算することはできません.

一般のデータマイニングでは予測精度を計算する際に交差検定が用いられますが,上記の理由から金融テキストマイニングには向きません.

(個人的な疑問:これは交差検定ではデータ・セットを過去・未来にかかわらずランダムに選んで数個の訓練データ+評価データの塊に分割するから,なのかな?時系列に沿って分割)

 

予測精度を正しく求めるためには,評価データよりも過去の訓練データから学習したモデルで予測精度を計算しなければなりません.また,モデル選択(複数のモデルからあるモデル-たとえば重回帰や回帰木など-を選んだり,パラメータをチューニングする)のために訓練データをさらに訓練データと検証データに分けることがありますが,この際に検証データも訓練データより過去のものとしなければなりません.

 

この理解でいくと,

もし,単体の時系列データ・セットが渡されたなら,

データを時系列に沿って2つ(検証データが必要であるならば3つ)にわけ,一番古い時系列のデータを訓練データ,(検証データが必要であるならば次に古いものを検証データ,)そして一番最新の時系列データを評価データとする.

というのが一般の流れのようです.当たり前なところなんですが悩む人も多いところななのでまとめました.

 

 

参考文献

http://amzn.asia/2IbDzDK

金融テキストマイニングにおけるモデルの評価

コーパスとテキストマイング

http://amzn.asia/2IbDzDK

の読書メモ

 

 

モデルの評価の基礎的な流れは以下のとおりです.

 

 

1.訓練データからモデルを学習する

2.評価データの説明変数をモデルに入力し評価データの目的変数の値を推測する.

3.実際の評価データの目的変数の値と推測した値とを比較することで予測精度(予測誤差)を計算する.

 

さて金融テキストマイニングでは,データは時系列である点に注意しましょう.未来の訓練データで学習したモデルを過去の評価データに適用しても,予測精度を正しく計算することはできません.

一般のデータマイニングでは予測精度を計算する際に交差検定が用いられますが,上記の理由から金融テキストマイニングには向きません.

(個人的な疑問:これは交差検定ではデータ・セットを過去・未来にかかわらずランダムに選んで数個の訓練データ+評価データの塊に分割するから,なのかな?時系列に沿って分割)

 

予測精度を正しく求めるためには,評価データよりも過去の訓練データから学習したモデルで予測精度を計算しなければなりません.また,モデル選択(複数のモデルからあるモデル-たとえば重回帰や回帰木など-を選んだり,パラメータをチューニングする)のために訓練データをさらに訓練データと検証データに分けることがありますが,この際に検証データも訓練データより過去のものとしなければなりません.

 

この理解でいくと,

もし,単体の時系列データ・セットが渡されたなら,

データを時系列に沿って3つにわけ,一番古い時系列のデータを訓練データ,(検証データが必要であるならば次に古いものを検証データ,)そして一番最新の時系列データを評価データとする.

というのが一般の流れです.