barilog

エンジニアリング見習い雑記

Bigquery上で行う文字列類似度計算 〜Levenshtein Distance〜

名寄せなどを行うために、しばしばlevenshtein distance通称編集距離による類似度比較が行われます。私の場合bigquery上でこの処理を行いたかったのですが探しても探しても該当コードが見あたらなかったため簡単に関数を自作しました。標準SQL文のみだと実装…

csvファイルからjsonファイルを出力するコード

忘備録:csvファイルからjsonファイルを出力するコード import csv , json csvFilePath = "file.csv" jsonFilePath = "file.json" arr = [] #read the csv and add the arr to a arrayn with open (csvFilePath) as csvFile: csvReader = csv.DictReader(csv…

リモートサーバのubuntuにおいてdockerで日本語自然言語処理環境を構築してjupyterを立ち上げてアクセスする

ubuntuで自然言語処理環境を構築する方法 0.ubuntuインスタンスを作成 今回はGCPでubuntu16.04インスタンスを作成しました. この過程に関しては他のブログをみてください 1.docker CEをインストール https://docs.docker.com/install/linux/docker-ce/ubunt…

ssh接続時にjupyter notebookが403エラーで立ち上がらないときの対処法

jupyter notebookを不正に終了していることが原因ぽいです. github.com の https://github.com/jupyter/notebook/issues/2844#issuecomment-385882596 こちらのコメントに従いましょう.

mysqlのroot userのpassowordを再設定する方法[ubuntu]

linuxconfig.orgこちらにのっとってやること.

SQLのSELECT文で最初と最後のレコードを取り出すクエリ

こんな感じ(select * from market_Ohlc where currency_pair='btcjpy' order by close_time asc limit 1) union all (select * from market_Ohlc where currency_pair='btcjpy' order by close_time desc limit 1);(select 任意のカラム from 任意のテーブル…

VAEの損失関数の符号について

損失関数は最小化するものと一般には理解されていますが,VAEの損失関数は最大化するものとして扱われる場合が多いみたいです.これで混乱してしまう方がよくいます. VAEの損失関数は対数尤度関数を変形したもので, VAEの損失関数 = ReconstractionError -…

方策勾配法の導入のメモ

【論文読み】Sentiment-Based Prediction of Alternative Cryptocurrency Price Fluctuations Using Gradient Boosting Tree Model

今手元に仮想通貨関係のInfluencerたちの発したtweetとBTC価格のデータセットがあるのですが,ここからBTC価格に影響のありそうなtweetを抽出し,さらにwweetからBTC価格の上下を当てる,,なんてことを研究で行っています. 一旦はeventstudyでBTC価格に影…

入江開発室に入ってみた

入江開発室って知ってますか?最近twitterなどで徐々に認知度が上がっている開発者向けのオンラインサロンです camp-fire.jp 色んなプロジェクトが並行して走っていて,サロンメンバーは好きなプロジェクトに参加できるようになっています. このオンライン…

pickleでセッション情報も保存できたらな〜というとき

pickleの代わりにdillをつかうとセッション情報を保存できるらしい. qiita.com

webビデオ会議システム

webビデオ会議のシステムを作ってみた Web Conferencing System

金融テキストマイニングにおけるモデルの評価

コーパスとテキストマイング http://amzn.asia/2IbDzDK の読書メモ モデルの評価の基礎的な流れは以下のとおりです. 1.訓練データからモデルを学習する 2.評価データの説明変数をモデルに入力し評価データの目的変数の値を推測する. 3.実際の評価データの…

金融テキストマイニングにおけるモデルの評価

コーパスとテキストマイング http://amzn.asia/2IbDzDK の読書メモ モデルの評価の基礎的な流れは以下のとおりです. 1.訓練データからモデルを学習する 2.評価データの説明変数をモデルに入力し評価データの目的変数の値を推測する. 3.実際の評価データの…

論文 Twitter mood predicts the stock market

コーパスとテキストマイニングより引用 --------------------------------------------------------------------------------------------------- Bollenら(2011)は,2008年2月28日から11月28日の9,853,493個のtwitterのテキストを分析し,米国の…

BOWのデータフレームを作る簡単な方法

シンプルなテーマだが,あまり情報がなかったので調べてみた.なんらかテキスト集合からBag Of Words,つまり(単語ID, 出現回数)の集合を作る方法はよく情報提供がなされている. よく提供されている方法としてgensimのcorporaを使ったものがあるが,そこ…

オフラインでもssh接続を維持するために

awsなどのサーバーにssh接続した上で時間のかかる処理をしている場合, 基本的にパソコンをwifi環境から外してしまうとssh接続が途切れる. 10時間ぐらいかかるプログラムを回していて終電にぶちあたってしまったときなどは大変だ. そういうときの対策を…

ubuntuでpipでインストールしたライブラリを使いたいのにパスが通っていない,,

という場合のの対処法 結論から言えば 以下のように site-packagesのパスを調べて sys.pathに追加してあげればOK!! #ライブラリのパスを設定 import sys sys.path.append("/home/ubuntu/anaconda3/lib/python3.6/site-packages") site-packagesのパスは使っ…

mecabによるtokenize中に起こるUnicodeDecodeErrorの解決

import MeCab#mecab = MeCab.Tagger(' -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')mecab = MeCab.Tagger('mecabrc -u expert.dic') import re from bs4 import BeautifulSoup from urllib.request import urlopen # ストップワードを定義def make_s…

PandasのDataFrameの行を反復処理する方法は?

[Python] PandasのDataFrameの行を反復処理する方法は? rows | CODE Q&A [日本語] こちらのサイトを参考にした. 1.行をSeriesとして取り出す方法 DataFrame.iterrows()を使う 例 for row in df.iterrows(): print("c1 :",row["c1"],"c2 :",row["c2"]) 2.行…

DataFrameに関数を適応したいとき

sinhrks.hatenablog.com こちらを参照した. 基本的に各列,各行に関数を適応したいときは DataFrame.apply というようにDataFrameのメソッドのひとつであるapplyメソッドを使えば良い ・各列に対して関数を適応したいとき DataFrame.apply(関数) ・各行に対…

python処理を早くするために

1.単純なfor文の代わりにmapまたはリスト内包表記で代用しよう 2.SQLクエリを何度も実行するのはやめよう 3.オブジェクトへの参照回数はなるべく減らそう 4.データフレームの読み書きにはcsvではなくpickleを使おう まず1について. utgwkk.hateblo.jp これ…

dataframeをseiriesとして一行ずつ取り出す pandas入門 DataFrameのループ処理 - Python学習講座

2つのデータフレーム(シリーズ)間で共通する要素だけを取り出す ja.stackoverflow.com

文字列で書かれた時刻を演算する python paper.hatenadiary.jp

arXiv ACL2018に参加した

最初の論文 Probabilistic FastText for Multi-Sense Word Embeddings Sentence-State LSTM for Text Representation センテンスのベクトル表現を獲得する手法 Takanori Nakai, Data scientist at D2c | SlideShare のスライドが参考になる 知識ベースの情報…

Effective Pythonのまとめ

pythonコードを綺麗に書く方法を学ぶために、こちらの本を借りました。 Effective pythonです。 項目1: 使っているPythonのバージョンを知っておく 項目2: PEP8スタイルガイドに従う 項目3: bytes, str, unicodeの違いを知っておく 項目4: 複雑な式の代わり…

ubuntuへのmysqlのインストール

こちらでできる ksino.hatenablog.com 以上!!!!! このあとpythonからmysqlに接続する その際に参照すべきはこちらのぺーじかな Python3 データをMySQLに挿入する|Review of My Life mysqlというモジュールがみつからん!というお叱りを頂いた場合、path…

オープンイノベーションスペースでの施策案かきなぐり

どうもbarisukeです。 今自分はlabcafeというコワーキングスペース Lab+Cafe の学生スタッフをやっております。 ここはコンセプトとして ・夜ゆっくりできる居心地が良い場所 ・肩書きに関係のない仲間を見つけられる場所 ・仲間とともに何かに挑戦できる場…

学術論文からNLPを用いてファクトを抜き出す

論文からファクトを抜き出す技術についてこんなやりとりが全脳アーキテクチャであった。 紹介されている論文については今週読む。 山川 宏 ― 全脳アーキテクチャ -whole brain architecture- 2時間前 · どなたかご存知の方にお聞きしたいのですが、神経科学…