名寄せなどを行うために、しばしばlevenshtein distance通称編集距離による類似度比較が行われます。私の場合bigquery上でこの処理を行いたかったのですが探しても探しても該当コードが見あたらなかったため簡単に関数を自作しました。標準SQL文のみだと実装…
忘備録:csvファイルからjsonファイルを出力するコード import csv , json csvFilePath = "file.csv" jsonFilePath = "file.json" arr = [] #read the csv and add the arr to a arrayn with open (csvFilePath) as csvFile: csvReader = csv.DictReader(csv…
ubuntuで自然言語処理環境を構築する方法 0.ubuntuインスタンスを作成 今回はGCPでubuntu16.04インスタンスを作成しました. この過程に関しては他のブログをみてください 1.docker CEをインストール https://docs.docker.com/install/linux/docker-ce/ubunt…
jupyter notebookを不正に終了していることが原因ぽいです. github.com の https://github.com/jupyter/notebook/issues/2844#issuecomment-385882596 こちらのコメントに従いましょう.
linuxconfig.orgこちらにのっとってやること.
こんな感じ(select * from market_Ohlc where currency_pair='btcjpy' order by close_time asc limit 1) union all (select * from market_Ohlc where currency_pair='btcjpy' order by close_time desc limit 1);(select 任意のカラム from 任意のテーブル…
損失関数は最小化するものと一般には理解されていますが,VAEの損失関数は最大化するものとして扱われる場合が多いみたいです.これで混乱してしまう方がよくいます. VAEの損失関数は対数尤度関数を変形したもので, VAEの損失関数 = ReconstractionError -…
い
今手元に仮想通貨関係のInfluencerたちの発したtweetとBTC価格のデータセットがあるのですが,ここからBTC価格に影響のありそうなtweetを抽出し,さらにwweetからBTC価格の上下を当てる,,なんてことを研究で行っています. 一旦はeventstudyでBTC価格に影…
入江開発室って知ってますか?最近twitterなどで徐々に認知度が上がっている開発者向けのオンラインサロンです camp-fire.jp 色んなプロジェクトが並行して走っていて,サロンメンバーは好きなプロジェクトに参加できるようになっています. このオンライン…
pickleの代わりにdillをつかうとセッション情報を保存できるらしい. qiita.com
webビデオ会議のシステムを作ってみた Web Conferencing System
コーパスとテキストマイング http://amzn.asia/2IbDzDK の読書メモ モデルの評価の基礎的な流れは以下のとおりです. 1.訓練データからモデルを学習する 2.評価データの説明変数をモデルに入力し評価データの目的変数の値を推測する. 3.実際の評価データの…
コーパスとテキストマイング http://amzn.asia/2IbDzDK の読書メモ モデルの評価の基礎的な流れは以下のとおりです. 1.訓練データからモデルを学習する 2.評価データの説明変数をモデルに入力し評価データの目的変数の値を推測する. 3.実際の評価データの…
コーパスとテキストマイニングより引用 --------------------------------------------------------------------------------------------------- Bollenら(2011)は,2008年2月28日から11月28日の9,853,493個のtwitterのテキストを分析し,米国の…
シンプルなテーマだが,あまり情報がなかったので調べてみた.なんらかテキスト集合からBag Of Words,つまり(単語ID, 出現回数)の集合を作る方法はよく情報提供がなされている. よく提供されている方法としてgensimのcorporaを使ったものがあるが,そこ…
awsなどのサーバーにssh接続した上で時間のかかる処理をしている場合, 基本的にパソコンをwifi環境から外してしまうとssh接続が途切れる. 10時間ぐらいかかるプログラムを回していて終電にぶちあたってしまったときなどは大変だ. そういうときの対策を…
という場合のの対処法 結論から言えば 以下のように site-packagesのパスを調べて sys.pathに追加してあげればOK!! #ライブラリのパスを設定 import sys sys.path.append("/home/ubuntu/anaconda3/lib/python3.6/site-packages") site-packagesのパスは使っ…
import MeCab#mecab = MeCab.Tagger(' -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')mecab = MeCab.Tagger('mecabrc -u expert.dic') import re from bs4 import BeautifulSoup from urllib.request import urlopen # ストップワードを定義def make_s…
[Python] PandasのDataFrameの行を反復処理する方法は? rows | CODE Q&A [日本語] こちらのサイトを参考にした. 1.行をSeriesとして取り出す方法 DataFrame.iterrows()を使う 例 for row in df.iterrows(): print("c1 :",row["c1"],"c2 :",row["c2"]) 2.行…
sinhrks.hatenablog.com こちらを参照した. 基本的に各列,各行に関数を適応したいときは DataFrame.apply というようにDataFrameのメソッドのひとつであるapplyメソッドを使えば良い ・各列に対して関数を適応したいとき DataFrame.apply(関数) ・各行に対…
1.単純なfor文の代わりにmapまたはリスト内包表記で代用しよう 2.SQLクエリを何度も実行するのはやめよう 3.オブジェクトへの参照回数はなるべく減らそう 4.データフレームの読み書きにはcsvではなくpickleを使おう まず1について. utgwkk.hateblo.jp これ…
dataframeをseiriesとして一行ずつ取り出す pandas入門 DataFrameのループ処理 - Python学習講座
2つのデータフレーム(シリーズ)間で共通する要素だけを取り出す ja.stackoverflow.com
文字列で書かれた時刻を演算する python paper.hatenadiary.jp
最初の論文 Probabilistic FastText for Multi-Sense Word Embeddings Sentence-State LSTM for Text Representation センテンスのベクトル表現を獲得する手法 Takanori Nakai, Data scientist at D2c | SlideShare のスライドが参考になる 知識ベースの情報…
pythonコードを綺麗に書く方法を学ぶために、こちらの本を借りました。 Effective pythonです。 項目1: 使っているPythonのバージョンを知っておく 項目2: PEP8スタイルガイドに従う 項目3: bytes, str, unicodeの違いを知っておく 項目4: 複雑な式の代わり…
こちらでできる ksino.hatenablog.com 以上!!!!! このあとpythonからmysqlに接続する その際に参照すべきはこちらのぺーじかな Python3 データをMySQLに挿入する|Review of My Life mysqlというモジュールがみつからん!というお叱りを頂いた場合、path…
どうもbarisukeです。 今自分はlabcafeというコワーキングスペース Lab+Cafe の学生スタッフをやっております。 ここはコンセプトとして ・夜ゆっくりできる居心地が良い場所 ・肩書きに関係のない仲間を見つけられる場所 ・仲間とともに何かに挑戦できる場…
論文からファクトを抜き出す技術についてこんなやりとりが全脳アーキテクチャであった。 紹介されている論文については今週読む。 山川 宏 ― 全脳アーキテクチャ -whole brain architecture- 2時間前 · どなたかご存知の方にお聞きしたいのですが、神経科学…