2017-01-01から1年間の記事一覧

argsortで毎回悩む

http://sohatach.hatenablog.jp/entry/2014/10/04/173309 大体ここらへんを見直しているが、度々分からなくなるのでまとめるargsort()が返すのは、「その配列を昇順にソートした時の配列を元の配列のindexを使って表現したもの」なので、 a = np.array([3, 1…

シェルで日本語が打てない・読めない

・Python3で日本語が打てない http://haya14busa.com/mac-python-readline-input-japanese/ ~/.inputrc を編集した → 'ascii' codec can't decode byte 0xe3 in position 0などとエンコードに文句を言われる → そもそもpythonで"c"が打てなくなるので適当に…

シェルの終了ステータス

http://shellscript.sunone.me/exit_status.html よく忘れる 直前のコマンドの終了判定は$?でやること

箱ひげ図+折れ線グラフを作る方法

https://qiita.com/Yuichi801/items/8ffd9fb6c5ec39e206fc ここを参考にしてみたがすぐには作れなかった ax = plt.add_subplot(111) 1行目1列目1番のことだった(1つしかなければこれが普通) 折れ線グラフは http://pythondatascience.plavox.info/matplotl…

computing git status for repository [レポジトリ名] と出た時

https://qiita.com/s_makinaga/items/a930b6fd88a8cec74487このあたりも試してみたが収まらなかったので、一度.metadataを移動した上でprojectをdelete、再度importした

python3の改行なしprint

python2の print "hoge", は、python3では print("hoge", end=" ") # python2でprint, すると区切りはスペースになるため

テスト

テスト

日付変換したい

既にpythonにはその機能が備わっていた https://qiita.com/yoppe/items/4260cf4ddde69287a632

巨大なデータをpickle化する時

何も考えずに巨大なデータをpickle化しようとすると OverflowError: cannot serialize a bytes object larger than 4 GiB と怒られたhttps://stackoverflow.com/questions/29704139/pickle-in-python3-doesnt-work-for-large-data-saving protocolを新しいの…

TeXlive 2017を入れる時に気をつけたこと(Mac)

デフォルトだとscheme-customで一部必要なものが入らなかったのでインストール前の設定でscheme-fullにしておくこと

sentencepieceをsudo権限のない環境に入れたかった

結論:sudo環境のある所で入れよう…(protobufのインストール以外は滞りなくできた) https://github.com/google/sentencepiece最初の sudo apt-get install autoconf automake libtool libprotobuf9v5 protobuf-compiler libprotobuf-dev は apt-get source…

Pythonの疎行列でvstackしたい時があった

from scipy.sparse import vstack, hstackすればいい http://stackoverflow.com/questions/19710602/concatenate-sparse-matrices-in-python-using-scipy-numpy

JUMANが解析した時のコストを見たい

jumanに-detailオプションを付ける juman/dicにあるようなコストを基に計算されている(多分)バイト数で文字をカウントしていて、「何文字目までのコストが○○」という形で計算している

文字列が数字かどうかを簡単に判定したい

isdigit()を使うhttp://d.hatena.ne.jp/artgear/20120217/1329493335 入ってくる値が「数字」か「自然言語」だけなのか、あるいは「数字でできているけど数ではないもの」も入ってくるのかによって簡単さが違ってくる 簡単にやるなら先頭の文字についてisdig…

eclipseでRを書きたくなった

追記 補完を行うならそもそもRstudioを使った方がいいのでは? Rstudioならtabで補完出来そうだから… StatET を使う http://www.walware.de/goto/statet ここで自分のeclipseのバージョンに合わせたダウンロードサイトを指定ホームの指定方法 http://pracmpe…

pythonの文字種判別は簡単だった

http://furodrive.com/2014/04/zenhan/ 文字を不等式で比較することで、文字コードの大小比較が可能となるため文字種判別が容易

word2vecのコードをみたび読んだメモ

前回挫折した時 http://d.hatena.ne.jp/m_matsunag/20150518/1431925897 事前にnegative sampling用のtableを作る関数:InitUnigramTable 頻度の3/4乗の確率分布を作っている 具体的には、3/4乗した頻度の分だけindex (ハッシュ値)を持つハッシュを作って…