Take Your Time

仕事や研究、コンピューターとの付き合い方

分析技術

分析で最近やっていること

分析稼業を10年近く続けてきて今更感もあるが 作業ログをとる 特にマルチタスクだと外部記憶装置として作業ログは必須 どこで何をしたかだけでなく、何をトライしてどう失敗したかも 同じことを繰り返すことを避ける notebookは人に見せるように作る ソース…

Django + Docker + Google Map Javascriptで開発をしてみた。 1ヶ月かかるかと思ったが実働1週間程度でかなり進んだ。 DockerはUdemyのこれ、Djangoはこれとこれが役に立った。 Google Map Javascriptは公式のsampleと無数のウェブサイトが参考になった。 …

分析もマイクロサービス化するべきなのかもしれない

データとってくる簡単なスクリプトとかをたくさん書いておくとあとで自分が助かる アドホックな分析が多い仕事だけにスクリプトの種類は多ければ多いほどいい これをjupyter notebookに分散させておくよりどこかにまとめておくほうがいい

愚痴

査読の結果がたくさん帰ってきた。 データの扱い、実験の仕方が突っ込まれた。 人工データで実験=>実データでやれや プロプライエタリ実データで実験=>倫理観どうなっとるんじゃ。公開データでやれや再現性どうなっとるんじゃ。 実データをオープンにすると…

考える

論文を書くということは、賢者が普段から考えて蓄えていた知恵を授けるイメージでいたが、問いを受けて書きながら考えること自体が知の営みなのかもしれない。考えるということ自体が自発的なものではなくてなんらかの反応なのだろうか。そうであるならたく…

切り替え

複数プロジェクト回していると、別のプロジェクトにうつった時に始動が遅い。 固めて2-3日同じことだけできればいいが、締め切りがあったり、他の人街になったりするので難しい。 だいたいこういう感じになる。 始めようとする。 何やってたっけ。 チェック…

無料でPrivateが使えるプランができた今すべてをGitHubにあげることを目標にする。

分析パイプライン結論?

delma.hatenablog.com delma.hatenablog.com 最近、Apple PencilでiPadに書きつけた手書きのメモをjupyterで from IPython.display import Image, display_png Image("tegaki_memo.jpg") と表示することで、メモ書き(=構想)、コード(=作業)を一体化し…

分析パイプラインを再構築する 振り返り

delma.hatenablog.com 課題点 * サーバーでやったのか、ローカルでやったのかわからなくなる。 どこかにまとめるべき? * RでやったのかPythonだったのかよくわからなくなる。 どっちかにまとめるべき? →日誌を書いたほうが良い気がしてきた。 1タスク1ノー…

not to be smart but to be efficient

分析稼業はループの繰り返し。 あたりをつけて分析してそこで得られた知見をもとにまた計画を練り直してという感じ。 データが新しくなれば、手法が新しくなれば、前の知見は通用しないことが多い 結果的に無駄なぐるぐるを繰り返すことになるが、それは結果…

研究分析のパイプラインを考える(振り返り1回め)

delma.hatenablog.com 書いてから2週間経ったので振り返り。 新ルール(仮) とっかかりはrmdかjupyter。 検索可能性が上がるようにproject毎にまとめる。 projectごとにレポジトリを作る 作業のおおまかな計画的なやつはreadmeを更新していく。タスク管理…

分析、研究パイプラインを真面目に考える

課題感 様々な分析しごとをどうオーガナイズするかめちゃくちゃになっているのでルールを決めたい。 現状 研究 jupyter notebookかRmarkdownで実施。コードを書く前に動作を確認したいときはSQLミドルウェアも使う。 Pythonコードはgithubで管理。 最近あま…

notebookはきれいにしない

jupyter notebookを使うとき、分析計画→実行→結果考察→改善点の模索、というPDCAをとるべきだが、どうしても実行の際に改善点が思い浮かんでしまい、実行コードを書き換えてしまう時がある。 しかしこれはよくない。 分析計画のときに決めた内容の結果が失わ…

ビッグデータを分析するときのティップス

データが大きいということは様々なリスクがあるということ。基本はしっかりアセスメントを行ってから分析を実行すべきということ。 まずは、メモリ管理。せっかく計算ができてもメモリエラーで止まってしまっては意味がない。一気に計算させて大丈夫なのか、…

待ち時間を作らない分析

大規模なデータセットを分析していると、得てして勿体無い精神でできる限りたくさんデータを使おうとしてしまうのが人間の性である。しかし実際は簡単な分析に何ギガものデータセットは不要で、サンプル抽出して分析すれば事足りることも多い。大規模データ…

計画する時間と作業する時間を分ける

かれこれ10年以上も企画やら分析に携わってきた中で明確に自分の中ではTIPSだと言えることがある。それは表題の通り計画と作業を分けることだ。 組織で働いていると、分析を計画し指示する人と作業する人が分かれているので、計画者は作業の工数や難易度など…

効率性を保つ

なんだか仕事術のことしか書いてない気がするが転職して軌道にのるまでは仕方ない。 突発事案とかがなく、自分のペースで仕事できる環境にある以上は効率性を追求すべきだし、維持しなければならない。 長期計画を日々確認微修正しつつ、週単位のスケジュー…

回帰分析の結果がおかしいとき

回帰分析の結果が変なとき考えるのは、 ・モデルのスペシフィケーションがおかしい。 ・optimizationパッケージ等ブラックボックスになっている部分に問題がある。 ・推定結果は正しくて何か面白いことがデータ上起こっている。 なんてことを考えるのだけど、…