Rのこと。

記事は引っ越し作業中。2023年中までに引っ越しを完了させてブログは削除予定

間隔尺度のしらべごと

なんか間隔尺度が話題になっていたので、自戒のためにまとめておく。 間隔尺度は、「0 が何もない状態を表さない」。なので、間隔尺度は足し引きの計算は行ってよいが、掛け算、割り算はなぜだめなのか。 よくある気温の例をもとにすると、暖かさははそもそ…

Juliaをjupyter notebookで起動するまでのメモ~MacBook Air (M1, 2020)~

Juliaのインストール インストーラーをDownload Juliaからダウンロード。ここでは、下記を利用する。 macOS ARM (M-series Processor) ダウンロードの後、ApplicationフォルダにAppを移動させる。 jupyter notebookのインストール Anaconda環境ではないので…

スプレッドシートで簡易なデータ連携・検証に使う際のGAS集

はじめに 仕事をしていると、何でもかんでもサーバーで動かす、ソフトウェアライセンス費用がかかる、費用対効果もわからないので、簡易なデータ連携の基盤を作るが色々と面倒だったりする。そんなときに様々なツールと連携しているスプレッドシートを使うと…

lubridateパッケージのparse_date_time関数がうまくいかない?

よくわからないので調べる。下記の1つ目のケースがうまくいかない。 1日の前に半角スペースがなく1桁→うまく変換されない 1日の前に半角スペースがあり2桁→うまく変換される 1日の前に0があって2桁→うまく変換される library(lubridate) parse_date_time("Ap…

ローカルからGithubへのアクセスのパスワード認証終了のお知らせが来たのでSSHでアクセスする

遂にこの日がきてしまった。ローカルからGithubへのアクセスにおいて、パスワード認証が終了したため、SSHまたはトークンなどの登録が必要になったので、その設定のまとめ。いつかきっと忘れるので。 SSHキーを作成 リポジトリにアクセスする端末で下記を実…

RmarkdownとGithubPagesを使ってミニマムな勉強ノートを作る

GituhubのページでRマークダウンを管理するリポジトリを作成する。ここではstatistical_noteとする。 ローカルPCでRマークダウンを管理するディレクトリを作成する。リポジトリと同じくstatistical_noteとする。いつものようにリモートリポジトリの設定を行…

glmnetパッケージのcv.glmnet関数のstandardize引数の超雑なメモ

glmnetパッケージのcv.glmnet関数のstandardize引数の超雑なメモ ?glmnetには下記の記載がある。 standardize Logical flag for x variable standardization, prior to fitting the model sequence. The coefficients are always returned on the original s…

tidyselectについてのメモ

カラムの選択でtidyselectパッケージのvars_select()を使った例。 library(tidyverse) library(tidyselect) n = 5 data <- tibble( y = rnorm(n, 100, 10), a1 = rnorm(n, 100, 10), b2 = rnorm(n, 100, 10), c3 = rnorm(n, 100, 10), a2 = rnorm(n, 100, 10…

PyCharm + Docker + Python3.*で環境構築メモ

はじめに PyCharm + Docker + Python3.*で環境構築した際のメモを残しておく。 バージョン 理由はわからんが、PyCharmの2020.2.*以上だと、下記のエラーが出る。 PyCharm Docker Interpreter: Python packaging tools not found. PyCharm Professional 2020.…

EC2とLinuxあれこれ

rootのパスワードを設定する方法 // ec2-user でログイン $ chmod 600 sshkey.pem $ ssh -i sshkey.pem ec2-user@xxx.xxx.xxx.xxx // rootユーザにクラスチェンジ $ sudo su - // rootユーザのパスワード変更(例:実際はありえないがテキトーにパスワードはr…

AWSのEC2でRstudio Serverを動かす方法のメモ(EC2編とDocker編)

はじめに 下記2種類の方法で、AWSのEC2でRstudio Serverを動かす方法のメモを残しておく。 EC2にインストールして、EC2から利用する方法 EC2の中にDockerをインストールして、Dockerコンテナから利用する方法 Run Rstudio Server in EC2 AWSの環境を整えて、…

lubridate::mdy()の挙動に関するメモ

はじめに lubridate::mdy()の挙動で知らないことがあったのでメモ。 lubridate::mdy() lubridate::mdy()は簡単にいうと、年日月という形式のデータを日付に変換してくれる関数。なんだけど、渡す文字列によっては想定どおりに変換されないので注意。"Decembe…

テストの技法

テストの技法 テストの技法はデータ分析でも役立てれそうということで、テストの紹介とまとめ。同値クラステスト、境界値テスト、ドメイン分析テスト、デシジョンテーブルテスト、ペア構成法(直交表)をまとめておく。 ソフトウェアテストの概念 テストの抜け…

Rstudioのbrowserとdebugモードについて

はじめに Rstudioのbrowserとdebugモードなでデバッグについて少し共有する機会があったので、そのメモ。関数を定義した際に、エラーが出力されたり、期待通りの動作をしないことがよくある。そのような場合に、どこに誤りがあるのかを探して見つけて修正す…

Windowsでファイルパスに日本語を含む場合のread_excel()。

はじめに Windowsでファイルパスに日本語がある場合のエクセルデータの読み込みに関するメモ。諸事情あって、WindowsでRから日本語を含むファイルパスのエクセルデータを読み込むことになったが、実際に経験したことなく、エラーがでて少し手間取ったのでメ…

glmnetパッケージのv4.0が出たので内容のまとめ

はじめに ここでは、glmnetパッケージのバージョン4.0が出たので、その内容のまとめです。glmnetパッケージは正則化回帰を使用する際に使用していたのですが、statsパッケージのglm()に含まれるリンク関数や確率分布が使用できるようになったらしいので、そ…

効率的に出力を日本語がする方法がわからない

はじめに ちょいと回帰分析の出力を日本語化する必要があったので、メモ。 回帰係数のアウトプット 回帰係数のアウトプットを少し弄って日本語化したい。出力されたものをrename()するでも良いかもしれないが、それはそれで毎回面倒。なので、新しい日本語出…

RMySQLパッケージの使い方まとめ

はじめに MySQLのRインターフェースであるRMySQLパッケージの基本的な使い方をまとめておく。今まで、MySQL側でやってしまっていたのをRと接続して、色々やりたいことがあったので、そのためのまとめ。MySQLにRからインサートするも適時、参照。 RとMySQLの…

StanでGLM

WPからの引っ越し記事なのでレイアウトが崩れてます。 GLM図鑑 by Stan 線形回帰モデル ロバスト回帰モデル ポアソン回帰モデル ロジステック回帰モデル 二項回帰モデル 多項ロジスティクス回帰モデル ガンマ回帰モデル ベータ回帰モデル 対数正規回帰モデル…

ld: library not found for -lgfortranの対処法

はじめに forecastパッケージをインストールした際にld: library not found for -lgfortranがでて困った際のワークアラウンド。 sessionInfo() R version 3.6.3 (2020-02-29) Platform: x86_64-apple-darwin15.6.0 (64-bit) Running under: macOS Mojave 10.…

HTTPとAJAXのおさらい

はじめに ここらへんの知識が足りてないことを痛感することが多いので、ここではHTTPとAJAXのおさらいをまとめておく。参考文献はAutomated Data Collection with R。 HTTP Webサイトからデータを得るということは、webサービスとサーバーが通信していること…

JSONとNDJSONをRで扱う

はじめに ここではJSONとNDJSONをRで扱う方法をまとめておく。 JSONとは そもそもJSONとはなにか。JSON(JavaScript Object Notation)は、軽量のデータ交換フォーマットで、人間にも機械にも読み書きが容易な形式のデータのことらしい。 基本的には下記のよう…

{tabulizer}でThe R session had a fatal errorを繰り返した話。

20200827追記:pdftoolsパッケージのメモ はじめに {tabulizer}でThe R session had a fatal errorを繰り返した話。 library(tabulizer) ↓ The R session had a fatal erro... {tabulizer} {tabulizer}というPDFを読み込みパッケージがある。PDFなんかはデー…

データフレームの名前

はじめに データフレームの名前属性(names)についてまとめておく。data.frame()とtibble()では名前に対する扱いが異なる、ということ。詳細はRepair the names of a vector こちら。 data.frame()とtibble() data.frame()の場合、同じ名前がついていると、自…

R関数の引数チェック

はじめに R関数の引数チェックについて、社内勉強会用にまとめておく。本当は{rlang}のabort()、warn()、inform()あたりをまとめたかったのだが、時間がなかったので、基本的な部分だけまとめている。今後追記していく予定。 引数チェックとは 基本的に関数…

K-Fold Target Encoding

はじめに ここではK-Fold Target Encodingについてまとめておく。下記のサイトでは、K-Fold Target Encodingの説明とPythonでの実装が乗っているので、それを参考にRで雑に書き直してみた。いつの日か関数化しよう…。 K-Fold Target Encoding K-Fold Target …

S3クラスのまとめ

はじめに RのS3クラスシステムについて、他の言語をやっていると、少しごっちゃごちゃになってきたので、簡単にまとめておく。 S3クラス Rの基本となるクラスシステムはS3クラス。他にもS4とかR5とかあるけどもここでは、S3クラスのことをまとめる。このシス…

GithubとRを連携させてレポートを共同で作成する方法

R

はじめに ここではRstudioで作成したRmdファイルをGituhubで管理し、複数人で共同で作業する場合の方法について記載する。また、RstudioではUIとしてGitを管理できるようになっているが、ここではターミナル(windows:コマンドプロンプト)を使用する。 仕事で…

Advanced R: S3

はじめに Advanced R 2nd EditionのPaperBook版が届いたので、Rについてのおさらい備忘録。また、書籍を読んでいるにも関わらず誤った解釈や用語の誤用もあるかもしれませんので、参考にする際は自己責任でお願いします。 この記事のライセンスはAdvanced R …

Advanced R: Functionals

はじめに Advanced R 2nd EditionのPaperBook版が届いたので、Rについてのおさらい備忘録。また、書籍を読んでいるにも関わらず誤った解釈や用語の誤用もあるかもしれませんので、参考にする際は自己責任でお願いします。 この記事のライセンスはAdvanced R …