R samples

python

numpy and pandas

R vs Stata

R graphic

LaTeX

asymptote

Blog

数学

トップへ

剰余
```
5 %% 3
```
ベクトルの累積和
```
cumsum(1:5)
```
組み合わせ
```
choose(5,3)
```
全ての組み合わせを返す
```
library(combinat)
combn(5,3)
```
全ての置換を返す
```
library(combinat)
permn(5)
```

確率分布

トップへ

乱数発生（参考: CRAN Task View: Probability Distribution）

N <- 10
runif(N)  # 一様分布
rnorm(N)  # 正規分布
rlnorm(N)  # 対数正規分布
rexp(N)  # 指数分布
rgamma(N, 1)  # Gamma分布
rbinom(N, 50, .4)  # 二項分布
rpois(N, 1.5)  # Poisson分布
rnegbin(N, 1, 1.2)  # 負の二項分布

密度関数
```
dunif(.2)
dnorm(.4)
```
累積分布関数
```
punif(.8)
pnorm(1.96)
```
Quantile関数
```
qunif(.7)
qnorm(.05)
```

統計

トップへ

基礎統計量

x <- runif(50)

mean(x)  # mean
sd(x)  # standard deviation
var(x)  # variance
median(x)  # median

Quantile

x = rlnorm(200)

quantile(x)
quantile(x, c(.1, .3, .5, .7, .9))

集計

クロス集計

# mock data
sex <- c("F", "M", "F", "F", "M", "F", "M", "F", "M")
age <- c("20-29", "10-19", "10-19", "20-29", "20-29", "10-19", "20-29", "20-29", "10-19")
nation <- c("Japan", "USA", "USA", "USA", "Japan", "USA", "JAPAN", "JAPAN", "USA")
height <- c(1.5, 1.7, 1.65, 1.45, 1.8, 1.5, 1.6, 1.6, 1.65)
dat <- data.frame(sex, age, nation, height)

xtabs(~ sex + age, data=dat)
xtabs(~ sex + age + nation, data=dat)

data.frame(xtabs(~ sex + age, data=dat))  # データフレームに変換

合計をつける

tbl <- xtabs(~ sex + age, data=dat)
addmargins(tbl)
addmargins(tbl, 1)

グループごとの統計量

aggregate(height ~ sex + age, data=dat, FUN=mean)
# 戻り値はデータフレーム

Econometrics

トップへ

線形回帰（ordinary least squares）

回帰分析オブジェクトを生成

# mock data
N <- 1000
x1 <- runif(N)
x2 <- rnorm(N)
eps <- rnorm(N)
y <- x1 - x2 + eps
dat <- data.frame(x1, x2, y, eps)

lm.obj <- lm(y ~ x1 + x2, data=dat)

# display the result
summary(lm.obj)

分散共分散行列いろいろ

library(sandwich)
V.homo <- vcov(lm.obj)  # valid under homogeneity assumption
V.rob <- sandwich(lm.obj)             # heterogeneity robust
V.rob_adj <- sandwich(lm.obj, adjust=T)  # heterogeneity robust + small sample adjustment

t-検定（ゼロからの有意差）

library(AER)
coeftest(lm.obj) 
coeftest(lm.obj, vcov = V.rob)
coeftest(lm.obj, vcov = V.rob_adj)

F-検定（線形仮説検定）

library(AER)
linearHypothesis(lm.obj, "x1 + x2 = 0")
linearHypothesis(lm.obj, c("x1 = 1", "x2 = -1"))

操作変数法 (IV regression)

library(AER)

# mock data
N <- 1000
eps <- rnorm(N)
z <- rexp(N)
x1 <- rnorm(N) + .3*eps - .3*z  # x1 is endogenous
x2 <- rnorm(N)
y <- x1 - x2 + eps
dat <- data.frame(x1, x2, z, y, eps)

iv.obj <- ivreg(y ~ x1 + x2 | x2 + z, data=dat)
summary(iv.obj)

最尤法 (Maximum likelihood, quasi-ML)

Poisson regression

# mock data
N <- 1000
x1 <- runif(N) 
x2 <- rnorm(N)
size <- ceiling(rlnorm(N))
prob <- exp(x1 - x2)
mu <- size * prob
fun <- function(mu) {
    return(rpois(1, mu))
}
y <- sapply(mu, fun)
dat <- data.frame(x1, x2, size, y)

poi.obj <- glm(y ~ x1 + x2 + offset(log(size)), family="poisson", data=dat)
summary(poi.obj)

Negative binomial regression

Logit, probit

# mock data
N <- 1000
x1 <- runif(N) 
x2 <- runif(N)
u <- rnorm(N)
y <- as.integer(x1 - x2 >= u)
dat <- data.frame(x1, x2, u, y)

log.obj <- glm(y ~ x1 + x2, family=binomial(link="logit"), data=dat)
summary(log.obj)
prob.obj <- glm(y ~ x1 + x2, family=binomial(link="probit"), data=dat)
summary(prob.obj)

Tobit

library(survival)

# mock data
N <- 1000
x1 <- runif(N)
x2 <- runif(N)
eps <- rnorm(N)
y.star <- x1 - x2 + eps
y <- y.star
y[y <= 0] <- 0
dat <- data.frame(x1, x2, y.star, y, eps)

tob.obj <- survreg(Surv(y, y>0, type="left") ~ x1 + x2, data=dat, dist="gaussian")
summary(tob.obj)

分散共分散行列いろいろ

V.Hess <- vcov(poi.obj)  # estimated by hessian
V.OP <- solve( meat(poi.obj) * length(probit.obj$y) )  # estimated by score
V.rob <- sandwich(poi.obj)  # robust v-cov matrix. used for quasi maximum likelihood

Heckit

library(sampleSelection)

# mock data
N <- 1000
x1 <- runif(N)
x2 <- rnorm(N)
z <- rnorm(N)
e1 <- rnorm(N)
e2 <- .6 * e1 + .4 * rnorm(N)
v <- 1.5 * x1 - z + e2
y.star <- x1 - x2 + e1
y <- y.star
y[v <= 0] <- NA
d <- as.integer(v > 0)
dat <- data.frame(x1, x2, y, z, v, d, y.star, e2, e1)

heck.obj <- heckit(d ~ x1 + z, y ~ x1 + x2, data=dat)
summary(heck.obj)

数値計算

トップへ

最小化・最大化

obj <- function(x) {
    return(- x[1]^2 - x[2]^2 + x[1]*x[2] + x[1] + x[2])
}

optim(c(0, 0), obj, method="BFGS", control=list(fnscale=-1, trace=1))
# default is minimization. "fnscale=-1" switches to maximization

# 改訂版 (?)
library(optimx)
optimx(c(10, 10), obj, method="BFGS", control=list(fnscale=-1, trace=1))

非線形方程式の解

lhs <- function(x) {
    v1 <- x[2] - exp(x[1])
    v2 <- x[2] - 1/x[1]
    return(c(v1, v2))
}

# many solvers...
library(nleqslv)
nleqslv(c(1, 1), lhs)

library(rootSolve)
multiroot(lhs, c(1, 1))

library(BB)
BBsolve(c(1,1), lhs)

2次元プロット

トップへ

3次元プロット

トップへ

3D scatterplot

# mock data
x = rnorm(7)
y = rnorm(7)
fun <- function(x, y) {
    return(x)
}
X <- outer(x, x, fun)
Y <- t(outer(y, y, fun))
Z <- sin(X) + cos(Y) + rnorm(49)
X <- as.vector(X)
Y <- as.vector(Y)
Z <- as.vector(Z)

library(scatterplot3d)
scatterplot3d(X, Y, Z, pch=4, type="h", highlight.3d=T)

Perspective plot

# mock data
fun <- function(x, y) {
    return(- x^2 - y^2 + x*y + x + y)
}
X <- seq(-2, 4, by=.5)
Y <- X
Z <- outer(X, Y, fun)

persp(X, Y, Z, theta = 30, phi = 40, expand = 0.7, col = "lightblue", ticktype="detailed")

# add title
ttl = expression(z == - x^2 - y^2 + x*y + x + y)
title(main = ttl)

時間

トップへ

閏年かどうか判定

library(chron)
leap.year(2012)
leap.year(2013)

曜日を判定（存在しない日でもエラーが出ないので注意）

library(chron)
day.of.week(month=9, day=10, year=2012)
day.of.week(month=2, day=30, year=2012)  # !!!

文字列

トップへ

大文字・小文字に変換
```
toupper("aBcDE")
tolower("aBcDE") 
```

ファイル・ディレクトリ

トップへ

ディレクトリ作成

dir.create("folder")
dir.create("folder2/subfolder", recursive=T)  # 再帰的に

ファイルの存在を確認

file.exists("folder/file.txt")
file.exists("folder")

パスの結合

file.path("folder/subfolder", "file.txt")

その他

トップへ

Rのバージョン、パッケージのバージョンを調べる
```
sessionInfo()
```

目次

数学

確率分布

統計

Econometrics

数値計算

2次元プロット

3次元プロット

時間

文字列

ファイル・ディレクトリ

その他