Rの基本的な統計処理
統計処理
R言語を用いて、平均値、中央値、四分位数などの基本的な計算を行います。
csvファイルからデータの取得
"<-"記号は代入するという記号です。head()関数で先頭から6行を表示します。 xオブジェクトの中のMethematicsを選択するには"$"記号で選択します。
x <- read.csv("classData.csv") head(x) x$Mathematics
平均値、中央値、分散、標準偏差
平均値にはmean、中央値にはmedianを使用します。
math <- x$Mathematics mean(math) #平均値 sum(math) / length(math) #平均値 median(math) #中央値 var(math) #分散 sd(math) #標準偏差 colMeans(x[,-c(1,2)]) #1,2列目以外の平均値
上野例題の場合には平均値と中央値は近い値でしたが、平均値と中央値が大幅に異なる場合を年収データの例を使って説明します。
c(..., ...)でベクトルを作成します。
salary <- c(300,300,300,400,400,2000,9000) mean(salary) median(salary) hist(math) hist(salary)
上のように平均値と中央値に大幅に差がでるときがあります。
一般に中央値のほうが平均値より外れ値に強い性質をもちます。
したがって、左右対称のグラフの場合には平均値は有効ですが、年収のような偏ったグラフになる場合には四分位数などで考える方が良い。
四分位点と箱ひげ図
最小値がひげの下端、第一四分位数が箱の下端、第二四分位数(中央値)が箱の中央の線、第三四分位数が箱の上端、最大値がひげの上端。
quantile(x$Japanese) #四分位点を表示 boxplot(x$Japanese) #箱ひげ図の作成