読者です 読者をやめる 読者になる 読者になる

主に、強化学習

情報系の大学2年生が確率に関連したことを多めに書いてるブログ

一次元のデータ@統計学入門(東大の教科書)

重要な単語

  • 記述的統計学
  • 観測 obvervation
  • データ data
  • 一次元のデータ
  • 度数
  • 階級
  • 階級値
  • 相対度数
  • 累計度数
  • 累計相対度数
  • スタージェストの公式
  • 標本
  • 母集団

Pythonのモジュール

  • NumPy
  • SciPy
  • matplotlib
  • SymPy
  • Pandas

PandasはRの次のようなデータ構造を与える。
シリーズ (Series) とデータフレーム (DataFrame) です。
シリーズは 1 次元の配列のようなオブジェクトで、データフレームはテーブル形式の行と列によるデータ構造を持ちます。

http://qiita.com/ynakayama/items/68eff3cb146181329b48


>>rand(10,1)
array([[ 0.76531238],
       [ 0.86777506],
       [ 0.98417484],
       [ 0.05253498],
       [ 0.29255175],
       [ 0.49558222],
       [ 0.89937021],
       [ 0.44490758],
       [ 0.95626743],
       [ 0.92353954]])

>>rand(10,2)  #Indexが10に対して、comlumnsが2という感じ。
#あしがるさんの予想では、Indexが階級?で、comlumnsがn次元のデータのことかと思います。
#昨日、本読み始めた統計学童貞なので、間違ってたら教えて下さい><
array([[ 0.41191252,  0.78408815],
       [ 0.69181217,  0.81942949],
       [ 0.66868076,  0.93947081],
       [ 0.25760837,  0.31603181],
       [ 0.39179623,  0.74441291],
       [ 0.69351692,  0.24347463],
       [ 0.49526903,  0.74649896],
       [ 0.12707822,  0.73199425],
       [ 0.03210069,  0.6562726 ],
       [ 0.62860571,  0.7839686 ]])

#df = DataFrame(np.random.randn(6, 4),index=['1','2','3','4','5','6'],columns=Index(['A','B','C','D'], name='Genus'))

 
3x + 6y − 5z = 12 \\
x − 3y + 2z = −2 \\
5x − y + 4z = 10

の、x,y,zを解くためのには、

import numpy as np
a = np.array([[3, 6, -5], [1, -3, 2],
[5, -1, 4]])
# Defining the array
b = np.array([12, -2, 10])
# Solving for the variables, where we invert A x = np.linalg.inv(a).dot(b)
print(x)
# array([ 1.75, 1.75, 0.75])

Pythonでの棒グラフ

統計学入門の図を持ち要らせてもらい、これをPythonヒストグラムになおしてみようと思います。

f:id:reonreon3reon:20150427162917j:plain

f:id:reonreon3reon:20150427163137p:plain

f:id:reonreon3reon:20150427170613p:plain

参考

openbook4.me

qiita.com

5. 【pandas】関連 — kaiyori 1.1 documentation