雑記まとめ

役に立ちそうな内容を気づき次第、アップします!ゆるーい感じでやっていこうと思っています

コンピュータの統計学とは?散布図、相関係数、回帰分析、重回帰分析とは??テクノロジーの進歩が目まぐるしい昨今、必要不可欠な基礎知識を4つ

   

コンピュータの統計学とは?散布図、相関係数、回帰分析、重回帰分析とは??テクノロジーの進歩が目まぐるしい昨今、必要不可欠な基礎知識を4つ

先日から書いている、初心者がコンピュータやプログラミングについて理解をする上での基礎中の基礎の続編です。今回は、聞いたことがある方もいるかもしれませんが「散布図」や「回帰分析」、「標準偏差や「分散」、「平均」などの用語を使う、「統計(コンピュータの)」について簡単にまとめたいと思います。前回も統計学については触れましたが、今回は統計学の分類の2つ目「数式を用いて、あるデータから別のデータを導き出す」方法について記載したいと思います。

統計学の分類

統計学には、大きく2つの手法があり、更にその手法は細分化できます。以下のような分類になります。

 ①数字で理解する

  • 代表値:平均、中央値、最頻値などに分類される。
  • ちらばり(ばらつき):分散、標準偏差など

 ②数式で理解する・・・あるデータから別のデータを算出る事。

   散布図や相関係数、回帰分析、重回帰分析などによって理解されている。

先日は①の数字で理解する統計学としてまとめましたので、今回は上でご紹介した②の「数式でアプローチする統計学」について記載したいと思います。それぞれの分類やキーワードについて、まとめていこうと思います。ここからお読みいただいても分かる様には書いていますが、①の内容はこちらです ↓

②数式でアプローチする統計学(散らばりと相関係数

■数式(ある数値から別の数値を推測する)から考える統計学については、散布図、相関係数、回帰分析、重回帰分析などが代表的です。まず、散布図とは下の図の上の段の様に、複数の点がある図が散布図です。何を表しているのかというと、2つの数値の関係を表しています。例えば、年齢と身長の関係性を表す場合には、縦軸を年齢、横軸を身長とすると、あるは15歳で152cmであったり、ある人は8歳で115cmだったりします。それぞれの年齢と身長を点で表すと下の表の様にいくつかの点で表すことが出来ます。また、貯金と年齢や部屋の広さと家賃、車の走行距離とガソリンの消費量など色々な数値の比較ができ、視覚的に分かりやすいのが、散布図のメリットです。

f:id:okutsuba:20200810155955p:plain

 『圧倒的な実績、本物の技術に精通したエンジニア転職のプロ集団【Kaguya】』

■次に、相関係数についてです。上の赤と青と黄色の点を見ると、それぞれ「散らばり(バラつき)」方に差があるのが分かります。赤点は他の2つに比べて少し散らばっている感じ、黄色は赤よりも散らばりが少なく、右に行くほど高いところに点がある様に見えます。また、青点に関しては、右に行くほど縦軸は小さくなるようで、散らばり方は赤点と黄色い点の間くらいでしょうか。この様に数値のバラつきを数値で表したものが、相関係数です。相関係数は-1~1の数字で表されます。数値が大きくなるほど縦軸と横軸の関係が高いということです。また、マイナスかプラスかは縦軸の数値が高くなると横軸の数値も大きくなる場合は、「正(プラス)の関係」です。例えば、身長と年齢(17歳、18歳くらいまで)の関係はおおむね年齢が高くなれば、身長も高くなるため、正の関係となります。逆に縦軸の値が大きくなると横軸の値が小さくなる場合は、「負(マイナス)の関係」となり、例えば、クルマの走行距離とガソリンの残りの量などを表す場合は負の関係となります。

          『エンジニアの転職なら【Kaguya】』

■数値の違いについては散らばりが0に近づくほど、図では散らばっているように見えます。例えば、「相関係数が「-0.65」「0.3」「0.8」の3つの数値が上の赤点、青点、黄点のいずれかに該当する場合、それぞれどの点の数値か?」という問題を考えたときに、見た目から、答えを導き出すことも出来ます。(答え:「-0.65」⇒青点。「0.3」⇒赤点。「0.8」⇒黄点)

②数式でアプローチする統計学(回帰分析と重回帰分析)

■上の図の中にある、下の3つの図にはそれぞれ直線が書かれています。この直線はそれぞれの表の縦軸と横軸の関係を表している直線です。この様な直線を考えることが出来れば、縦軸の値さえ分かれば、横軸の値を推測することが出来ます。例えば、ガソリンの量(横軸:X)と走行距離の関係(縦軸:Y)とした時の直線の式が、「Y=10+1.5X」と表すことが出来れば、走行距離が100キロの時にガソリンがどれだけ必要かが分かります。この様に2つの数字の関係を表した式を用いて、ある数値と関係する別の数値を導き出すことを回帰分析と言います。

       『エンジニア専業転職支援 求人数第1位【Kaguya】』

■重回帰分析は、変数が3つ以上になる場合です。例えば、物件(不動産)の金額を考える時に、駅からの近さや部屋の広さ、部屋の階数、築年数などの要素から物件の金額が決まるとします。この場合の変数は、駅からの近さ(A)、部屋の広さ(B)、部屋の階数(C)、築年数(D)とします。この関係を式で表しことが出来れば、物件の金額(Y)を求めることが出来ます。(例えば、この場合の関係式が、「Y=-3.2A+2B+0.3C-7D+32,000」と表すことが出来れば、A、B、C、Dの数値が分かれば、Yを求めることが出来ます。)この様に変数が3つ以上(この場合は、A、B、C、Dなので変数は4つ)の場合を重回帰分析と呼びます。

        未経験のITエンジニア転職なら【TECH::EXPERT】

まとめ

■長々となってしまいましたが、統計学の基礎はここまででした。統計学の基礎をまとめると以下の通りです。

1、数値で考える

  • 代表値  (平均、中央値、最頻値など)
  • 散らばり (分散、標準偏差など)

2、数式で考える

分かりにくい部分もあったかもしれませんが、お読みいただきましてありがとうございます。私自身の感想は、普段の生活でも聞いたことのある用語が分かり少しすっきりしました。

    ▼ ▼ 他にも記事を書いています ▼ ▼

 

にほんブログ村 ライフスタイルブログ 自分らしい暮らしへ
にほんブログ村