雑記まとめ

役に立ちそうな内容を気づき次第、アップします!ゆるーい感じでやっていこうと思っています

コンピュータの統計学とは?平均、中央値、最頻値、標準偏差とは??テクノロジーの進歩が目まぐるしい昨今、必要不可欠な基礎知識を4つ

   

コンピュータの統計学とは?平均、中央値、最頻値、標準偏差とは??テクノロジーの進歩が目まぐるしい昨今、必要不可欠な基礎知識を4つ

先日から書いている、初心者がコンピュータやプログラミングについて理解をする上での基礎中の基礎の続編です。今回は、聞いたことがある方もいるかもしれませんが「散布図」や「回帰分析」、「標準偏差」や「分散」、「平均」などの用語を使う、「統計(コンピュータの)」について簡単にまとめたいと思います。

前置き、記事にまとめようと思ったきっかけ

ある、ビジネス用の研修用の動画を見た際に、興味深い内容でしたので記事にしてまとめました。よく、「これからの時代は、テクノロジーだ」とか「プログラミングが必要だ」とか「AIに仕事取られる」、「IoTが熱い」などなど本当に良く聞きます。それぞれ必要な能力や知識について教えてくれて、かなり印象に残ったので、興味を持ったんだと思います。これらの基礎となる、浅く、広く学んでいた方が良い、4つの学びについてまとめました。

ビジネスのテクノロジー化を考えるうえでの必要なモノ4つ

■ビジネス研修用の動画によると、以下の4つの学びがテクノロジーの基礎であり、知識やスキルを身に付けておくと、テクノロジーの基礎を固めることが出来るようです。

  1. アルゴリズムとは
  2. プログラミングの基礎
  3. 統計学(コンピューターの)
  4. データの扱い

ほぼすべて私は良く分かっていなかったです。なんとなーく理解している程度のモノも多かったです。これまでは、上の2つまでまとめたので、今回は統計学(コンピュータの)の基礎についてまとめたいと思います。

統計学はコンピュータ上で、どんなことに使われているのか

Amazon楽天などで買い物を行う時に、以前買った購買履歴を参考に「おススメの商品」などと出てくるレコメンド機能などのAIのシステム(ディープラーニングなど)に、統計学が使わているようです。

統計学の分類

統計学は、大きく2つの手法があり、更にその手法は細分化できます。以下のような分類になります。

 ①数字で理解する

  • 代表値:平均、中央値、最頻値などに分類される。
  • ちらばり(ばらつき):分散、標準偏差など

 ②数式で理解する・・・あるデータから別のデータを算出る事。

   散布図や相関係数、回帰分析、重回帰分析などによって理解されている。

続いて、上でご紹介したそれぞれの分類やキーワードについて、まとめていこうと思います。

①数値で理解する

統計学を数値で考える時に用いるのが、「代表値」と「散らばり(ばらつき)」です。まず、代表値とは、いくつかの数値を1つの数値で表したもので、平均や中央値、最頻値などがあります。具体例を出してそれぞれ説明すると、ある5人の平均年収を考えます。一人ずつ年収が280万円、280万円、355万円、450万円、555万円だとした時の平均年収は384万円です。(280+280+355+450+555=1,920/5=384)また、中央値とは、この5人の年収を並べたときに、真ん中に来る数値なので、355万円となります。また、最頻値とは最も頻出する数値のことなので、この例でいうと355万円の年収のひとが2名おり、最も多いため、頻出値は280万円となります。よって、代表値を平均で表す場合は384万円となり、代表値を中央値で表す場合は360万円、頻出値は280万円となります。

  TVCMで話題のココナラ

■上の様に、いくつかの数値の代表的な数値(代表値)を算出する「平均」や「中央値」、「頻出値」という統計手法では、代表値が合わしにくい場合があります。次の場合を考えてみると分かりやすいかもしれません。例えば先ほどの例の年収が280万円、280万円、355万円、450万円、555万円の5名に加えて、一人追加して年収1億円の人が加わった場合の平均年収は、約1986.6万円(280+280+355+450+555+10,000=11,920/6=196.67、、、)となります。この数値は6人の年収の代表値とは言い難く、一人の例外的な数値が入ることで、代表的な数値としての役割が機能しなくなります。そこで、散らばり(ばらつき)という考え方を用いてデータを把握します。

  TVCMで話題の【ココナラ】無料会員登録はこちら

■「散らばり(ばらつき)」には、代表的には「分散」と「標準偏差」という考え方があります。そもそも散らばりとは、数値の散らばりを表す考え方です。上の例でいうと、初めに出した5人の年収例と年収1億円の人が加わった6人の例を考えたときには、ばらつきが多いのは年収1億円が加わった6人の場合となります。この様なバラつきを通知で考えたものを、標準偏差と言います。

 

  未経験のITエンジニア転職なら【TECH::EXPERT】

 ■標準偏差を考えるときには、正規分布というグラフで考えることが多いようです。例としては、例えば学生1,000人のテストの平均点が60点でテストの点数の標準偏差が10点とした場合を考えます。ちなみに、正規分布のイメージは下記のグラフの水色の線です。この散らばり(ばらつき)を表すときは黄色の点線と赤の点線の範囲を見ていきます。先ほど設定した例をまとめると以下の通りです。

  ・生徒数:1,000人  ・平均点:60点  ・平均点の標準偏差:10点

f:id:okutsuba:20200810091554p:plain

この時、全体の数値の68%は「平均-標準偏差」~「平均-標準偏差」の間に収まります。この例でいうと50点~70点の間に、全体の68%の数値が含まれることになります(黄色の点線)。また、全体の数値の95%は「平均-標準偏差の2倍」~「平均-標準偏差の2倍」の間に収まります。この例でいうと40点~80点の間に、全体の約95%の数値が含まれる関係性にあることが知られている様です(赤色の点線)。

ここまでで、2,000字を超えてしまったので、数式での統計学の理解(散布図、相関係数、回帰分析、重回帰分析など)については、後日別の記事にまとめたいと思います。

  未経験から最短でエンジニア転職を目指す

お読みいただきありがとうございます。

    ▼ ▼ 他にも記事を書いています ▼ ▼

にほんブログ村 ライフスタイルブログ 自分らしい暮らしへ
にほんブログ村