Atlas

Atlas

Atlas(地図)というブログタイトルのとおり、読者のみなさまのキャリアや思考の道しるべとなる情報を発信していきます

よくよく運のない男の質問コーナー #001「GPAは過去のもの」

最終更新日:2018年5月24日

「よくよく運のない男の質問コーナー」記念すべき(?)第1回です。

質問箱に届いた質問にまずはTwitterで答え、その中でも特に有用だと思った質問をYouTubeで取り上げます。

今回は以下の質問に答えました。

 

質問は質問箱Twitterにお願いします。

新しいYouTubeチャンネル「Naoki Channel」を開設しました

最終更新日:2018年5月23日

諸事情ありまして、YouTubeチャンネルを作り直しました。チャンネル名は、安直ですが「Naoki Channel」です。

www.youtube.com

以前のチャンネルを登録していた方は、お手数ですが、「Naoki Channel」の登録をよろしくお願いします。 以前のチャンネルにあった動画は、再編集して新しい「Naoki Channel」にアップロードし直します。

講義ノート:High school statistics - Khan Academy

最終更新日:2018年5月24日

f:id:raye4483:20180522125658j:plain

講義:High school statistics - Khan Academy [link]

このコースでは(アメリカの)高校生が履修する統計学を、無料で学ぶことができる。動画を見て演習問題に答えるという形式で講義が進んでいく。演習問題は基本的に選択式である。

本記事は、私がこの講義で学んだことを順に示していく、講義ノートである。読者のみなさまの学習の指針になれば幸いである。

Scatterplots

Creating and interpreting scatterplots

Constructing a scatter plot

散布図(Scatterplot)の作成方法について学ぶ。ここでは、「授業の開講時限」と「その授業のテストの平均点数」との相関関係を把握するため、x軸に開講時限、y軸に点数を取り、散布図の作図を行う(Figure 1)。

f:id:raye4483:20180122231336p:plain

Figure 1. 散布図
Practice: Constructing scatter plots

散布図を作図する演習問題が4問出題される。例えば、「瞑想を行った時間」と「睡眠時間」の散布図を作図する。グラフ上をクリックすることでデータを直接プロットすることができる。

Practice: Making good scatter plots

データを適切に表現している散布図を選択する問題。4つのグラフから適切なものを選ぶ(Figure 2)。どのグラフでもデータ自体は正しく入力されているが、グラフの軸や表示領域が異なる。一般的に、説明変数(独立変数)がx軸にくるよう作図する。

f:id:raye4483:20180122232720p:plain

Figure 2. 散布図として最も適切なグラフはどれ?
Scatter plots: studying, shoe size, and test scores

散布図を見て、2つの変数に相関があるのかどうか、もし相関があるならそれは正と負どちらの相関なのか、について考える。

Practice: Positive and negative associations in scatterplots

散布図が示す相関関係について解答する。

Example: Correlation coefficient intuition

相関係数(correlation coefficient)についての直感的な解説がなされる。相関関数rが-1、0、または1のとき、2つの変数の間にどのような関係性が見込めるかについて学ぶ。相関関数についての詳細は、後のパートで説明されている。

Practice: Describing trends in scatter plots

散布図を見て、データの傾向を説明するに適した文章を選択する(Figure 3)。

f:id:raye4483:20180124012305p:plain

Figure 3. 年齢が高い人ほど自動車での交通事故を起こしやすい傾向にあるようだ
Practice: Correlation coefficient intuition

散布図を見て、そのグラフに適した相関関数を選ぶ問題(Figure 4)。データの散らばり具合がポイント。

f:id:raye4483:20180522114455p:plain

Figure 4. 適した相関関数4を選ぼう
Practice: Correlation and causality 

相関関係(correlation)因果関係(causality)について学ぶ。研究で「朝食を食べる人の肥満率は低い」という結果が出たとする。この文章を読んで「朝食を食べれば痩せる」と安直に考えるのは適切とは言えない。

このような文章を見たとき、まず最初に、その2つの事象の関係は相関関係なのか因果関係なのかについてきちんと考える必要がある。

例えば、活動的な人はカロリー消費量が多いため痩せている傾向にあり、カロリーを補うために朝食を摂るのかもしれない。また、貧乏な人は朝食を買うお金がなく、夕食に安価で不健康な食事を摂るため太っているのかもしれない。

このような場合、「朝食をきちんと摂ること」と「肥満率の低さ」には因果関係は成り立っていない。成り立っているのは相関関係だけだ。「朝食をきちんと摂ること」と「肥満率の低さ」を引き起こす別のファクターが存在する可能性がある。

「朝食を食べれば痩せる」という文章を当てにして太っている人が朝食を摂っても、ただ太るだけになるかもしれない。

Positive and negative associations in scatterplots

これまでに学んだことを生かして演習問題を解く。

Estimating with trend lines

Estimating the line of best fit exercise

データに最もよくフィットする直線(回帰直線)はどのようなものかについて説明される。

Practice: Eyeballing the line of best fit

データに最もフィットする回帰直線を選ぶ(Figure 5)。

f:id:raye4483:20180524212558p:plain

Figure 5. どの直線もひどい
Line of best fit: smoking in 1945

「アメリカの喫煙者の割合」と「1945年からの経過年数」の関係性を把握する。直線の傾きを調べることで、グラフに示されていない年の喫煙者の割合が何%なのかを予測する。

Practice: Estimating slope of line of best fit

回帰直線の傾きを求める演習問題。

Practice: Estimating equations of lines of best fit, and using them to make predictions

回帰曲線を表す方程式を求め、それを用いて数値の予測を行う。

Interpreting a trend line

回帰直線の傾きが何を表すのか学ぶ。

Practice: Interpreting slope and y-intercept for linear models

回帰曲線の直線とy切片が意味するものは何なのか、演習問題を通して理解することができる(Figure 6)。

f:id:raye4483:20180524222751p:plain

Fig 6. y切片の値が41を示すということは、1945年の喫煙者の割合は約41%だったということだ
Equations of trend lines: Phone data

この章のまとめ。今までのPracticeで出てきた問題と類似の問題が出題される。

Data distributions

Displays of distributions

Frequency tables & dot plots

度数分布表(frequency table)ドットプロット(dot plot)の作成方法を学ぶ。ここでは、クラスにそれぞれの年齢の生徒が何人いるかが一目でわかるよう表を作成している(Figure 7)。

f:id:raye4483:20180526153735p:plain

Figure 7. 度数分布表とドットプロット
Practice: Creating dot plots

 データを見て実際にドットプロットを作成する(Figure 8)。

f:id:raye4483:20180526155805p:plain

Figure 8. 各大会でHugoが釣った魚の数が示されている

Practice: Reading dot plots & frquency tables

ドットプロットまたは度数分布表からデータを読み取る問題。ひっかけ問題に注意しよう。

Creating a histogram

データから度数分布表を作成し、それを使ってヒストグラム(histogram)を作成する方法を学ぶ(Figure 9)。

f:id:raye4483:20180526212408p:plain

Figure 9. これがヒストグラムだ
Practice: Create histograms 

データを読みヒストグラムを作図する(Figure 10)。

f:id:raye4483:20180526213643p:plain

Figure 10. グラフ上をドラッグするだけで作図できる
Interpreting a histogram

ヒストグラムの読み取り方を学ぶ。ここでは、パイの上に乗っているさくらんぼの数でパイを分類している。ヒストグラムを見れば、◯個以上/以下のさくらんぼが乗っているパイの数を簡単に調べることができる。

Practice: Read histograms

ヒストグラムからデータを読み取る。「80個以上のさくらんぼが乗っているチェリーパイの数は?」というような問題が出題される。

Shapes of distributions

ヒストグラムの分布の形について議論する。分布の歪み具合をleft-tailed (skewed to the left)、right-tailed (skewed to the right)、symmetricalという単語で表現する。

Practice: Shape of distributions

分布の形を答える。ヒストグラムだけでなく、箱ひげ図(box plot)を用いた出題もなされる(Fig. 11)。

f:id:raye4483:20180618162558p:plain

Figure 11. この分布は対称的ではない

Summarizing center of distributions (central tendency)

Statistics intro: Mean, median, & mode

統計学には2種類ある。記述統計学(Descriptive Statistics)推測統計学(Inferential Statictics)だ。

記述統計学(Descriptive Statistics)

全てのデータが手元にあり、そのデータの特徴を要約して分かりやすく表現する。

推測統計学(Inferential Statictics)

一部のデータの特徴を掴むことで、全体の特徴を推測する。

平均(mean)中央値(median)最頻値(mode)は、記述統計学においてよく用いられる用語だ。日常生活でも度々耳にするだろう。

平均(mean)

サンプルの値を合計したものをデータの数で割ったもの。

\displaystyle \overline{x} = \frac{1}{n} \left( \sum_{i=1}^{n} x_i \right)\displaystyle = \frac{x_1 + x_2 + \cdots + x_n}{n}

中央値(median)

データを小さい順に並べた時、真ん中の位置にあたるデータの値のこと。データの数が偶数の場合は、真ん中の2つのデータの値の平均値が中央値になる。

最頻値(mode)

度数分布表にて、最も度数の多い階級の値のこと。つまり、最も多く登場するデータの値が最頻値となる。

つづく

長距離移動でお尻が痛くなるんだけど、どう克服したらいい?

最終更新日:2018年5月24日

TwitterPeing質問箱に届いた質問に答えるコーナー。

今回の質問はこちら。

 

「布団の引力に魂を縛られた男のラジオ #003」では、さらに詳しく回答しています(57:16〜)。 今度初めて長距離移動をする、という人は聴いてみてください。

研究発表で炎上しました。研究者を目指すのは夢のまた夢でしょうか?

最終更新日:2018年5月24日

TwitterPeing質問箱に届いた質問に答えるコーナー。

今回の質問はこちら。 

 

「布団の引力に魂を縛られた男のラジオ #003」では、さらに詳しく回答しています(50:00〜)。特に、これから研究を始める大学生に聴いてほしいです。

発表でもSNSでも、必要以上に炎上を恐れないようにしましょう。情報を発信する者には、批判は付き物です。

質問者さんからお返事が来ました。お互い楽しみましょう。

*1: °ω°

CV(Curriculum Vitae)に貼る写真は笑っている方がいい?

最終更新日:2018年5月24日

TwitterPeing質問箱に届いた質問に答えるコーナー。

今回の質問はこちら。 

私自身、海外の大学に提出するCV(Curriculum Vitae)に顔写真を貼ったことはありませんし、顔写真が貼られているCVも見たことはありません(私が知らないだけでしょうか?)。

「布団の引力に魂を縛られた男のラジオ #003」では、さらに詳しく回答しています(42:15〜)。

研究に対して実用性が求められる風潮についてどう思う?

最終更新日:2018年5月24日

TwitterPeing質問箱に届いた質問に答えるコーナー。

今回の質問はこちら。 

 

「布団の引力に魂を縛られた男のラジオ #003」では、さらに詳しく回答しています(32:14)。

配信で話した内容をまとめると「大前提として、将来的に社会に”力”を与えることができない研究には、誰も投資したいとは思わない。それが見込めない研究の優先度が下がるのは当たり前である。現在の日本はその日暮らしのような状態になっており、基礎研究の投資に回せるお金がないのかも?貧乏な人が投資にお金を使えないのと同じ理屈である。政府や文科省側からの正直な見解が聞きたい」。