python入門～pandas DataFrame基礎①～ - 今からでも間に合う

pythonをはじめようと思ったきっかけが、機械学習とかディープラーニングという人も多いのではないでしょうか。

pandasは、データ解析するのに役立つ機能を豊富に持ったライブラリです。

さっそく何ができるのか見ていこうと思います。

はじめに
- 環境
- 使用するライブラリ
データの準備
データを読み込む
- CSVを読み込む
- 読み込んだDataFrameを表示してみる
データにアクセスする
おしまい

はじめに

環境

VSCode
python 3.11.0

使用するライブラリ

pandas

パッケージのインストール方法についてはこちら

データの準備

データを扱うので当然その扱う元が必要です。
せっかくなので、pythonをもっと覚えたらチャレンジしてみたいと思っていたタイタニック問題のデータを使ってみます。

Kaggleのサイトでユーザー登録

Kaggle: Your Machine Learning and Data Science Community

ここでユーザー登録します。

データの取得

Titanic - Machine Learning from Disaster | Kaggle

ここからcsvをダウンロードします。
3ファイルありますがせっかくなので全部取得しておきましょう。

ユーザー登録できない人は

会社で勉強してて勝手にユーザー登録とかできないという人はこちらでもよいですね。

GitHub - mwaskom/seaborn-data: Data repository for seaborn examples

ここにもtitanic.csvというファイルが置いてあります。

データを読み込む

CSVを読み込む

読み込んでみます。
※Kaggleからダウンロードしてきたtrain.csvをpythonファイルと同じところに置いておきます。

import pandas as pd
df = pd.read_csv("train.csv")

これだけで読み込めてしまいます。
C++とかC#を長くやってきた身としては衝撃でした。

戻り値として受けているのはDataFrameという型になります。
2次元の表形式データを扱うことに長けています。
よく使うことになるので何ができるか見ていきましょう。

読み込んだDataFrameを表示してみる

さっそく読み込んだCSVを表示してみます。

df

画像

読み込んだデータが表形式で出力されました。
途中が省略されるので、全行表示したい時は以下のようにオプションで変更できます。

pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)

データにアクセスする

次に、DataFrameに対して各種アクセスをしてみます。

df.head(5) #先頭5行を取得
df.tail(5) #末尾5行を取得
df["Name"] #列を指定して取得
df["Name"][0] #特定のセルを取得
df.columns #列名を取得
len(df)    #行数を取得
len(df.columns) #列数を取得
df.shape  #行数、列数を取得
df.size    #行×列を取得
df.info() #データの情報を表示する