pythonをはじめようと思ったきっかけが、機械学習とかディープラーニングという人も多いのではないでしょうか。
pandasは、データ解析するのに役立つ機能を豊富に持ったライブラリです。
さっそく何ができるのか見ていこうと思います。
はじめに
環境
- VSCode
- python 3.11.0
使用するライブラリ
- pandas
パッケージのインストール方法についてはこちら
データの準備
データを扱うので当然その扱う元が必要です。
せっかくなので、pythonをもっと覚えたらチャレンジしてみたいと思っていたタイタニック問題のデータを使ってみます。
Kaggleのサイトでユーザー登録
Kaggle: Your Machine Learning and Data Science Community
ここでユーザー登録します。
データの取得
Titanic - Machine Learning from Disaster | Kaggle
ここからcsvをダウンロードします。
3ファイルありますがせっかくなので全部取得しておきましょう。
ユーザー登録できない人は
会社で勉強してて勝手にユーザー登録とかできないという人はこちらでもよいですね。
GitHub - mwaskom/seaborn-data: Data repository for seaborn examples
ここにもtitanic.csvというファイルが置いてあります。
データを読み込む
CSVを読み込む
読み込んでみます。
※Kaggleからダウンロードしてきたtrain.csv
をpythonファイルと同じところに置いておきます。
import pandas as pd df = pd.read_csv("train.csv")
これだけで読み込めてしまいます。
C++とかC#を長くやってきた身としては衝撃でした。
戻り値として受けているのはDataFrame
という型になります。
2次元の表形式データを扱うことに長けています。
よく使うことになるので何ができるか見ていきましょう。
読み込んだDataFrameを表示してみる
さっそく読み込んだCSVを表示してみます。
df
画像
読み込んだデータが表形式で出力されました。
途中が省略されるので、全行表示したい時は以下のようにオプションで変更できます。
pd.set_option("display.max_rows", None) pd.set_option("display.max_columns", None)
データにアクセスする
次に、DataFrameに対して各種アクセスをしてみます。
df.head(5) #先頭5行を取得 df.tail(5) #末尾5行を取得 df["Name"] #列を指定して取得 df["Name"][0] #特定のセルを取得 df.columns #列名を取得 len(df) #行数を取得 len(df.columns) #列数を取得 df.shape #行数、列数を取得 df.size #行×列を取得 df.info() #データの情報を表示する
簡単ですね。
おしまい
今回はデータ解析の基本となるDataFrameへのアクセスをメインに説明しました。
次回以降はより応用したやり方を紹介していきます。