データ サイエンティストが知っておくべき 10 の Pandas コマンド
パンダ は、テーブルや時系列などの構造化データを操作するためのツールを提供するため、データ操作と分析に使用され、広く使用されている人気のある Python ライブラリです。データの前処理に不可欠なツール。
データをクリーニングする場合でも、データセットを確認する場合でも、機械学習用にデータを準備する場合でも、Pandas は頼りになるライブラリです。この記事ではパンダの基本を紹介し、初心者向けの 10 個の重要なコマンドを検討します。
パンダとは何ですか?
パンダ は、データ操作と分析のために設計されたオープンソースの Python ライブラリであり、数値計算用の別の Python ライブラリである NumPy 上に構築されています。
Pandas では、次の 2 つの主要なデータ構造が導入されています。
- シリーズ: 任意のデータ型 (整数、文字列、浮動小数点数など)を保持できる 1 次元のラベル付き配列。 )。
- データフレーム: スプレッドシートや SQL テーブルに似た、データが行と列に編成された 2 次元のラベル付きデータ構造。
パンダ を使用するには、まず pip パッケージ マネージャーを使用してインストールする必要があります。
pip install pandas
インストールしたら、Python スクリプトにインポートします。
import pandas as pd
エイリアス pd
は、Pandas コマンドを短くし、記述しやすくするためによく使用されます。
では、重要なコマンドについて詳しく見ていきましょう。
1. データのロード
データを操作する前に、read_csv()
関数を使用してデータを Pandas DataFrame にロードする必要があります。この関数は CSV ファイルをロードするためによく使用されます。
data = pd.read_csv('data.csv')
print(data.head())
read_csv('data.csv')
: CSV ファイルを DataFrame に読み取ります。head()
: DataFrame の最初の 5 行を表示します。
このコマンドは、データ前処理タスクを開始するために非常に重要です。
2. データの閲覧
データセットを理解するには、次のコマンドを使用できます。
head(n)
: DataFrame の最初のn
行を表示します。tail(n)
: DataFrame の最後のn
行を表示します。info()
: 列名、null 以外の数、データ型など、DataFrame の概要を取得します。describe()
: 数値列の統計概要を取得します。
これらのコマンドは、データの構造と内容を迅速に評価するのに役立ちます。
print(data.info())
print(data.describe())
3. データの選択
特定の行または列を選択するには、次の方法を使用します。
単一の列を選択します。
column_data = data['ColumnName']
複数の列を選択します。
selected_data = data[['Column1', 'Column2']]
スライスを使用して行を選択します。
rows = data[10:20] # Rows 10 to 19
loc
または iloc
を使用して行と列を選択します。
By labels (loc)
subset = data.loc[0:5, ['Column1', 'Column2']]
By index positions (iloc)
subset = data.iloc[0:5, 0:2]
4. データのフィルタリング
フィルタリングを使用すると、条件に基づいて行を選択できます。
filtered_data = data[data['ColumnName'] > 50]
&
(AND) または |
(OR) を使用して複数の条件を組み合わせることができます。
filtered_data = data[(data['Column1'] > 50) & (data['Column2'] < 100)]
これは、データセットを関連する行に絞り込むのに役立ちます。
5. 列の追加または変更
新しい列を作成したり、既存の列を変更したりできます。
新しい列を追加します。
data['NewColumn'] = data['Column1'] + data['Column2']
既存の列を変更します。
data['Column1'] = data['Column1'] * 2
これらの操作は、特徴量エンジニアリングとデータ変換に不可欠です。
6. 欠落データの処理
現実世界のデータセットには欠損値が含まれることが多く、Pandas は欠損値を処理するツールを提供します。
欠損値がないか確認します。
print(data.isnull().sum())
欠損値のある行または列を削除します。
data = data.dropna()
data = data.dropna(axis=1)
欠損値を埋める:
data['ColumnName'] = data['ColumnName'].fillna(0)
data['ColumnName'] = data['ColumnName'].fillna(data['ColumnName'].mean())
欠損データを処理すると、データセットがクリーンになり、分析の準備が整った状態になります。
7. データの並べ替え
データセットを 1 つ以上の列で並べ替えるには、sort_values()
関数を使用します。
sorted_data = data.sort_values(by='ColumnName', ascending=True)
複数の列の場合:
sorted_data = data.sort_values(by=['Column1', 'Column2'], ascending=[True, False])
並べ替えは、データを整理し、パターンを見つけるのに役立ちます。
8. データのグループ化
groupby()
関数は、データをグループ化し、集計操作を実行するために使用されます。
grouped_data = data.groupby('ColumnName')['AnotherColumn'].sum()
一般的な集計関数には次のものがあります。
sum()
: 値の合計。mean()
: 値の平均。count()
: null 以外の値の数。
例 :
grouped_data = data.groupby('Category')['Sales'].mean()
このコマンドはデータを要約するために不可欠です。
9. データフレームのマージと結合
複数の DataFrame を結合するには、次のメソッドを使用します。
連結:
combined_data = pd.concat([data1, data2], axis=0)
マージ :
merged_data = pd.merge(data1, data2, on='KeyColumn')
参加する :
joined_data = data1.join(data2, how='inner')
これらの操作により、データセットを組み合わせて包括的な分析を行うことができます。
10. データのエクスポート
データを処理した後、to_csv()
関数を使用してデータを保存する必要がある場合があります。
data.to_csv('processed_data.csv', index=False)
このコマンドは、インデックス列なしで DataFrame を CSV ファイルに保存します。 Excel、JSON、SQL などの他の形式にエクスポートすることもできます。
結論
パンダ はデータの前処理に不可欠なツールであり、データを操作および分析するための幅広い機能を提供します。
この記事で説明する 10 個のコマンドは、初心者が Pandas を使い始めるための強固な基盤を提供します。練習してさらに探索すると、この強力なライブラリの可能性を最大限に理解できるようになります。