まるやくんのブログ

使ってみて便利だと思ったモノやサービス、仕事やプライベートで学んでいる事を紹介します。

Python pandas Groupby による集計

こんばんは。まるやくんです。今日はpandas のグループ演算機能を使ってデータフレームのデータをグループ別に集約する機能を紹介します。 必要なライをインポート 適当なデータフレームを作成 Groupby オブジェクト作成※ data1 を key1 の値をもとにグルー…

Python pandas シリーズ・データフレームのプロット機能

こんばんは。まるやくんです。今日はpandasのシリーズやデータフレームのプロット機能を紹介します。 必要なライをインポート 適当なシリーズオブジェクトを作成 同じ結果を得るために乱数シードを指定 シリーズのプロット機能 ※引数にタイトル、グラフサイ…

Python matplotlib グラフの目盛り・ラベル・凡例の作成

こんばんは。まるやくんです。久しぶりの更新になってしまいましたが、今日は Matplotlib でグラフの目盛り、ラベル、凡例を作成しました。 必要なライをインポート figure オブジェクト作成 ( figsize で大きさ指定) add_subplot で空グラフ作成 乱数シード…

Python matplotlib グラフの複数描画

こんばんは。まるやくんです。今日は Python の Matplotlib を用いてヒストグラムや散布図といったグラフを複数作成しました。 jupyter notebook 上にグラフを描画 matplotlib をインポート Jupyter notebook の表示を少数点以下2桁にする Matplotlibの描画…

Python matplotlib 折れ線グラフの描画

こんばんは。まるやくんです。データ分析でデータの可視化はとても重要な作業です。Python の Matplotlib を用いて今日は簡単な折れ線グラフを描画してみます。 jupyter notebook 上にグラフを描画 matplotlib をインポート 描画用のデータ作成(簡単なリス…

Python pandas マッピングによるデータ変換

こんばんは。まるやくんです。前回に引き続きデータの前処理について紹介します。今回はデータフレーム内の値に基づいて変換する方法について紹介します。具体例として個別の売上データがあるとします。これに所属するチーム名が入った列を追加して、チーム…

Python pandas データフレームの重複削除

こんばんは。まるやくんです。前回に引き続きデータの前処理について紹介します。今回はデータフレームの結合から重複データの判定・削除までを紹介します。 pandas のインポート ディクショナリを作成 ディクショナリからデータフレーム作成 作成したデータ…

Python pandas 欠損値の穴埋め

Python pandas 欠損値の除去

こんばんは。まるやくんです。データの集計や分析を行う際にデータの前処理が必要になります。例えば文字列や数値が半角、全角で統一されていなかったり、データが重複していたり、そもそもデータが欠けているなどです。今回はデータが欠損している状態を想…

Python pandas エクセルファイルの読み込みと書き出し

こんばんは。まるやくんです。 今日はデータ分析を行う上で最初に必ず行うステップとして、データの読み込みについて紹介します。日々の集計や分析業務で取り扱うデータはエクセルやcsvファイルが多いと思います。もちろん定期的に決まったデータを集計する…

Python pandas 集計2

こんばんは。まるやくんです。今回は様々なデータの取り込みを紹介する予定でしたが、データフレームの簡単な集計方法についてもう少し紹介します。前回はデータフレームの列ごとの集計でしたが、今回は groupbyメソッドを使ってみたいと思います。 pandasの…

Python pandas 集計1

こんばんは。まるやくんです。今日はpandasを使ってデータフレームの簡単な集計方法を紹介します。 pandasのインポート データフレームの作成・表示 sumメソッドで列ごとの合計を算出 meanメソッドで列ごとの平均を算出 describeメソッドで様々な統計量を一…

Python pandas データフレームの参照、フィルタリング

こんばんは。まるやくんです。今日も引き続きpandasのデータフレームを学びました。今回はデータフレームの参照、フィルタリングです。今回である程度データフレームから必要な情報にアクセス出来るようになると思います。 pandasのインポート ディクショナ…

Python Pandas データフレーム

こんばんは。まるやくんです。今日も引き続きpandasを学びました。今回はデータフレームです。前回のシリーズは1列のデータでしたがデータフレームは複数列でエクセルの表のようなデータになっています。ディクショナリのキー・バリューが複数あると考えて…

Python pandas シリーズ

こんばんは。まるやくんです。今日からpandasを学んでいきます。pandasはデータの取り込みや変換、解析を行うためのライブラリです。DataFrame(データフレーム)というデータ構造(エクセルの表のようなデータ)を主に使用します。エクセルファイルやCSV…

Python NumPy 統計値

こんばんは。まるやくんです。今日は numpy を使って統計関数をいくつか学びました。 numpy のインポート 平均値の算出 合計値の算出 累積和の算出 累積積の算出 平均や合計値は日々の業務分析でもよく集計する項目ですね。他にも標準偏差や分散など様々な統…

Python NumPy ファンシーインデックス参照

こんばんは。まるやくんです。今日は numpy を使ってファンシーインデックス参照を学びました。 numpy のインポート numpy 配列(1次元)のファンシーインデックス参照 numpy 配列(2次元)のファンシーインデックス参照 2次元配列の場合はスライシングのよ…

Python NumPy 配列の参照

こんばんは。まるやくんです。今日は numpy を使って配列の参照とスライスを学びました。スライスは1次元配列についてはpythonのリストとほぼ同じですね。 numpy のインポート numpy 配列(1次元)の参照とスライス numpy 配列(2次元)の参照とスライス 2次…

Python NumPy 配列の演算

こんばんは。まるやくんです。今日は numpy を使って配列の演算を学びました。 numpy のインポート numpy 配列の作成 numpy 配列の演算 要素数の異なる numpy 配列の演算 最後の要素数が異なる配列演算はブロードキャストと呼ばれる機能です。配列arr2は1次…

Python NumPy基礎

こんばんは。まるやくんです。今日は numpy を使って様々な配列を作成しました。numpy配列は機械学習でデータを取り込む際に必要となるので非常に重要です。またデータの前処理ではこの後に学ぶ pandas もこの numpy を元にして作られています。今日は下記に…

Python 文法基礎 ディクショナリ(辞書)

こんばんは。まるやくんです。今日も引き続きpythonに組み込まれているデータ構造について学びました。前回のリストに続き今日はディクショナリ(辞書)です。ディクショナリはキーと値がペアの集合となっています。今日はjupyter notebook を使って下記を実…

Python 文法基礎 リスト

こんばんは。まるやくんです。今日も引き続きpythonに組み込まれているデータ構造について学びました。前回のタプルに続き今日はリストです。一見するとタプルによく似ているのですが、タプルと違ってリストは要素を自由に追加・削除が可能です。自由度が多…

Python 文法基礎 タプル

こんばんはまるやくんです。データ分析を行うためには、様々なデータから必要な情報を取り出したり、そのデータを加工・修正して分析する必要があります。今日はpythonに組み込まれているタプルというデータ構造を学びました。タプルはカンマで区切られた複…

Python Anacondaの導入

こんばんは。まるやくんです。 自部門の業績などPythonによるデータ分析、統計、機械学習を活用していきたいと思い一から学んでいます。これから学んだことを少しずつ整理して残していこうと思います。学習を始めるにあたり、データ分析に必要なpythonと必要…