こんにちは!
今回より私の担当分では、n番煎じになるでしょうが、最近仕事で使い始めたPythonという
プログラミング言語を用いたデータ分析のやり方について紹介していこうと思います。
※私自身ブログに不慣れかつ、データ分析も勉強しながらやっている身ですので、
改善提案やご意見、ご質問等頂けるとありがたいです!
(罵詈雑言は控えていただきたいですがw)
さて、表題にも書いてある通り、データ分析の手法等について記事を
書いていこうと思うのですが、
以下のように連載する方式で記事を書いていく予定です。
(1つ1つの記事はそこで完結させるようにします)
——————
第1回:今後の予定・簡単な環境構築
第2回:Pythonの基本的な文法
第3回:ライブラリ(Numpy, Scipy)の紹介
第4回:ライブラリ(Pandas, Matplotlib)の紹介
第5回:データの収集法(オープンデータやスクレイピングなど)
第6回:データ分析(統計or機械学習)
第7回:データ分析(統計or機械学習)
第8回:データ分析の動向(AutoMLの紹介など[したい])
上記のような流れにする予定です。
但し、データ分析に関しては6回目以降も記事にするかもしれません。
今後の投稿内容について、ここで大まかに説明しておこうと思います。
第2回:
Pythonの基本的な文法について主に紹介しようと考えております。
ついでにいくつか古典的なアルゴリズムの実装とかも検討だけしています。
第3回~第4回:
ライブラリの紹介では主にNumpy, Scipy, Pandas, Matplotlibという
Pythonの外部ライブラリの紹介をしようと思います。
上記のライブラリは主に科学計算や金融のデータ分析の用途で用いられます。
うまく活用できると、割と簡単にデータ分析ができるので、紹介しようと思います。
第5回:
データの収集法では、データ分析では欠かせない
データの取得法について説明しようと思います。
オープンデータは研究機関などで、取得できるデータになります。
また、スクレイピングはWebサイトなどからデータを取得する方法になります。
今回はウィキペディアからのスクレイピングについて取り上げようと思います。
まさ、セマンティックウェブのライブラリ(SPARQL)を用いた
データの取得法についても取り上げれたらと思います。
第6回~第7回:
ここでは実際に取得したデータを用いて分析を行ってみようと思います。
主に統計学を用いた手法と、機械学習を用いた分析手法について紹介しようと思います。
また、特徴量エンジニアリングや分析に役立つライブラリなんかも紹介できたらと思います。
第8回:
予定では、最近色々と注目されているAutoML(Auto Machine Learning)について
取り上げてみようかと思います。
AutoMLとは、簡単に言うと上記で行うようなデータ分析を自動で行う技術です。
この分野はGoogleクラウドのものが有名ですが、
オープンソースのライブラリでも続々開発されております。
ここでは、オープンソースのものを取り上げてみようかと思います。
では次に、Pythonの導入方法について書こうと思います。
Pythonの導入方法は公式ドキュメントなり、ブログなどで
いくらでも紹介されているので、そちらを参考にしていただいたほうが
圧倒的にいいのですが、ここでも簡単に紹介致します。
※詳細は別途公式ドキュメント等をご覧ください。
Pythonは大きく分けて、Python2.X(バージョン2とします)とPython3.X(バージョン3とします)
の二つのバージョンが存在し、MacやLinux(CentosやUbuntuなど)ではバージョン2が
デフォルトでインストールされています。
Windowsではデフォルトでは入っていません。
※ただしCentOS8やUbuntu18以降ではPython3.X系がデフォルトでインストールされています。
また、現在の環境でバージョン2が入っている場合でも
サポートが2020年1月1日に切れる予定ですので、
使用する場合はバージョン3を新たにインストールしましょう。
(執筆時点の最新バージョンは3.8.0)
続いてPythonの導入方法ですが主に以下の2つの
方法になります。
Anaconda :https://www.anaconda.com/distribution
python.org:https://www.python.org/downloads
続いて、インストール方法について簡単に述べると、
インストール方法はWindowsユーザーならAnacondaはインストーラーを起動するだけ、
公式サイトからダウンロードするなら以下のリンクが参考になるかと思います。https://www.python.jp/install/windows/install_py3.html
LinuxユーザーはAnacondaをインストールする場合、ダウンロードしてから
shellスクリプトを実行してインストールします。
公式サイトのものを利用する場合、個々のディストロで配布されている
パッケージからインストールするか以下のリンクが参考になるかと思います。
https://www.python.jp/install/ubuntu/index.html
Macの場合はHomebrewを用いてのインストール方法もあるみたいですが
私があまりMacに詳しくないのでここでは割愛します。
上記①と②に関して、WindowsユーザーでPythonを全く触ったことないなら
Anacondaをお勧めします。
理由としては、インストールが容易であるということ。
(ダウンロードしてインストーラーを起動するだけ)
また、ライブラリや統合開発環境(Pycharmの無償版付き)が
予めインストールされた状態で入っていることがあげられます。
但し、欠点として余分なライブラリも多分に入っているので、
必然的に余分に容量を取ってしまうということと、
Pythonの標準パッケージであるPyPIからインストールした
ライブラリがあらかじめ入っている場合、Anacondaをアップデートした瞬間に
Pythonの環境が壊れてしまう恐れがあるというリスクもあります。
(これはパッケージの競合関係が関連するみたいです。)
また、MacユーザーやLinuxユーザーでもPythonが初めてなら、
Anacondaの導入が一番手っ取り早くていいと思います。
※OSのバージョン(特にLinux)によってはデフォルトでPython3.Xが入っていたりするので、
それをもとに環境を構築したほうが無駄にリソースを使わなくて済むというだけです。
他にも、Pythonではpyenvやvirtualenvを用いて環境構築をする方法も
ありますが、これは一般的ではないような気もするので触れません。
(バージョンごとや、ライブラリの関係で複数のPythonの環境が必要なら話は別)
以上、今後の予定と、雑な紹介記事になってしまい
苦笑を禁じえませんが、ここで終わりたいと思います。
(しかも全然データ分析関係ないw)
次回以降、少しずつ踏み込んでいきたいと思います。
では。