Анализ данных с помощью pandas. Часть 0: введение, jupyter (ipython)

pandas - это Python библиотека для анализа и обработки данных. Она действительно быстрая и позволяет вам легко исследовать данные.

Цель этого цикла статей - дать конкретные примеры использования pandas.

Быстрый тур в IPython Notebook

Будет полезным повторить это в интерактивном режиме, поэтому лучше установить ipython с помощью pip:

sudo pip3 install jupyter pandas matplotlib

После чего можно запустить сеанс ipython просто написав:

jupyter notebook

После этого в браузере откроется сервер jupyter. Создадим Python 3 notebook.

Создаём notebook

Во-первых, запустим код из ячейки.

In [1]:

import pandas as pd

print("Hi! This is a cell. Press the ▶ button above to run it")

Hi! This is a cell. Press the ▶ button above to run it

Помимо этой кнопки, можно запускать код из ячейки с помощью Ctrl+Enter.

Одна из самых полезных вещей в IPython notebook это автодополнение.

Попробуйте следующее: нажмите в ячейке сразу после read_csv( и нажмите Shift+Tab 4 раза, медленно. Посмотрите, что получится.

In [ ]:

pd.read_csv(

Вот что получается после 2 раз:

Автоподсказка

Хорошо, теперь попробуем автодополнение. Введите pd.r (первая буква функции) и посмотрите, какие варианты предлагаются.

In [ ]:

pd.r

Вы должны увидеть следующее:

Автодополнение

Написание кода

Написание кода в ячейках абсолютно естественно.

In [2]:

def print_10_nums():
    for i in range(10):
        print(i, end=' ')

In [3]:

print_10_nums()

0 1 2 3 4 5 6 7 8 9

Магические функции

IPython имеет множество магических функций. Далее идёт пример сравнения sum() с генератором списка и с помощью итератора, используя магическую функцию %time.

In [4]:

%time sum([x for x in range(100000)])

CPU times: user 20 ms, sys: 0 ns, total: 20 ms
Wall time: 18.5 ms

Out[4]:

4999950000

In [5]:

%time sum(x for x in range(100000))

CPU times: user 8 ms, sys: 0 ns, total: 8 ms
Wall time: 8.34 ms

Out[5]:

4999950000