Анализ данных с помощью pandas. Часть 0: введение, jupyter (ipython)
pandas
- это Python библиотека для анализа и обработки данных. Она действительно быстрая и позволяет вам легко исследовать данные.
Цель этого цикла статей - дать конкретные примеры использования pandas.
Быстрый тур в IPython Notebook
Будет полезным повторить это в интерактивном режиме, поэтому лучше установить ipython с помощью pip:
sudo pip3 install jupyter pandas matplotlib
После чего можно запустить сеанс ipython просто написав:
jupyter notebook
После этого в браузере откроется сервер jupyter. Создадим Python 3 notebook.
Во-первых, запустим код из ячейки.
In [1]:import pandas as pd
print("Hi! This is a cell. Press the ▶ button above to run it")
Hi! This is a cell. Press the ▶ button above to run it
Помимо этой кнопки, можно запускать код из ячейки с помощью Ctrl+Enter.
Одна из самых полезных вещей в IPython notebook это автодополнение.
Попробуйте следующее: нажмите в ячейке сразу после read_csv( и нажмите Shift+Tab 4 раза, медленно. Посмотрите, что получится.
In [ ]:pd.read_csv(
Вот что получается после 2 раз:
Хорошо, теперь попробуем автодополнение. Введите pd.r (первая буква функции) и посмотрите, какие варианты предлагаются.
In [ ]:pd.r
Вы должны увидеть следующее:
Написание кода
Написание кода в ячейках абсолютно естественно.
In [2]:def print_10_nums():
for i in range(10):
print(i, end=' ')
print_10_nums()
0 1 2 3 4 5 6 7 8 9
Магические функции
IPython имеет множество магических функций. Далее идёт пример сравнения sum()
с генератором списка и с помощью итератора, используя магическую функцию %time
.
%time sum([x for x in range(100000)])
CPU times: user 20 ms, sys: 0 ns, total: 20 ms Wall time: 18.5 msOut[4]:
4999950000In [5]:
%time sum(x for x in range(100000))
CPU times: user 8 ms, sys: 0 ns, total: 8 ms Wall time: 8.34 msOut[5]:
4999950000