Анализ данных с помощью pandas. Часть 3: объединение и группировка данных
Эта часть показывает способы группировки, объединения и дополнения данных.
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (10, 5)
Вернемся к нашему набору данных о велосипедистах. Допустим, я живу в Монреале, и мне любопытно, используется ли велосипед для пригородных поездок, или для развлечения - люди больше катаются на велосипеде в выходные дни или в будние?
Добавляем столбец "день недели"
Загрузим данные
bikes = pd.read_csv('data/bikes.csv', sep=';', encoding='latin1', parse_dates=['Date'], dayfirst=True, index_col='Date')
bikes['Berri 1'].plot()
Посмотрим на велодорожку Berri. Это улица в Монреале, с довольно важной велодорожкой.
Создадим dataframe только с велодорожкой Berri.
berri_bikes = bikes[['Berri 1']].copy()
berri_bikes[:5]
Далее, нужно добавить колонку "день недели". Во-первых, мы получим его из первого столбца (индекс). Мы не говорили об индексах ранее, но индекс - это то, что находится левее всего dataframe, под 'Date'. Сейчас это все дни в году.
berri_bikes.index
Некоторые дни пропущены -- здесь только 310 дней.
Pandas имеет набор функционала для работы с промежутками времени, поэтому если мы, например, хотим получить день месяца для каждой строки, то мы можем написать:
berri_bikes.index.day
Мы хотим день недели, так что:
berri_bikes.index.weekday
Это дни недели, 0 - понедельник. Теперь, когда мы знаем, как получить день недели, мы можем добавить его как столбец в dataframe.
berri_bikes.loc[:,'weekday'] = berri_bikes.index.weekday
berri_bikes[:5]
Добавляем велосипедистов
Это очень просто! Dataframe имеет метод .groupby()
, который группирует по одному или нескольким столбцам. Подробнее можно прочесть в документации.
В нашем случае, berri_bikes.groupby('weekday').aggregate(sum)
означает "Сгруппировать строки по дню недели и затем сложить все значения с одинаковым днём недели".
weekday_counts = berri_bikes.groupby('weekday').aggregate(sum)
# weekday_counts = berri_bikes.groupby('weekday').sum() - можно и так. Даже проще.
weekday_counts
Теперь переименуем 0, 1, 2, 3, 4, 5, 6, чтобы понимать, что они означают:
weekday_counts.index = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
weekday_counts
weekday_counts.plot(kind='bar')
В Монреале чаще катаются по будням - здорово!
Соединяем вместе
Соединим все вместе. Всего 6 строк кода!
Если хотите поиграться, попробуйте поменять sum
на max
, numpy.median
, или любую другую функцию на ваш выбор.
bikes = pd.read_csv('data/bikes.csv',
sep=';', encoding='latin1',
parse_dates=['Date'], dayfirst=True,
index_col='Date')
# Add the weekday column
berri_bikes = bikes[['Berri 1']].copy()
berri_bikes.loc[:,'weekday'] = berri_bikes.index.weekday
# Add up the number of cyclists by weekday, and plot!
weekday_counts = berri_bikes.groupby('weekday').aggregate(sum)
weekday_counts.index = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
weekday_counts.plot(kind='bar')