Обработка данных
Обработка данных в Python: pandas, jupyter notebook
Python 3 для начинающих
Обработка данных в Python: pandas, jupyter notebook
До этого момента, мы получали данные только из csv файлов. Это довольно распространённый способ сохранения данных, но далеко не единственный! Pandas может работать с данными из HTML, JSON, SQL, Excel (!!!), HDF5, Stata, и некоторых других вещей. В этой части мы поговорим о работе с данными из баз данных SQL.
Часто данные содержат не только числовые или строковые значения, но и даты / время, причём в огромном множестве разных форматов. pandas умеет работать с датами; в этой части будет показано, как.
Главная проблема загрязненных данных: понять, они загрязнены или нет?
Используем данные NYC 311 service request из одной из прошлых статей, так как их много и они неочевидны.
Мы уже видели, что pandas хорошо умеет обращаться с датами. Но он также хорошо умеет работать со строками! Возьмём наши данные из предыдущей части.
В конце этой части, мы загрузим данные о погоде в Канаде за весь 2012 год, и сохраним в CSV файл. Мы сделаем это, загрузив каждый месяц в отдельности, а затем сгруппировав все месяцы вместе.
Здесь температура за каждый час в 2012 году!
Эта часть показывает способы группировки, объединения и дополнения данных.
В этой части мы будем использовать новый набор данных, чтобы показать, как быть с большими объёмами данных. Это данные о 311 сервисных запросов (или жалоб) жителей, предоставленные NYC Open Data (скачать данные).
Эта часть показывает способ обработки данных, хранящихся в формате csv, а также построение простейших графиков.
pandas
- это Python библиотека для анализа и обработки данных. Она действительно быстрая и позволяет вам легко исследовать данные.
Цель этого цикла статей - дать конкретные примеры использования pandas.