Подключим необходимые фреймворки

In [None]:
# фреймворк для расчетов
import numpy as np 
# фреймворк для анализа данных
import pandas as pd 
# фреймворк для графиков
import matplotlib.pyplot as plt

Прочитаем данные с помощью библиотеки `pandas`. Библиотека pandas предназначена для статистической обработки данных, по назначению близка к Excel и языку R, включая функциональность работы с базами данных и таблицами.

При чтении можно указать какую колонку нужно использовать в качестве индекса (т.е. ключа) в таблице(фрейме): `index_col=0`.

Мы видим таблицу со следующими колонками:

Описание набора данных:

_Population_ - численность населения (в тысячах) в штате в 1975 г

_Income_ - доход на душу населения в 1974 г (за год)

_Illiteracy_ - уровень неграмотности в 1970 г (в процентах к населению)

_Life.Exp_ - ожидаемая продолжительность жизни жителей штата в годах на 1970 г.

_Murder_ - количество убитых (как умышленно, так и без умысла) на 100 тысяч населения в 1976 г.

_HS.Grad_ - процент выпускников средней школы в 1970 г.

_Frost_ - среднее число дней с минимальной температурой ниже нуля с 1931 по 1960 г в столице штата

_state.area_ - площадь суши (в квадратных милях) штата

_state.abb_ - сокращенное название (аббревиатура) штата

_state.name_ - полное название штата

_state.region_ - регион, к которому относится штат

In [None]:
# откроем файл формата csv и создадим фрейм data
data = pd.read_csv('statedata.csv')
# выведем начальные строки фрейма data
data.head()

Соответствующая переменная имеет тип данных `DataFrame`.

In [None]:
type(data)

In [None]:
# чтобы в названиях колонок не было проблем с точками - переименуем для удобства
data = data.rename({'Life.Exp':'Life_Exp', 'HS.Grad':'HS_Grad', 'state.name':'s_name', 'state.abb':'s_abr', 'state.area':'s_area', 'state.region':'s_region'}, axis='columns', inplace=False)
# выведем структуру данных фрейма
data.info()

Видно, что датасет не содержит нулевых значений, цифровые значения указаны в числовых форматах.

In [None]:
#для наглядности выведем все штаты и все данные по ним 
#data.style.bar() # можно так - информативнее
#DataFrame.style requires jinja2. Use pip or conda to install Jinja2.
# а можно и так - через print()
data

In [None]:
# Данные из отдельной колонки
print(data['Population'])

# Данные по столбцу имеют тип данных `Series`
type(data.Population)

In [None]:
# добавим колонку -- общий доход населения штата - перемножаем население на подушевой доход
data['total_state_income'] = data['Population'] * data['Income']
data.head()

In [None]:
# Можно взять из фрейма только несколько колонок
data[['Population', 'Income', 'total_state_income']]

In [None]:
# Имена всех колонок
print(data.columns)

# cписок всех индексов таблицы (т.е. ключей)
print(data.index)

In [None]:
# Тип данных в каждой из колонок таблицы
data.dtypes

In [None]:
# Строку таблицы, соответствующую *ключу 1*, можно получить через `loc`
data.loc[1]

In [None]:
# Ввнимание! Обычный численный индекс строки равен 0. По нему можно извлекать строку с помощью `iloc`
data.iloc[0]

In [None]:
# Можно извлечь несколько строк - 0 и 1 и 2
data.iloc[0:3]

In [None]:
# Можно извлечь конкретное значение
data.iloc[0]['Population']

In [None]:
# Сортировка по столбцу
data.sort_values(by='Population')

In [None]:
# Получим средние значения по регионам в новом фрейме regions
regions = data.groupby(['s_region']).mean()
# и выведем фрейм regions
print(regions)

In [None]:
# построим круговую диаграмму - соотношение уровня убийств между регионами
plt.pie(regions['Murder'], labels=regions['Murder'].round(2))
pass

In [None]:
# построим круговую диаграмму - соотношение уровня убийств между регионами
lbl=[]
for i in range(len(regions)):
 lbl.append(regions.index[i] +'\n' +str(regions['Murder'][i].round(2)) )
expl=[0.02,0.04,0.07,0,0,0,0,0]
patches, texts = plt.pie(regions['Murder'], labels= lbl, wedgeprops={'linewidth':2.0,'edgecolor':'white'}, explode=expl)
for i, p in enumerate(patches):
 texts[i].set_color(p.get_facecolor())
plt.title('Уровень криминала по регионам', fontsize=20)
pass

In [None]:
# построим график - распределение среднего уровня убийств по штатам на частотной гистограмме
data['Murder'].hist(bins=8,grid=False,color='purple', alpha=0.7)

Посмотрим на соотношение продолжительности жизни между регионами.

Посмотрим на распределение продолжительности жизни по штатам по частотной гистограмме.

In [None]:
# ? ? ? 


Найдем топ-5 - самых холодных и теплых штатов

In [None]:
# Какие штаты самые холодные - с помощью сортировки
Frost_top5 = data. sort_values('Frost', ascending=False). head(5)
# лидеры по холоду
Frost_top5
# лидеры по теплу
# ? ? ?

In [None]:
# Какие штаты самые холодные - с помощью выборки
Frost_top = data.groupby('s_name')[['Frost']]. sum(). sort_values('Frost', ascending=False). head(5)
# лидеры по холоду
Frost_top
# лидеры по теплу
# ? ? ?

Найдем топ-5 - с лучшим средним уровнем образования и самые "неграмотные" штаты

In [None]:
# посмотрим корреляцию между неграмотностью и уровнем убийств
Illiteracy = data.groupby('s_name')[['Illiteracy']].sum().sort_values('Illiteracy', ascending=False).head(5)
# лидеры по безграмотности
Illiteracy
# лидеры по грамотности
# ? ? ?

Найдем топ-5 - самых криминальных и самых спокойных штатов.

In [None]:
# посмотрим по уровню убийств
Murder = data.groupby('s_name')[['Murder']].sum().sort_values('Murder', ascending=False).head(5)
# лидеры по убийствам
Murder
# анти-лидеры по убийствам
# ? ? ?

Найдите топ-5 штатов для следующих показателей:
- самых густонаселенных и малозаселенных штатов (плотность населения);
- с самым высоким доходом населения и самых низкодоходных;
- с лучшим средним уровнем образования и самые неграмотные штаты;
- штатов, где люди живут дольше и где низкая продолжительность жизни;


In [None]:
# ? ? ?

In [None]:
# посмотрим график зависимости продолжительности жизни от дохода и климата
fig, ax = plt.subplots(1, 2, layout='constrained', figsize=(10, 3))
fig.suptitle('зависимость продолжительности жизни')
ax[0].scatter (x=data['Income'], y=data['Life_Exp'], marker='x')
ax[0].tick_params(axis='x', labelcolor='red', labelsize=14)
ax[0].set_title('от дохода')
ax[1].scatter (x=data['Frost'], y=data['Life_Exp'], marker='o', color='green')
ax[1].tick_params(axis='y', labelcolor='orange', labelsize=11)
ax[1].set_title('от мороза')
pass

In [None]:
# посмотрим корреляцию между продолжительностью жизни и доходм и климатом
fig, ax = plt.subplots(1, 2, layout='constrained', figsize=(10, 3))
fig.suptitle('корреляция продолжительности жизни')
ax[0].scatter (x=data['Income'], y=data['Life_Exp'], marker='x')
ax[0].tick_params(axis='x', labelcolor='red', labelsize=14)
ax[0].set_title('с доходом')
# линейная регрессия - степень deg=1
p1, p0 = np.polyfit(x=data['Income'], y=data['Life_Exp'], deg=1) # slope, intercept
ax[0].axline(xy1=(3000, p0+3), slope=p1, color='r', lw=2)

ax[1].scatter (x=data['Frost'], y=data['Life_Exp'], marker='o', color='green')
ax[1].tick_params(axis='y', labelcolor='orange', labelsize=11)
ax[1].set_title('с морозом')
# linear regression
p1, p0 = np.polyfit(x=data['Frost'], y=data['Life_Exp'], deg=1) # slope, intercept
ax[1].axline(xy1=(0, p0), slope=p1, color='r', lw=2)
pass


Есть ли корреляция уровня преступности с уровнем образования ?

Есть ли корреляция уровня преступности с климатом ?

In [None]:
# ? ? ?