# Линейная регрессия

Набор данных содержит информацию о затратах на рекламу (в тыс $) для разных типов медиа: __TV__, __Radio__, __Newspaper__. 
Результат __Sales__ показывает сколько товаров продано в связи с каждым каналом рекламы (в тыс штук). Собрано 200 наблюдений (рядов). 

In [None]:
# прочитаем данные из файла в датафрейм pandas
import pandas as pd

example_path = "./advertising.csv"
advertising = pd.read_csv(example_path).drop(['Unnamed: 0'], axis=1) # удалим индекс из csv
print(advertising)

Построим точечный график с помощью графика pandas

In [None]:

advertising.plot.scatter(x='TV', y='Sales', title='Peклaмa TB')
advertising.plot.scatter(x='Radio', y='Sales', title='Peклaмa Радио')

Построим график с помощью графика matplotlib

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
# словарь цветов {Class:color(HEX coded)}
colors = {'TV':'#8fcfd1', 'Radio':'#df5e88', 'Newspaper':'#f6ab6c'}

# выберем X
X = advertising[['TV', 'Radio', 'Newspaper']]
# выберем y
y = advertising['Sales']

# реорганизуем колонки
columns = advertising.columns.drop(['Sales'])
# диапазон x (0 to #rows)
x_data = range(0, advertising.shape[0])
# создадим фигуру для графика
fig, ax = plt.subplots(figsize=(8,6))
# построим точечные графики
ax.scatter(x=advertising['TV'], y=advertising['Sales'])
ax.scatter(x=advertising['Radio'], y=advertising['Sales'], color='gold')
# заголовок
ax.set_title('Peклaмa TB Радио')
# названия осей
ax.set_xlabel('затраты')
ax.set_ylabel('продажи')

In [None]:
# отрисуем точечные графики с помощью seaborn
import seaborn as sns
sns.set(style="ticks", color_codes=True)

# https://seaborn.pydata.org/generated/seaborn.pairplot.html
sns.pairplot(advertising, x_vars=['TV','Radio','Newspaper'], y_vars='Sales', height=6, aspect=1., kind='reg')

здесь использована опция `kind='reg'` этого графика [`sns.pairplot()`](https://seaborn.pydata.org/generated/seaborn.pairplot.html) для визуализации регрессии датасета. 

## Линейная регрессия

$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon $

- $y$ это отклик
- $\beta_0$ это пересечение (intercept)
- $\beta_1$ это коэффициент для $x_1$ фактора 
- $\beta_n$ это коэффициент для $x_n$ фактора
- $\epsilon$ это ошибка модели

Получаем уравнение:

$y = \beta_0 + \beta_1 \times TV + \beta_2 \times Radio + \beta_3 \times Newspaper + \epsilon$

здесь $\beta$ значения называются **коэффициенты модели**. Эти значения вычисляются по критерию наименьших квадратов ошибки. После подбора коэффициентов можно пробовать сделать прогноз по тренду. 
Для вычисления коэффициентов можно подключить 
- библиотеку numpy
- библиотеку фреймворка [`sklearn.linear_model.LinearRegression()`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression).

Например можно получить такое уравнение: $y = 2.88 + 0.0466 \times TV + 0.179 \times Radio + 0.00345 \times Newspaper + \epsilon$

In [None]:
#import matplotlib.pyplot as plt
import numpy as np

xtv=advertising['TV']
y=advertising['Sales']

fig, ax = plt.subplots(figsize=(8,6))
ax.tick_params(direction='in', top=True, right=True)
ax.plot(xtv, y, 'o')
# рассчитаем линейную регрессию
p1, p0 = np.polyfit(xtv, y, deg=1) # наклон, смещение
ax.axline(xy1=(0, p0), slope=p1, color='r', lw=2)

# добавим текстовую информацию на график
stats = (f'$\\mu$ = {np.mean(y):.2f}\n'
 f'$\\sigma$ = {np.std(y):.2f}\n'
 f'$r$ = {np.corrcoef(xtv, y)[0][1]:.2f}\n'
 f'$y$ = {round(p1,3)}*x+{round(p0,3)}' )

bbox = dict(boxstyle='round', fc='blanchedalmond', ec='orange', alpha=0.5)
ax.text(0.95, 0.07, stats, fontsize=9, bbox=bbox,
 transform=ax.transAxes, horizontalalignment='right')
pass


Нарисуем диаграмму матрицы корреляций с помощью библиотеки matplotlib в виде 2D-карты (imshow).

In [None]:
#import numpy as np
# матрица корреляций (Correlation matrix)
corr = advertising.corr()
fig, ax = plt.subplots(figsize=(6,6))

# тепловая карта (Heatmap)
im = ax.imshow(corr.values, cmap='cividis_r', vmin=0, vmax=1)

# названия по осям
ax.set_xticks(np.arange(len(corr.columns)))
ax.set_yticks(np.arange(len(corr.columns)))
ax.set_xticklabels(corr.columns)
ax.set_yticklabels(corr.columns)
print(corr.values)
# повернем текст для наглядности
plt.setp(ax.get_xticklabels(), rotation=45, ha="right", rotation_mode="anchor")
pass

## Тестовые данные Анскомба
Можно получить готовые данные датасета Анскомба из фреймворка seaborn. 

Датасет содержит 44 ряда и 3 колонки пар значений `x`,`y` и поле `dataset` с индексом (`I/II/III/IV`). 

In [None]:
#import pandas as pd
#import seaborn as sns

pd.set_option("max_rows", 8) # покажем только 8 рядов
anscome_df = sns.load_dataset("anscombe") # загрим данные из готового датасета anscombe
anscome_df['x'] = anscome_df['x'].astype(float)
anscome_df['y'] = anscome_df['y'].astype(float)
anscome_df # покажем данные

## Графики по данным Анскомба

Построим каждую группу точек (облако точек) дискретным графиком scatter из [matplotlib](https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.scatter.html) и используем сетку подграфиков из [seaborn](https://seaborn.pydata.org/tutorial/axis_grids.html). 

In [None]:
#import matplotlib.pyplot as plt # import pyplot to create scatter plots
sns.set(style="ticks")

g = sns.FacetGrid(anscome_df, col="dataset", hue="dataset") # зададим сетку для графиков
g.map(plt.scatter, "x", "y", alpha=.7) # отобразим графики в сетку

In [None]:
anscome_dataset_labels = anscome_df['dataset'].unique() # labels for each dataset

# First, compute mean
anscome_mean_of_xy = {q: anscome_df[anscome_df['dataset'] == q].mean() for q in anscome_dataset_labels}

# Second, compute variances 
anscome_var_of_xy = {q: anscome_df[anscome_df['dataset'] == q].var() for q in anscome_dataset_labels}

# Third, compute correlation between x and y
anscome_corr_of_xy = {q: anscome_df[anscome_df['dataset'] == q]['x'].corr(anscome_df[anscome_df['dataset'] == q]['y']) for q in anscome_dataset_labels}

# Show statistics
print("Anscombe's quartet statistics")
pd.concat([pd.DataFrame.from_dict(anscome_mean_of_xy).rename({"x": "среднее x", "y": "среднее y"}),
 pd.DataFrame.from_dict(anscome_var_of_xy).rename({"x": "дисперсия x", "y": "дисперсия y"}),
 pd.DataFrame({k: [v] for k, v in anscome_corr_of_xy.items()}).rename({0: "корреляция x и y"})])