## Введение в линейную алгебру для машинного обучения

### Векторы и операции с ними

**Вектором размера $n$** мы будем называть набор из $n$ вещественных чисел: 
 
$x = (x_1, x_2, ..., x_n) \in R^n$,

где $R$ — множество вещественных чисел. Элемент (число) $x_i$ вектора $x$ будем называеть **$i$-ой компонентой вектора $x$**.

Обратите внимание: векторы $(1,2,3)$ и $(3,2,1)$ — разные векторы, то есть порядок чисел в векторе имеет значение. Поэтому про вектор обычно говорят "упорядоченный набор чисел".

Векторы размера 1 можно отождествить с обычными числами (**скалярами**).

В анализе данных и машинном обучении для различных операций, связанных с линейной алгеброй, используют библиотеку `Numpy`:

In [0]:
import numpy as np

a = np.array([-1,0,1,2,3,4,5])
print('Вектор:', a)
print('Тип вектора:', type(a))

Вектор: [-1 0 1 2 3 4 5]
Тип вектора: 


Выше мы создали вектор длины 7 ($n=7$), состоящий из вещественных чисел. То есть $a \in R^7$.

Так же, как и со скалярами, векторы можно поэлементно складывать, вычитать, умножать и делить. Пусть есть два вектора:
$$
a = (a_1, a_2, ..., a_n) \in R^n \\
b = (b_1, b_2, ..., b_n) \in R^n
$$

Тогда **поэлементные операции** с ними определим так:

* (поэлементное) сложение:

$$
a + b = (a_1 + b_1, a_2 + b_2, ..., a_n + b_n) 
$$

* (поэлементное) вычитание:

$$
a - b = (a_1 - b_1, a_2 - b_2, ..., a_n - b_n) 
$$

* (поэлементное) умножение:

$$
a * b = (a_1 * b_1, a_2 * b_2, ..., a_n * b_n) 
$$

* (поэлементное) деление:

$$
a~/~b = (a_1 / b_1, a_2 / b_2, ..., a_n / b_n) 
$$

Поэлементные операции **для векторов разного размера НЕ определены**. Можно было бы просто "дополнять нулями" недостающие элементны одного из векторов, но мы договоримся, что так делать не будем, поскольку, например, библиотека питона `Numpy` не позволит сложить два вектора разного размера.

**Примеры**

> $(1, 2, 3) + (0, -1, -1.5) = (1, 1, 1.5)$ 

> $(1, 2, 3) + (0, -1, -1.5, 5, 6) = \text{не определено}$ 

> $(1, 2, 3) * (0, -1, -1.5) = (0, -2, -4.5)$

В `numpy` все эти операции делаются очень просто:

In [0]:
a = np.array([1,2,3,4,5,6])
b = np.arange(0, 100, 10) # второй способ создать массив из последовательных чисел
print(a)
print(b)

[1 2 3 4 5 6]
[ 0 10 20 30 40 50 60 70 80 90]


In [0]:
a + b # не можем сложить векторы разного размера

ValueError: operands could not be broadcast together with shapes (6,) (10,) 

In [0]:
b = b[:6]
a + b

array([ 1, 12, 23, 34, 45, 56])

In [0]:
a - b

array([ 1, -8, -17, -26, -35, -44])

In [0]:
a * b

array([ 0, 20, 60, 120, 200, 300])

In [0]:
a / b # делим на 0, поэтому интерпретатор питона выводит Warning

 """Entry point for launching an IPython kernel.


array([ inf, 0.2 , 0.15 , 0.13333333, 0.125 ,
 0.12 ])

Также определим операцию **умножения вектора на число (скаляр)**: 

$$
a = (a_1, a_2, ..., a_n) \in R^n \\
k \in R
$$
где $R$ — множество вещественных чисел.

$$
k * a = a * k = (a_1 * k, a_2 * k, ..., a_n * k) 
$$

Деление вектора на число так же определено, поскольку $a~/~k = a * (1~/~k)$, то есть это просто умножение на "1 поделить на это число". 

В математике строго не определены операции **сложения и вычитания вектора и числа (скаляра)**, однако мы введем их, поскольку во всех библиотеках для линейной алгебры и машинного обучения эти операции есть и осуществляются так:

$$
k + a = a + k = (a_1 + k, a_2 + k, ..., a_n + k) 
$$

$$
a - k = (a_1 - k, a_2 - k, ..., a_n - k) 
$$

Обратным к вектору $a$ будем называть такой вектор $b$, что:
 
$$
a + b = 0
$$

Отсюда следует, что $b = -a$, то есть обратным к любому вектору является он же, оно со знаком "минус".

**Примеры**

> $5 * (1, 2, 3) = (5, 10, 15)$ 

> $10.2 + (1, 2, 3) = (1, 2, 3) + 10.2 = (11.2, 12.2, 13.2)$

> $(1, 2, 3) - 100 = (-99, -98, -97)$

> $-(1, 2, 3) = (-1, -2, -3)$ — вектор, обратный к вектору $(1,2,3)$

In [0]:
a = np.array([1,2,3,4,5,6])
k = 42
print(a)
print(k)

[1 2 3 4 5 6]
42


In [0]:
a + k

array([43, 44, 45, 46, 47, 48])

In [0]:
a - k

array([-41, -40, -39, -38, -37, -36])

In [0]:
a * k

array([ 42, 84, 126, 168, 210, 252])

In [0]:
a / k

array([0.02380952, 0.04761905, 0.07142857, 0.0952381 , 0.11904762,
 0.14285714])

Помимо поэлементных операций и операций с числами, существуют специально определенная для векторов операция **скалярного произведения (dot product)**:

Пусть есть два вектора:
$$
a = (a_1, a_2, ..., a_n) \in R^n \\
b = (b_1, b_2, ..., b_n) \in R^n
$$

Тогда скалярное произведение двух векторов определяется как:

$$
\text{dot_product}(a, b) = a \cdot b = \sum_{i=1}^n a_i * b_i
$$

, то есть скалярное произведение векторов $a$ и $b$ — это число (скаляр), равное сумме поэлементных произведений компонтент этих векторов. Оно называется скалярным как раз потому, что результатом является число (**скаляр**). Чаще вместо $a \cdot b$ пишут просто $ab$ или $(a, b)$.

**Примеры**

> $(1,2,3) \cdot (5,10,15) = 1 * 5 + 2 * 10 + 3 * 15 = 70$

> $(0,0,0,0,0,0) \cdot (1,1,1,1,1,1) = 0 * 1 + 0 * 1 + 0 * 1 + 0 * 1 + 0 * 1 + 0 * 1 = 0$

На `numpy` скалярное произведение можно посчитать так:

In [0]:
a = np.array([1,2,3,4,5,6])
b = -a # второй способ создать массив из последовательных чисел
print(a)
print(b)

[1 2 3 4 5 6]
[-1 -2 -3 -4 -5 -6]


In [0]:
a @ b # скалярное произведение

-91

In [0]:
np.dot(a, b) # или так

-91

In [0]:
# Проверка, что dot product считается именно по формуле выше:
a @ b == np.sum(a * b) # определение скалярного произведения

True

Существуют еще векторное и смешанное произведение векторов, но ими мы в курсе пользоваться не будем. Про **внутреннее (inner)** и **внешнее (outer)** произведения мы узнаем позже.

### Линейная зависимость векторов

Пусть есть набор из $m$ векторов одинакового размера $n$: 

$$
x_1, x_2, ..., x_m 
$$

Договоримся, что с этого момента первым индексом будем обозначать номер вектора в наборе векторов, а нижним индексом чеерз запятую будем обозначать конкретный элемент вектора. Например, 5-ый элемент вектора под номером 16 из набора пишется как $x_{16,5}$

Вектора $x_1, x_2, ..., x_m $ называются **линейно зависимыми**, если существует такой набор коэффициентов (вещественных чисел) $\alpha_1, \alpha_2,...,\alpha_m$, что выполнено:

$$
\alpha_1 x_1 + \alpha_2 x_2 + ... + \alpha_m x_m = 0
$$

Вообще, в математике левую часть такого выражения (сумму с коэффициентами) называют **линейной комбинацией** векторов. 

Таким образом, если существует набор коэффициентов для векторов такой, что их линейная комбинация равна 0, то эти векторы являются линейно зависимыми. Однако понятно, что если возьмем все коэффициенты $\alpha_i = 0$ — то получим 0. Поэтому в определении линейной зависимости мы еще требуем, чтобы выполнялось условие — **все коэффициенты одновременно не равны 0.**

Правильное определение тогда выглядит так:

Вектора $x_1, x_2, ..., x_m $ называются **линейно зависимыми**, если существует такой набор коэффициентов (вещественных чисел) $\alpha_1, \alpha_2,...,\alpha_m$, не равных нулю одновременно (говорят "ненулевой набор коэффициентов"), что выполнено:

$$
\alpha_1 x_1 + \alpha_2 x_2 + ... + \alpha_m x_m = 0
$$

Важно: под нулем здесь понимается именно **нулевой вектор**, равный $(0,0,...,0)$ ($n$ нулей).

Если такого набора коэффициентов не существует, то набор векторов называется **линейно независимыми**.

**Примеры**

> Набор: $x_1 = (1,1,1), x_2 = (2,2,2), x_3 = (3,3,3)$. 
Эти три вектора являются линейно зависимыми, поскольку:
$(-1) * (1,1,1) + (-1) * (2,2,2) + (3,3,3) = 0$. 
Коэффициенты здесь: $\alpha_1 = -1, \alpha_2 = -1, \alpha_3 = 1$


> Набор: $x_1 = (1,0), x_2 = (0,1), x_3 = (1,1)$. 
Эти три вектора являются линейно зависимыми, поскольку:
$(1,0) + (0,1) - (1,1) = 0$. 
Коэффициенты здесь: $\alpha_1 = 1, \alpha_2 = 1, \alpha_3 = -1$

> Набор: $x_1 = (1,0), x_2 = (0,1)$. 
Эти два вектора являются линейно независимыми, поскольку вторая компонента вектора $x_1$ всегда будет равна 0 (при умножении на любой коэффициент), а вторая компонента вектора $x_2$ равна 1.

**Смысл понятия линейной зависимости:**
Понятия линейной зависимости и независимости очень широко используются в анализе данных. Интуитивный смысл такой — если векторы являются линейно зависимыми, то их можно выразить друг через друга. И правда, если, например: $x_1 + 3x_2 - 8.5x_3 = 0$, то можем выразить любой из $x_1$, $x_2$ или $x_3$ через другие два вектора:
$$
x_1 = 8.5x_3 - 3x_2 \\
x_2 = 8.5x_3 - x_1 \\
x_3 = (x_1 + 3x_2)~/~8.5 \\
$$
В анализе данных (и часто в математике в целом) мы обычно заинтересованы именно в наборах линейно независимых векторов. Это мотивировано тем, что если векторы линейно зависимы, то набор "избыточен", то есть мы зачем-то используем больше векторов, чем "нужно". Такова интуиция этих понятий.

### Векторное пространство

Выше мы определили то, что такое векторы, операции векторов с векторами и операции вектором со скалярами. На самом деле все это можно сделать более формально, как это принято в математике, ведь теперь мы уже понимаем смысл всех этих формализмов:

**Линейное** или **векторное пространство** $V$ над полем $R$ действительных чисел — это упорядоченная четвёрка $(V,R,+,*)$, где $V$ — непустое множество элементов произвольной природы, которые называются **векторами**; $R$ — множество вещественных чисел, элементы которого называются **скалярами**; определена операция **сложения векторов $+$** и **операция умножения векторов на скаляры $*$**. В нашем случае объекты произвольной природы — это упорядоченные наборы чисел, их мы и называем векторами.

Чтобы называться линейным (векторным) пространством, это множество должно также удовлетворять следующим свойствам: 

1. $a + b = b + a,~~a,b \in V$
2. $(a + b) + c = a + (b + c)$ — складывать можно в любой последовательности
3. Существует нулевой вектор (нейтральный по сложению элемент): $0 + a = a + 0 = a, ~~a \in V$
4. Для каждого вектора $x$ существует обратный к нему по сложению элемент $-x$, такой что: $x + (-x) = 0$
5. $\alpha(\beta a) = (\alpha\beta) a,~~a \in V, \alpha,\beta \in R$ — перемножать можно в любой последовательности
6. Существует единичный вектор (нейтральный по умножению элемент): $1 * a = a * 1 = ~~a \in V$
7. $(\alpha + \beta)a = \alpha a + \beta a, ~~a \in V, \alpha,\beta \in R$
8. $\alpha(a + b) = \alpha a + \alpha b, ~~a,b \in V, \alpha \in R$




Во многих курсах и [учебниках по линейной алгебре](https://mipt.ru/education/chair/mathematics/upload/ff4/Umnov-AnGeom-i-LinAl-arph0duocc9.pdf) более подробно рассматриваются подобные пространства. С ними связано много теории и задач, однако в нашем курсе нам это понятие не пригодится в степени большей, чем на уровне определения.

### Базис

В примерах на линейную зависимость выше мы рассматривали набор: $x_1 = (1,0), x_2 = (0,1)$. Мы доказали, что эти векторы линейно независимы. Однако что нам это дает? На самом деле — многое. Ведь, используя только эти два вектора, **их линейной комбинацией мы можем получить любой вектор размера 2**:

$$
\alpha_1 x_1 + \alpha_2 x_2 = (\alpha_1, 0) + (0, \alpha_2) = (\alpha_1, \alpha_2)
$$
где $\alpha_1, \alpha_2 \in R$

Такую систему векторов, линейная комбинация которых может образовывать все вектора данного размера, называют **базисом в векторном пространстве** (в данном случае — в векторном пространстве числовых упорядоченных наборов размера 2).

**Ба́зис** (др.-греч. βασις «основа») — упорядоченный (конечный или бесконечный) набор векторов в векторном пространстве, такой, что любой вектор этого пространства может быть единственным образом представлен в виде линейной комбинации векторов из этого набора (базиса). Векторы базиса называются **базисными векторами**.

### Координаты, норма, угол

В школе на уроках математики часто рассматривались векторы размера 2, которые наглядно рисовать на координатной плоскости ("по клеточкам"): первая компонента вектора — координата $x$, вторая компонента — координата $y$.

Благодаря этому становится понятно, что такое **угол** между векторами, легко найти их **модуль** (длину) и **координаты**.

Все это прекрасно обобщается и на **многомерные векторы и векторные пространства** (многомерные — значит произвольного размера $n$ (целое положительное число)). Рассмотрим векторное пространство вещественных векторов размера $n$. Зафиксируем в этом пространстве **стандартный базис**: 

$$
e_1 = (1,0,...,0,0,0,...,0) \\
e_2 = (0,1,...,0,0,0,...,0), \\
..., \\
e_i = (0,0,...,0,1,0,...,0), \\
... \\
e_n = (0,0,...,0,0,0,...,1) \\
$$, где в векторе $e_i$ единица стоит только на $i$-ом месте, а остальные компоненты — нули. Тогда понятно, что линейной комбинацией этих векторов мы можем представить любой вещественный вектор размера $n$. **Координатами** этого вектора мы назовем коэффициенты в линейной комбинации этих базисных векторов, образующей этот вектор. 

**Пример**
> Пусть $x = (5,-1,0)$ -- вектор. 
Тогда можно его представить с помощью стандартного базиса $e_1 = (1,0,0)$, $e_2 = (0,1,0)$,$e_3 = (0,0,1)$: 
$5*(1,0,0) - 1 * (0,1,0) + 0 * (0,0,1) = (5,-1,0)$ 
Таким образом координаты этого вектора будут (5,-1,0) (то есть получается сам этот вектор).

В данном случае пример получился странным, поскольку мы взяли вектор в базисе, уже представленный своими координатами в этом базисе, и просто показали как он раскладывается по этому же базису. Куда более интересно брать вектор в одном базисе, и записывать его координаты в другом базисе. Однако мы этим заниматься не будем, поскольку в курсе, опять же, этого навыка не требуется.

**Модулем** или **евклидовой нормой** вектора размера $n$ мы будем называть вещественное число, равное: 

$$||x|| = \sqrt{x_1^2+x_2^2+...+x_n^2}$$

Нормы можно определять по-разному, но главное, о чем говорит норма вектора — о суммарной величине (амплитуде) его компонент. Если у вектора все компоненты меньше 1 по модулю, то и модуль (норма) всего вектора будет маленькой. Если же есть хотя бы одна большая компонента (например, все нули, но одна компонента равна 100000), это напрямую отразится на норме вектора (она будет большой).

Попрактикуемся в подсчете нормы на `numpy`:

In [0]:
x = np.array([1,2,3,4,5])
np.sqrt(np.sum(x ** 2)) # корень из суммы квадратов координат

7.416198487095663

Выше мы сначала возвели элементы вектора в квадрат `**2 `, далее посчитали их сумму с помощью `np.sum()` и взяли квадратный корень `np.sqrt()` из неё.

Также в `numpy` есть готовая функция для подсчета евклидовой нормы вектора:

In [0]:
np.linalg.norm(x)

7.416198487095663

In [0]:
np.sqrt(np.sum(x ** 2)) == np.linalg.norm(x)

True

И, наконец, **косинусом угла** между двумя векторами мы будем называть следующее выражение:

$$
\text{cosine_similarity}(a,b) = cos(a,b) = \frac{a \cdot b}{||a||*||b||}
$$ 

где $a \cdot b$ — скалярное произведение векторов $a$ и $b$, $||a||$ и $||b||$ — евклидовы нормы векторов. Эту величину еще называют **косинусной мерой похожести** между векторами (**cosine similarity**)

Также определяют **косинусное расстояние** как:
$$
\text{cosine_distance}(a,b) = 1 - cos(a,b) = 1 - \frac{a \cdot b}{||a||*||b||}
$$ 


**Важно**: когда говорят, что два вектора "близки", имеют в виду, что между ними маленькое косинусное расстояние, или, что то же самое — большая косинусная мера похожести.

Заметим очень **важное свойство косинусной меры** похожести — она **принимает значения только от -1 до 1** (прямо как косинус угла в тригонометрии). Почему это верно? Существует [неравенство Коши-Буняковского](https://ru.wikipedia.org/wiki/Неравенство_Коши_—_Буняковского), которое говорит о следующем:

$$
|a \cdot b| \le ||a||*||b||
$$ 

То есть модуль скалярного произведения меньше или равен произведению норм. Для дроби $\frac{a \cdot b}{||a||*||b||}$ это значит, что числитель всегда не больше знаменателя, а значит сама дробь меньше или равна 1 по модулю. Мы помним, что скалярное произведение может быть отрицательным, а значит косинусная мера похожести и правда всегда принимает значения в отрезке $[-1, 1]$.

Научимся считать косинусную меру похожести векторов на `numpy`:

In [0]:
a = np.array([1,2,3,4,5])
b = np.arange(0,50,10)
print(a, b)

[1 2 3 4 5] [ 0 10 20 30 40]


In [0]:
cosine_similarity = (a @ b) / (np.linalg.norm(a) * np.linalg.norm(b))
cosine_similarity

0.9847319278346618

Интересно, а чему будет равно мера похожести вектора с самим собой и с обратным к нему:

In [0]:
cosine_similarity = (a @ a) / (np.linalg.norm(a) * np.linalg.norm(a))
cosine_similarity

1.0

In [0]:
cosine_similarity = (a @ -a) / (np.linalg.norm(a) * np.linalg.norm(-a))
cosine_similarity

-1.0

Получили 1 и -1 соответственно, что согласуется с формулой косинусной меры похожести и её интуитивному смыслу ("близость", "похожесть").

### Резюме

Мы познакомились с понятиями **вектора**, с **поэлементными операциями** и **скалярным произведением**. Обсудили понятия **линейной зависимости и независимости**, дали определение **векторного простанства** и **базиса** в нем. Поговорили о **координатах** векторов, **косинусной мере похожести** векторов и о **норме (модуле) векторов**. 

Далее следует пройти тест по этим темам и двигаться дальше — к матрицам и операциям с ними. Также вас ждет подробный ноутбук с практикой по библиотеке `Numpy`, поскольку это одна из самых важных библиотек в анализе данных и машинном обучении.