## Введение в линейную алгебру для машинного обучения

Вспомним основные вещи про числовые матрицы и операции с ними.

### Матрицы и операции с ними

**Матрицей размера $n \times m$**  мы будем называть набор из $n \times m$ вещественных чисел, где все эти числа **записаны в строки и стобцы матрицы**: 
    
$$
A = \begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1m} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{n1} & x_{n2} & x_{n3} & \dots  & x_{nm}
\end{bmatrix}
\in R^{n \times m}$$

где $R$ — множество вещественных чисел. В данном случае матрица имеет $n$ строк и $m$ столбцов. Элементами матрицы $x_{ij}$ являются вещественные числа. Если взять одну строку матрицы — получим числовой вектор размера $m$, если взять один столбец — тоже получим числовой вектор, но уже размера $n$.

Количество строк матрицы, стоящее в $n \times m$ первым множителем, будем называть **первой размерностью**, второй множитель (количество столбцов) будем называть **второй размерностью** матрицы. Их еще часто называют **осями** (***axis*** по-английски)

**Пример:**

<img src="http://www.pvsm.ru/images/2018/07/26/instrumenty-Apple-dlya-mashinnogo-obucheniya-14.png" width=500>

<p style="text-align:center">Это матрица $7 \times 6$ (строка имен столбцов не считается в данном случае). Первая размерность (первая ось) матрицы равна $7$, вторая размерность (вторая ось) матрицы равна $6$. Любая строка этой матрицы — числовой вектор размера $6$. Любой столбец этой матрицы — числовой вектор размера $7$.</p>

В анализе данных и машинном обучении для различных операций, связанных с линейной алгеброй, используют библиотеку `Numpy`:

In [0]:
import numpy as np

A = np.array([[-1,0,1],[2,3,4]])
print('Матрица:\n', A)
print('Тип матрицы:', type(A))
print('Размер матрицы:', A.shape)

Матрица:
 [[-1  0  1]
 [ 2  3  4]]
Тип матрицы: <class 'numpy.ndarray'>
Размер матрицы: (2, 3)


Выше мы создали матрицу размера $2 \times3 $ ($n=2, m=3$), состоящую из вещественных чисел. То есть $A \in R^{2 \times 3}$.

Матрицу, у которой количество строк равно количеству столбцов ($n = m$) называют **квадратной**. Все остальные матрицы называют **прямоугольными**.

In [0]:
A = np.array([[-1,0,1],[2,3,4],[5,5,5]])
print('Квадратная матрица 3x3:\n', A)
B = np.ones((5, 2))  # создать матрицу нужного размера, состоящую только из единиц
print('Прямоугольная матрица 5x2:\n', B)

Квадратная матрица 3x3:
 [[-1  0  1]
 [ 2  3  4]
 [ 5  5  5]]
Прямоугольная матрица 5x2:
 [[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


В `numpy` у матриц легко извлекать только нужную строку, стобец или элемент. Рассмотрим произвольную матрицу:

In [0]:
A = np.array([
    [1,2,3,4], 
    [5,6,7,8], 
    [9,10,11,12],
    [13,14,15,16], 
    [17,18,19,20]
])
print(A)
print(A.shape)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]
 [17 18 19 20]]
(5, 4)


Хотим, например, взять из этой матрицы $5x4$ только 1-ю строку, это можно сделать так:

In [0]:
A[0,:]  #  строка 1 (отсчет с нуля!, поэтому 0), весь столбец 

array([1, 2, 3, 4])

Только 3-ю строку:

In [0]:
A[2,:]  #  строка 3 (отсчет с нуля!, поэтому 2), весь столбец 

array([ 9, 10, 11, 12])

При обращении к элементам матрицы в квадратных скобках на первом месте указывается номер строки (**отсчет ведём с нуля, то есть первая строка в программировании — нулевая, первый столбец — нулевой**), на втором — номер столбца. Выше поскольку мы берем весь столбец, мы пишем двоеточие (как "срезы (`slice`)" в Python). Теперь хотим взять конкретный элемент, например, стоящий в строке 4 в столбце 3:

In [0]:
A[3,2]  # строка 4, столбец 3 (отсчет с нуля!)

15

In [0]:
A[3][2]  # или так

15

Хотим теперь взять из этой матрицы $5x4$ только 2-ой столбец:

In [0]:
A[:,1]

array([ 2,  6, 10, 14, 18])

Таким образом мы убедились, что индексирование матриц — это просто!

Так же, как и с векторами, матрицы можно поэлементно складывать, вычитать, умножать и делить. Пусть есть две матрицы:  

$$
A = \begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1m} \\
    a_{21} & a_{22} & a_{23} & \dots  & a_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} & a_{n2} & a_{n3} & \dots  & a_{nm}
\end{bmatrix}
\in R^{n \times m}$$

$$
B = \begin{bmatrix}
    b_{11} & b_{12} & b_{13} & \dots  & b_{1m} \\
    b_{21} & b_{22} & b_{23} & \dots  & b_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    b_{n1} & b_{n2} & b_{n3} & \dots  & b_{nm}
\end{bmatrix}
\in R^{n \times m}$$

Тогда **поэлементные операции** с ними определим так:

* (поэлементное) сложение:

$$
A + B = \begin{bmatrix}
    a_{11} + b_{11} & a_{12} + b_{12} & a_{13} + b_{13} & \dots  & a_{1m} + b_{1m} \\
    a_{21} + b_{21} & a_{22} + b_{22} & a_{23} + b_{23} & \dots  & a_{2m} + b_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} + b_{n1} & a_{n2} + b_{n2} & a_{n3} + b_{n3} & \dots  & a_{nm} + b_{nm}
\end{bmatrix}
$$

* (поэлементное) вычитание:

$$
A - B = \begin{bmatrix}
    a_{11} - b_{11} & a_{12} - b_{12} & a_{13} - b_{13} & \dots  & a_{1m} - b_{1m} \\
    a_{21} - b_{21} & a_{22} - b_{22} & a_{23} - b_{23} & \dots  & a_{2m} - b_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} - b_{n1} & a_{n2} - b_{n2} & a_{n3} - b_{n3} & \dots  & a_{nm} - b_{nm}
\end{bmatrix}
$$

* (поэлементное) умножение:

$$
A * B = \begin{bmatrix}
    a_{11} * b_{11} & a_{12} * b_{12} & a_{13} * b_{13} & \dots  & a_{1m} * b_{1m} \\
    a_{21} * b_{21} & a_{22} * b_{22} & a_{23} * b_{23} & \dots  & a_{2m} * b_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} * b_{n1} & a_{n2} * b_{n2} & a_{n3} * b_{n3} & \dots  & a_{nm} * b_{nm}
\end{bmatrix}
$$

* (поэлементное) деление:

$$
A~/~B = \begin{bmatrix}
    a_{11} / b_{11} & a_{12} / b_{12} & a_{13} / b_{13} & \dots  & a_{1m} / b_{1m} \\
    a_{21} / b_{21} & a_{22} / b_{22} & a_{23} / b_{23} & \dots  & a_{2m} / b_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} / b_{n1} & a_{n2} / b_{n2} & a_{n3} / b_{n3} & \dots  & a_{nm} / b_{nm}
\end{bmatrix}
$$

Поэлементные операции **для матриц разного размера НЕ определены**. Например, нельзя поэлементно сложить матрицы размеров $1 \times 2$ и $2 \times 1$ (порядок размерностей важен!)

**Примеры**

> $A = \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix},
B = \begin{bmatrix}
    -5 & 0.5  \\
    -10 & 10  \\
    11 & 12 \\
\end{bmatrix}, 
A + B = \begin{bmatrix}
    -2 & 2.5  \\
    -11 & 10  \\
    11.5 & 12.5 \\
\end{bmatrix}$

> $A = \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix},
B = \begin{bmatrix}
    -5 & 0.5  \\
    -10 & 10  \\
    11 & 12 \\
    100 & 100 \\
\end{bmatrix}, 
A + B = \text{не определено}
$

> $A = \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix},
B = \begin{bmatrix}
    -5 & 0.5  \\
    -10 & 10  \\
    11 & 12 \\
\end{bmatrix}, 
A * B = \begin{bmatrix}
    -15 & 1  \\
    10 & 0  \\
    5.5 & 6 \\
\end{bmatrix}$

На `numpy`:

In [0]:
A = np.array([[1,2,3],[4,5,6]])
B = np.ones((2,3))
print(A)
print(B)

[[1 2 3]
 [4 5 6]]
[[1. 1. 1.]
 [1. 1. 1.]]


In [0]:
A + B

array([[2., 3., 4.],
       [5., 6., 7.]])

In [0]:
A - B

array([[0., 1., 2.],
       [3., 4., 5.]])

In [0]:
A * B

array([[1., 2., 3.],
       [4., 5., 6.]])

In [0]:
A / B

array([[1., 2., 3.],
       [4., 5., 6.]])

Также определим операцию **умножения матрицы на число (скаляр)**:   

$$
A = \begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1m} \\
    a_{21} & a_{22} & a_{23} & \dots  & a_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} & a_{n2} & a_{n3} & \dots  & a_{nm}
\end{bmatrix}
\in R^{n \times m}$$

$$k\in R$$
где $R$ — множество вещественных чисел.

$$
k * A = A * k = \begin{bmatrix}
    a_{11} * k & a_{12} * k & a_{13} * k & \dots  & a_{1m} * k \\
    a_{21} * k & a_{22} * k & a_{23} * k & \dots  & a_{2m} * k \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} * k & a_{n2} * k & a_{n3} * k & \dots  & a_{nm} * k
\end{bmatrix}
$$

Деление матрицы на число так же определено, поскольку $A~/~k = A * (1~/~k)$, то есть это просто умножение на "1 поделить на это число". 

В математике строго не определены операции **сложения и вычитания матрицы и числа (скаляра)**, однако мы введем их, поскольку во всех библиотеках для линейной алгебры и машинного обучения эти операции есть и осуществляются так:

$$
k + A = A + k = \begin{bmatrix}
    a_{11} + k & a_{12} + k & a_{13} + k & \dots  & a_{1m} + k \\
    a_{21} + k & a_{22} + k & a_{23} + k & \dots  & a_{2m} + k \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} + k & a_{n2} + k & a_{n3} + k & \dots  & a_{nm} + k
\end{bmatrix}
$$

$$
 A - k = \begin{bmatrix}
    a_{11} - k & a_{12} - k & a_{13} - k & \dots  & a_{1m} - k \\
    a_{21} - k & a_{22} - k & a_{23} - k & \dots  & a_{2m} - k \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} - k & a_{n2} - k & a_{n3} - k & \dots  & a_{nm} - k
\end{bmatrix}
$$

Отрицанием матрицы $A$ будем называть такую матрицу $B$, что:
    
$$
A + B = 0
$$

Отсюда следует, что $B = -A$, то есть отрицанием любой матрицы является она же, но со знаком "минус".

Имею эти операции можем определить и $k - A$:

$$k - A = k + (-A)$$ 

где отрицание A и сумму со скаляром мы уже определили выше.

**Примеры**

> $5 * \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix} = \begin{bmatrix}
    15 & 10  \\
    -5 & 0  \\
    2.5 & 2.5 \\
\end{bmatrix}$

> $10.2 + \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix} = \begin{bmatrix}
    13.2 & 12.2  \\
    -9.2 & 10.2 \\
    10.7 & 10.7 \\
\end{bmatrix}$

> $\begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix} - 100 = \begin{bmatrix}
    -97 & -98 \\
    -101 & -100  \\
    -99.5 & -99.5 \\
\end{bmatrix}$

> $-\begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix} = \begin{bmatrix}
    -3 & -2  \\
    1 & 0  \\
    -0.5 & -0.5 \\
\end{bmatrix}$ — отрицание матрицы $\begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix}$

Помимо поэлементных операций и операций с числами, существуют специально определенные для матриц операции:

* **транспонирование** — записываем строки на место столбцов, а столбцы — на место строк:  

$$
A = \begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1m} \\
    a_{21} & a_{22} & a_{23} & \dots  & a_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} & a_{n2} & a_{n3} & \dots  & a_{nm}
\end{bmatrix}
\in R^{n \times m}
$$  

$$
A^T = \begin{bmatrix}
    a_{11} & a_{21} & \dots  & a_{n1} \\
    a_{12} & a_{22} & \dots  & a_{n2} \\
    a_{13} & a_{23} & \dots  & a_{n3} \\
    \vdots & \vdots & \ddots & \vdots \\
    a_{1m} & a_{2m} & \dots  & a_{nm}
\end{bmatrix}
\in R^{m \times n}
$$

**Пример**
> $\begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix}^{T} = \begin{bmatrix}
    3 & -1 & 0.5  \\
    2 & 0 & 0.5 \\
\end{bmatrix}
$

На `numpy` транспонировать матрицы можно так:

In [0]:
A = np.array([[1,2,3],[4,5,6]])
B = np.ones((2,3))
print(A)
print(B)

[[1 2 3]
 [4 5 6]]
[[1. 1. 1.]
 [1. 1. 1.]]


In [0]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [0]:
B.T

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

Далее рассмотрим подробно операции матричного произведения и взятия обратной матрицы:

### Матричное произведение

Одна из самых важных операций в линейной алгебре — **матричное произведение**. ВАЖНО: это НЕ то же самое, что поэлементное произведение матриц, рассмотренное выше.

Пусть есть две матрицы (обратите внимание на размеры матриц):

$$
A = \begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1k} \\
    a_{21} & a_{22} & a_{23} & \dots  & a_{2k} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} & a_{n2} & a_{n3} & \dots  & a_{nk}
\end{bmatrix}
\in R^{n \times k}
$$

$$
B = \begin{bmatrix}
    b_{11} & b_{12} & b_{13} & \dots  & b_{1m} \\
    b_{21} & b_{22} & b_{23} & \dots  & b_{2m} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    b_{k1} & b_{k2} & b_{k3} & \dots  & b_{km}
\end{bmatrix}
\in R^{k \times m}
$$

Тогда **матричным произведением** этих матриц является матрица:

$$
A \times B = C = \begin{bmatrix}
    A{[1,:]} \cdot B{[:,1]} & A{[1,:]} \cdot B{[:,2]} & A{[1,:]} \cdot B{[:,3]} & \dots  & A{[1,:]} \cdot B{[:,m]} \\
    A{[2,:]} \cdot B{[:,1]} & A{[2,:]} \cdot B{[:,2]} & A{[2,:]} \cdot B{[:,3]} & \dots  & A{[2,:]} \cdot B{[:,m]} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    A{[n,:]} \cdot B{[:,1]} & A{[n,:]} \cdot B{[:,2]} & A{[n,:]} \cdot B{[:,3]} & \dots  & A{[n,:]} \cdot B{[:,m]}
\end{bmatrix}
\in R^{n \times m}
$$

то есть один элемент $c_{ij}$ матрицы $C$ равняется: $c_{ij} = A[i,:] \cdot B[:,j]$, где:  
$A[i,:]$ — $i$-ая строка матрицы $A$,  
$B[:,j]$ — $j$-ый столбец матрицы $B$,  
$A[i,:] \cdot B[:,j]$ — скалярное произведение векторов $A[i,:]$ и $B[:,j]$

Простыми словами: чтобы получить элемент матрицы, являющейся результатом матричного произведение, нам надо **в правильном порядке скалярно умножать строки первой матрицы на столбцы второй матрицы**.

Просьба еще раз обратить внимание на размеры: операция матричного произведения определена только для матриц, размеры которых удовлетворяют правилу: **вторая размерность первой матрицы равно первой размерности второй матрицы**. То есть в случае матриц размеров $n \times m$ и $r \times s$ — $m$ должно быть равно $r$ ($n$ и $s$ — произвольные целые положительные числа).

[Видео](https://www.youtube.com/watch?v=kuixY2bCc_0), наглядно объясняющее операцию матричного произведения.

**Примеры**

> $A = \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix},
B = \begin{bmatrix}
    -5 & 0.5  \\
    -10 & 10  \\
    11 & 12 \\
\end{bmatrix}, \\
A \times B = \text{не определено, т.к. размеры не удовлетворяют операции матричного произведения}$

Операция матричного произведения вызывается в `numpy` через @ (прямо как скалярное произведение для векторов):

In [0]:
A = np.array([[3,2], [-1,0], [0.5,0.5]])
B = np.array([[-5,0.5], [-10,10], [11,12]])
print(A @ B)  # операция матричного произведения вызывается через @

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 2)

В данном случае `numpy` верно говорит, что не может умножить матрицы, потому что размеры не подходят.

> $A = \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix},
B = \begin{bmatrix}
    -5 & 0.5 & -10 \\
    11 & 12 & 10  \\
\end{bmatrix}, \\
A \times B = \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix} \times \begin{bmatrix}
    -5 & 0.5 & -10 \\
    11 & 12 & 10  \\
\end{bmatrix}= \begin{bmatrix}
    A{[1,:]} \cdot B{[:,1]} &  A{[1,:]} \cdot B{[:,2]} &  A{[1,:]} \cdot B{[:,3]} \\
    A{[2,:]} \cdot B{[:,1]} &  A{[2,:]} \cdot B{[:,2]} &  A{[2,:]} \cdot B{[:,3]}  \\
    A{[3,:]} \cdot B{[:,1]} &  A{[3,:]} \cdot B{[:,2]} &  A{[3,:]} \cdot B{[:,3]} \\
\end{bmatrix} = \begin{bmatrix}
    (3, 2) \cdot (-5, 11) &  (3, 2) \cdot (0.5, 12) &  (3, 2) \cdot (-10, 10) \\
    (-1, 0) \cdot (-5, 11) &  (-1, 0) \cdot (0.5, 12) &  (-1, 0) \cdot (-10, 10)  \\
    (0.5, 0.5) \cdot (-5, 11) &  (0.5, 0.5) \cdot (0.5, 12) &  (0.5, 0.5) \cdot (-10, 10) \\
\end{bmatrix} = \begin{bmatrix}
    7 &  25.5 &  -10 \\
    5 &  -0.5 &  10 \\
    3 &  6.25 &  0 \\
\end{bmatrix}$

Тот же самый пример на `numpy`:

In [0]:
A = np.array([
    [3,2], 
    [-1,0], 
    [0.5,0.5]
])
B = np.array([
    [-5,0.5,-10],
    [11,12,10]
])
print(A @ B)  # операция матричного произведения вызывается через @

[[  7.    25.5  -10.  ]
 [  5.    -0.5   10.  ]
 [  3.     6.25   0.  ]]


In [0]:
np.dot(A, B)  # или так

array([[  7.  ,  25.5 , -10.  ],
       [  5.  ,  -0.5 ,  10.  ],
       [  3.  ,   6.25,   0.  ]])

Напомним, что матрица называется **вектор-столбец**, если она имеет размер $n \times 1$, и **вектор-строка**, если она имеет размер $1 \times n$. Понятно, что это тоже матрицы, просто по сути они являются векторами.  

Операция матричного произведения универсальна, например, умножим матрицу на столбец:

> $A = \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix},
B = \begin{bmatrix}
    -5 \\
    5 \\
\end{bmatrix}, \\
A \times B = \begin{bmatrix}
    3 & 2  \\
    -1 & 0  \\
    0.5 & 0.5 \\
\end{bmatrix} \times \begin{bmatrix}
    -5 \\
    5 \\
\end{bmatrix} = \begin{bmatrix}
    (3, 2) \cdot (-5, 5) \\
    (-1, 0) \cdot (-5, 5) \\
    (0.5, 0.5) \cdot (-5, 5) \\
\end{bmatrix} = \begin{bmatrix}
    -5 \\
    5 \\
    0 \\
\end{bmatrix}$

In [0]:
A = np.array([
    [3,2], 
    [-1,0], 
    [0.5,0.5]
])
B = np.array([
    [-5],
    [5]
])
print(A @ B)

[[-5.]
 [ 5.]
 [ 0.]]


### Обратная матрица

**Обратной матрицей к квадратной матрице** $A \in R^{n\times n}$ называется такая матрица $A^{-1} \in R^{n\times n}$, что:

$$
A \times A^{-1} = A^{-1} \times A = E_n
$$

где $E_n \in R^{n\times n}$ — **единичная матрица** размера $n$:  

$$
E_n = \begin{bmatrix}
    1 & 0 & 0 & \dots  & 0 \\
    0 & 1 & 0 & \dots  & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & 0 & \dots  & 1
\end{bmatrix}
$$

Элементы матрицы $a_{ij}$, стоящие на позициях $i = j$ (то есть элементы $a_{11}$, $a_{22}$, ..., $a_{nn}$) называют **главной диагональю** матрицы $A$. Заметьте, что главная диагональ есть не только у квадратных матриц — просто у прямоугольных последний элемент диагонали будет на позиции $a_{min(n,m),min(n,m)}$.

Существует несколько способов найти обратную матрицу, например — [метод Гаусса-Жордана](http://mathprofi.ru/metod_zhordano_gaussa_nahozhdenie_obratnoi_matricy.html). Зачем уметь находить обратную матрицу? Дело в том, что это один из способов решать системы линейных уравнений, которые повсеместно встречаются в физике, теории оптимизации и эклономике.  
Но нам наиболее интересен следующий пример: в машинном обучении есть **задача регрессии**, которую можно решать **линейной моделью**. Используя эту модель, мы можем записать задачу оптимизации так:

$$
|y - Xw|^2 \to_w min
$$

где $X$ — матрица объекты-признаки, $w$ — веса модели, $y$ — столбец ответов. Эту задачу оптимизации — поиск  оптимальных весов $w$ — можно решать с помощью **метода наименьших квадратов**, который подразумевает взятие производной и приравнивание ее к нулю. С помощью взятия  производной по вектору выводится решение:

$$
w = (X^T X)^{-1} X^T y
$$


Так, мы нашли оптимальные веса, которые позволят хорошо предсказывать желаемую величину $y$. То есть мы только что научились **обучать линейную модель решать задачу регрессии** всего лишь с помощью операций матричного произведения, транспонирования и взятия обратной матрицы. Далее в курсе мы ещё обязательно поговорим о том, почему именно так решают редко и о задаче регрессии и линейных моделях в целом.

В нашем курсе вам не нужно будет вручную считать обратные матрицы, в этом поможет функция `numpy` — `np.linalg.inv()`:

In [0]:
A = np.array([
    [1,2],
    [3,4]
])
A_inv = np.linalg.inv(A)
print(A_inv)

[[-2.   1. ]
 [ 1.5 -0.5]]


Проверим по определению, что это правильная обратная матрица:

In [0]:
A @ A_inv

array([[1.00000000e+00, 1.11022302e-16],
       [0.00000000e+00, 1.00000000e+00]])

Все правильно, получена единичная матрица верного размера.

### Резюме

Мы познакомились с понятиями **матрицы** и с **поэлементными операциями**. Обсудили операции **матричного произведения**, взятия **обратной матрицы** и **транспонирования**, убедились в их прикладном значении на реальном примере задачи регрессии из машинного обучения.

Далее вас ждет подробный ноутбук с практикой по библиотеке `Numpy`, поскольку это одна из самых важных библиотек в анализе данных и машинном обучении.