## Библиотека Numpy

---

При работе с предыдущими ноутбуками вы познакомились с основами языка Python. Узнали, что Python -- довольно простой, понятный язык программирования, научились пользоваться jupyter notebook'ом и оценили плюсы и возможности python+jupyter -- написание кода в отдельных ячейках и последовательный запуск кода в ячейках.

Но есть и обратная сторона медали -- Python очень медленный язык. Возможно, пока что это было не очень заметно, потому что мы не работали с большими массивами данных. Но в эпоху big data, при работе с огромными массивами данных даже небольшое отставание языка программирования по скорости становится заметно и критично. Есть, конечно, языки программирования, которые работают намного быстрее (например, С++), но они гораздо сложнее в написании и не интерпретируемы, а компилируемы (то есть, в jupyter notebook'е с такими языками работать бы не получилось). 

Как же найти компромисс? Ответ прост: написать python-библиотеку для работы с массивами данных, функции которой будут написаны на очень быстром языке С++, но которую можно было бы использовать из Python. Эта библиотека называется **NumPy** (НамПай).

Пакет `numpy` предоставляет интерфейс для работы с $n$-мерными массивами. В `numpy` реализовано множество всевозможных операций над массивами в целом. Если задачу можно решить, произведя некоторую последовательность операций над массивами, то с помощью numpy в python это будет столь же эффективно, как в `C` или `matlab`.

Конечно, тот факт, что код numpy написан на С++, накладывает некоторые ограничения на массивы этой библиотеки: в любом numpy-массиве могут храниться элементы только одного типа: например, все float или все string (как вы помните с прошлого урока, в обычном pythonв массивах могут быть элементы совершенно разных типов)

Этот ноутбук полностью посвещен знакомству с библиотекой numpy и работе с ней

## Одномерные массивы

### Создание массива 

In [0]:
# принято, что numpy импортируют именно так
import numpy as np

Как же завести массив в numpy?

Очень просто! Надо всего лишь перевести обычный python list в np.array:

In [4]:
# 'перевести' python list в np.array -- это обернуть массив в np.array()
a = np.array([3, 4, 1])
print(a)
type(a)

[3 4 1]


numpy.ndarray

Обычный питоновский `print` печатает массивы в удобной форме (точно так же, как и list питона)

In [5]:
print(a)

[3 4 1]


### Типы данных в массивах np.array

Поговорим о типах данных, хранящихся в массивах:

Чаще всего мы будем работать с числовыми массивами, поэтому поговорим о инх.

В отличие от чистого питона, в `numpy` есть несколько типов для целых чисел (`int16`, `int32`, `int64`) и чисел с плавающей точкой (`float32`, `float64`). Они отличаются тем, с какой точностью в памяти хранятся элементы массива. 

Чтобы посмотреть, какой тип у вашего массива, можно вывести его dtype:

In [6]:
a.dtype

dtype('int64')

Конечно, можно скастовать массив из одного типа в другой. 

Давайте переведем наш массив 'a' из типа np.int64 в тип np.float32:

In [7]:
a = a.astype(np.float32)
a.dtype

dtype('float32')

Далее мы будем рассматривать n-мерный массивы, для них преобразование типов работает так же. И для них все еще все элементы должны иметь одинаковый тип.

### Изменение массивов np.array

Как и list в питоне, массивы np.array - изменяемые объекты. Механика изменений значений в них такая же, как у питоновских list'ов. Давайте в этом убедимся:

In [8]:
a = np.array([3, 4 ,1])

a[1] = 3
print(a)

[3, 3, 1]


Единственный (но логичный) нюанс: при изменении значения в массиве с элементами одного типа на элемент другого типа новый элемент будет приведен к типу массива:

In [9]:
# или: a = np.array([3, 4 ,1], dtype=np.int64)
a = np.array([3, 4 ,1]).astype(np.int64)

# значение 3.5 будет приведено к типу int64, т.е. станет 3
a[1] = 3.5
print(a)

[3 3 1]


In [10]:
# обратите внимание -- если создается np.array с чисоами разных типов (int и float), 
# то все числа будут приведены к более точному типу, т.е. float
# таким образом, 1 из целого числа станет числом с плавающей точкой 1.
a = np.array([3., 4. ,1])

# значение 5 будет приведено к типу int64, т.е. станет 5.
a[1] = 5
print(a)

[3. 5. 1.]


А вот добавить к массиву новый элемент в конец чуть сложнее, чем у list. Напримним, в list это делалось с помощью метода .append(). В numpy это также делается с помощью append, но чуть по-другому:

Обратите внимание, что в numpy при append *создается новый массив*, а не происходит добавление элемента в уже существующий массив. Поэтому не рекомендуется создавать массивы с помощью append в numpy.

In [13]:
a = np.array([3, 4 ,1])

# вот так пишется append
a = np.append(a, 6)

a

array([3, 4, 1, 6])

## Многомерные массивы

Мы узнали, как создавать и изменять одномерные массивы, как они выглядят в numpy и нюансы приведения типов. Настало время познакомиться с многомерными массивами.

Многомерный массив -- это массив, элементы которого тоже массивы. В принципе, ничего нового, все как и у list в питоне. 

In [16]:
two_dim_array = np.array([[2, 3], [4, 5]])

print(two_dim_array)

[[2 3]
 [4 5]]


In [17]:
three_dim_array = np.array([[[2, 3], [4, 5]], [[5, 6], [7, 8]]])

print(three_dim_array)

[[[2 3]
 [4 5]]

 [[5 6]
 [7 8]]]


Напомним, что в numpy, неважно, в одномерном или многомерном массиве, *все* элементы имеют одинаковый тип

Давайте в этом убедимся:

In [19]:
# 2 и 3 приведутся к типу чисел 4. и 5., т.е. float64
a = np.array([[2, 3], [4., 5.]])
print(a, a.dtype)



[[2. 3.]
 [4. 5.]] float64


### Информация о массиве

In [0]:
Теперь научимся получать основную информацию о массиве

## Операции над одномерными массивами


 ### Арифметические операции

In [0]:
a = np.array([2, 5, 6, 7])
b = np.array([9, 7, 8, 9])

С двумя массивами одинаковой 

In [0]:
print(a + b)

[11 12 14 16]


In [0]:
print(a - b)

[-7 -2 -2 -2]


In [0]:
print(a * b)

[18 35 48 63]


In [0]:
print(a / b)

[0.22222222 0.71428571 0.75 0.77777778]


In [0]:
print(a ** 2)

[ 4 25 36 49]


`numpy` содержит элементарные функции, которые тоже применяются к массивам поэлементно. Они называются универсальными функциями (`ufunc`).

In [0]:
np.sin, type(np.sin)

(, numpy.ufunc)

In [0]:
print(np.sin(a))
print(np.cosh(a))

[ 0.90929743 -0.95892427 -0.2794155 0.6569866 ]
[ 3.76219569 74.20994852 201.71563612 548.31703516]


Один из операндов может быть скаляром, а не массивом.

In [0]:
a

array([2, 5, 6, 7])

In [0]:
print(a + 1)

[3 6 7 8]


In [0]:
print(2 * a)

[ 4 10 12 14]


Сравнения дают булевы массивы.

In [0]:
print(a > b)

[False False False False]


In [0]:
print(a < b)

[ True True True True]


In [0]:
print(a == b)

[False False False False]


In [0]:
c = a > 5
print(c)

[False False True True]


Кванторы "существует" и "для всех".

In [0]:
np.any(c), np.all(c)

(False, False)

Модификация на месте.

In [0]:
a += 1
print(a)

[1. 1.025 1.05 1.075 1.1 ]


In [0]:
b *= 2
print(b)

[ 0. 4. 8. 12. 16.]


In [0]:
b /= a
print(b)

[ 0. 3.90243902 7.61904762 11.1627907 14.54545455]


При выполнении операций над массивами деление на 0 не возбуждает исключения, а даёт значения `np.nan` или `np.inf`.

In [0]:
np.nan + 1, np.inf + 1, np.inf * 0, 1. / np.inf

(nan, inf, nan, 0.0)

Сумма и произведение всех элементов массива; максимальный и минимальный элемент; среднее и среднеквадратичное отклонение.

In [0]:
b.sum(), b.prod(), b.max(), b.min(), b.mean(), b.std()

(33, 4536, 9, 7, 8.25, 0.82915619758885)

In [0]:
x = np.random.normal(size=1000)
x.mean(), x.std()

(-0.06815562196555326, 0.9830193100609568)

Имеются встроенные функции

In [0]:
print(np.sqrt(b))
print(np.exp(b))
print(np.log(b + 1))
print(np.sin(b))
print(np.e, np.pi)

[0. 1.97545919 2.76026224 3.34107628 3.81385036]
[1.00000000e+00 4.95230899e+01 2.03662157e+03 7.04593127e+04
 2.07496438e+06]
[0. 1.58973284 2.15397459 2.49838135 2.74376828]
[ 0. -0.68953468 0.9725297 -0.98605188 0.91780205]
2.718281828459045 3.141592653589793


Иногда бывает нужно использовать частичные (кумулятивные) суммы. В нашем курсе такое пригодится.

In [0]:
print(b.cumsum()[::-1])

[37.22973189 22.68427734 11.52148664 3.90243902 0. ]


Функция `sort` возвращает отсортированную копию, метод `sort` сортирует на месте.

In [0]:
print(np.sort(b))
print(b)

[ 0. 3.90243902 7.61904762 11.1627907 14.54545455]
[ 0. 3.90243902 7.61904762 11.1627907 14.54545455]


In [0]:
b.sort()
print(b)

[ 0. 3.90243902 7.61904762 11.1627907 14.54545455]


Объединение массивов "по-горизонтали" (horizontal stack).

In [0]:
a = np.array([1, 2, 3])
b = np.array([100, 200, 300])

print(np.hstack((a, b)))

[ 1 2 3 100 200 300]


Объединение массивов "по-вертикали" (vertical stack).

In [0]:
print(np.vstack((a, b)))

[[ 1 2 3]
 [100 200 300]]


Расщепление массива в позициях 3 и 6.

In [0]:
a = np.random.random(10)
np.hsplit(a, [3, 6])

[array([0.64501372, 0.99102171, 0.28545633]),
 array([0.6489831 , 0.95678594, 0.80428645]),
 array([0.59815893, 0.81674245, 0.44190248, 0.47429843])]

Функции `delete`, `insert` и `append` не меняют массив на месте, а возвращают новый массив, в котором удалены, вставлены в середину или добавлены в конец какие-то элементы.

In [0]:
a = np.arange(10)

In [0]:
a = np.delete(a, [5, 7])
print(a)

[0 1 2 3 4 6 8 9]


In [0]:
a = np.insert(a, 2, [0, 0])
print(a)

[0 1 0 0 2 3 4 6 8 9]


In [0]:
a = np.append(a, [1, 2, 3])
print(a)

[0 1 0 0 2 3 4 6 8 9 1 2 3]


Есть несколько способов индексации массива. Вот обычный индекс.

In [0]:
a = np.linspace(0, 1, 11)
print(a)

[0. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [0]:
b = a[2]
print(b)

0.2


Диапазон индексов. Создаётся новый заголовок массива, указывающий на те же данные. Изменения, сделанные через такой массив, видны и в исходном массиве.

In [0]:
b = a[2:6]
print(b)

[0.2 0.3 0.4 0.5]


In [0]:
b[0] = -0.2
print(b)

[-0.2 0.3 0.4 0.5]


In [0]:
print(a)

[ 0. 0.1 -0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


Диапазон с шагом 2.

In [0]:
b = a[1:10:2]
print(b)

[0.1 0.3 0.5 0.7 0.9]


In [0]:
b[0] = -0.1
print(a)

[ 0. -0.1 -0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


Массив в обратном порядке.

In [0]:
b = a[len(a):0:-1]
print(b)

[ 1. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 -0.2 -0.1]


Подмассиву можно присвоить значение - массив правильного размера или скаляр.

In [0]:
a[1:10:3] = 0
print(a)

[ 0. 0. -0.2 0.3 0. 0.5 0.6 0. 0.8 0.9 1. ]


Тут опять создаётся только новый заголовок, указывающий на те же данные.

In [0]:
b = a[:]
b[1] = 0.1
print(a)

[ 0. 0.1 -0.2 0.3 0. 0.5 0.6 0. 0.8 0.9 1. ]


Чтобы скопировать и данные массива, нужно использовать метод `copy`.

In [0]:
b = a.copy()
b[2] = 0
print(b)
print(a)

[0. 0.1 0. 0.3 0. 0.5 0.6 0. 0.8 0.9 1. ]
[ 0. 0.1 -0.2 0.3 0. 0.5 0.6 0. 0.8 0.9 1. ]


Можно задать список индексов.

In [0]:
print(a[[2, 3, 5]])

[-0.2 0.3 0.5]


Можно задать булев массив той же величины.

In [0]:
b = a > 0
print(b)

[False True False True False True True False True True True]


In [0]:
print(a[b])

[0.1 0.3 0.5 0.6 0.8 0.9 1. ]


## 2-мерные массивы

In [0]:
a = np.array([[0.0, 1.0], [-1.0, 0.0]])
print(a)

[[ 0. 1.]
 [-1. 0.]]


In [0]:
a.ndim

2

In [0]:
a.shape

(2, 2)

In [0]:
len(a), a.size

(2, 4)

In [0]:
a[1, 0]

-1.0

Атрибуту `shape` можно присвоить новое значение - кортеж размеров по всем координатам. Получится новый заголовок массива; его данные не изменятся.

In [0]:
b = np.linspace(0, 3, 4)
print(b)

[0. 1. 2. 3.]


In [0]:
b.shape

(4,)

In [0]:
b.shape = 2, 2
print(b)

[[0. 1.]
 [2. 3.]]


Можно растянуть в одномерный массив

In [0]:
print(b.ravel())

[0. 1. 2. 3.]


Арифметические операции поэлементные

In [0]:
a

array([[ 0., 1.],
 [-1., 0.]])

In [0]:
b = np.array([[3, 4], 
 [8, 6 ]])
print(b)

[[3 4]
 [8 6]]


In [0]:
print(a + 1)
print(a * 2)
print(a + [0, 1]) # второе слагаемое дополняется до матрицы копированием строк
print(a + np.array([[0, 2]]).T) # .T - транспонирование
print(a + b)

[[1. 2.]
 [0. 1.]]
[[ 0. 2.]
 [-2. 0.]]
[[ 0. 2.]
 [-1. 1.]]
[[0. 1.]
 [1. 2.]]
[[3. 5.]
 [7. 6.]]


Поэлементное и матричное (только в Python 3.5) умножение.

In [0]:
print(a)

[[ 0. 1.]
 [-1. 0.]]


In [0]:
print(b)

[[3 4]
 [8 6]]


In [0]:
print(a * b)

[[ 0. 4.]
 [-8. 0.]]


In [0]:
print(a @ b)

[[ 8. 6.]
 [-3. -4.]]


In [0]:
print(b @ a)

[[-4. 3.]
 [-6. 8.]]


Умножение матрицы на вектор.

In [0]:
v = np.array([1, -1], dtype=np.float64)
print(b @ v)

[-1. 2.]


In [0]:
print(v @ b)

[-5. -2.]


Если у вас Питон более ранней версии, то для работы с матрицами можно использовать класс `np.matrix`, в котором операция умножения реализуется как матричное умножение.

In [0]:
np.matrix(a) * np.matrix(b)

matrix([[ 2., 3.],
 [ 0., -1.]])

Внешнее произведение $a_{ij}=u_i v_j$

In [0]:
u = np.linspace(1, 2, 2)
v = np.linspace(2, 4, 3)
print(u)
print(v)

[1. 2.]
[2. 3. 4.]


In [0]:
a = np.outer(u, v)
print(a)

[[2. 3. 4.]
 [4. 6. 8.]]


Двумерные массивы, зависящие только от одного индекса: $x_{ij}=u_j$, $y_{ij}=v_i$

In [0]:
x, y = np.meshgrid(u, v)
print(x)
print(y)

[[1. 2.]
 [1. 2.]
 [1. 2.]]
[[2. 2.]
 [3. 3.]
 [4. 4.]]


Единичная матрица.

In [0]:
I = np.eye(4)
print(I)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


Метод `reshape` делает то же самое, что присваивание атрибуту `shape`.

In [0]:
print(I.reshape(16))

[1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1.]


In [0]:
print(I.reshape(8, 2))

[[1. 0.]
 [0. 0.]
 [0. 1.]
 [0. 0.]
 [0. 0.]
 [1. 0.]
 [0. 0.]
 [0. 1.]]


Строка.

In [0]:
print(I[2])

[0. 0. 1. 0.]


Цикл по строкам.

In [0]:
for row in I:
 print(row)

[1. 0. 0. 0.]
[0. 1. 0. 0.]
[0. 0. 1. 0.]
[0. 0. 0. 1.]


Столбец.

In [0]:
print(I[1, 1])

1.0


Подматрица.

In [0]:
print(I[0:2, 1:3])

[[0. 0.]
 [1. 0.]]


Можно построить двумерный массив из функции.

In [0]:
def f(i, j):
 print(i)
 print(j)
 return 10 * i + j

print(np.fromfunction(f, (4, 4), dtype=np.int64))

[[0 0 0 0]
 [1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]]
[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]
[[ 0 1 2 3]
 [10 11 12 13]
 [20 21 22 23]
 [30 31 32 33]]


Транспонированная матрица.

In [0]:
print(b.T)

[[0. 2.]
 [1. 3.]]


Соединение матриц по горизонтали и по вертикали.

In [0]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4, 5, 6], [7, 8, 9]])
c = np.array([[4, 5], [6, 7], [8, 9]])
print(a)
print(b)
print(c)

[[0 1]
 [2 3]]
[[4 5 6]
 [7 8 9]]
[[4 5]
 [6 7]
 [8 9]]


In [0]:
print(np.hstack((a, b)))

[[0 1 4 5 6]
 [2 3 7 8 9]]


In [0]:
print(np.vstack((a, c)))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


Сумма всех элементов; суммы столбцов; суммы строк.

In [0]:
b

array([[3, 4],
 [8, 6]])

In [0]:
print(b.sum())
print(b.sum(axis=0))
print(b.sum(axis=1))

21
[11 10]
[ 7 14]


Аналогично работают `prod`, `max`, `min` и т.д.

In [0]:
print(b.max())
print(b.max(axis=0))
print(b.min(axis=1))

9
[7 8 9]
[4 7]


След - сумма диагональных элементов.

In [0]:
np.trace(a)

3

## Многомерные массивы
опциональный материал

In [0]:
X = np.arange(24).reshape(2, 3, 4)
print(X)

[[[ 0 1 2 3]
 [ 4 5 6 7]
 [ 8 9 10 11]]

 [[12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]]


Суммирование (аналогично остальные операции)

In [0]:
# суммируем только по нулевой оси, то есть для фиксированных j и k суммируем только элементы с индексами (*, j, k)
print(X.sum(axis=0))
# суммируем сразу по двум осям, то есть для фиксированной i суммируем только элементы с индексами (i, *, *)
print(X.sum(axis=(1, 2)))

[[12 14 16 18]
 [20 22 24 26]
 [28 30 32 34]]
[ 66 210]


## Линейная алгебра

In [0]:
np.linalg.det(a)

-2.0

Обратная матрица.

In [0]:
a1 = np.linalg.inv(a)
print(a1)

[[-1.5 0.5]
 [ 1. 0. ]]


In [0]:
print(a @ a1)
print(a1 @ a)

[[1. 0.]
 [0. 1.]]
[[1. 0.]
 [0. 1.]]


Решение линейной системы $au=v$.

In [0]:
v = np.array([0, 1], dtype=np.float64)
print(a1 @ v)

[0.5 0. ]


In [0]:
u = np.linalg.solve(a, v)
print(u)

[0.5 0. ]


Проверим.

In [0]:
print(a @ u - v)

[0. 0.]


Собственные значения и собственные векторы: $a u_i = \lambda_i u_i$. `l` - одномерный массив собственных значений $\lambda_i$, столбцы матрицы $u$ - собственные векторы $u_i$.

In [0]:
l, u = np.linalg.eig(a)
print(l)

[-0.56155281 3.56155281]


In [0]:
print(u)

[[-0.87192821 -0.27032301]
 [ 0.48963374 -0.96276969]]


Проверим.

In [0]:
for i in range(2):
 print(a @ u[:, i] - l[i] * u[:, i])

[0.00000000e+00 1.66533454e-16]
[ 0.0000000e+00 -4.4408921e-16]


Функция `diag` от одномерного массива строит диагональную матрицу; от квадратной матрицы - возвращает одномерный массив её диагональных элементов.

In [0]:
L = np.diag(l)
print(L)
print(np.diag(L))

[[-0.56155281 0. ]
 [ 0. 3.56155281]]
[-0.56155281 3.56155281]


Все уравнения $a u_i = \lambda_i u_i$ можно собрать в одно матричное уравнение $a u = u \Lambda$, где $\Lambda$ - диагональная матрица с собственными значениями $\lambda_i$ на диагонали.

In [0]:
print(a @ u - u @ L)

[[0.00000000e+00 0.00000000e+00]
 [1.11022302e-16 0.00000000e+00]]


Поэтому $u^{-1} a u = \Lambda$.

In [0]:
print(np.linalg.inv(u) @ a @ u)

[[-5.61552813e-01 1.47801400e-17]
 [-1.25939966e-16 3.56155281e+00]]


Найдём теперь левые собственные векторы $v_i a = \lambda_i v_i$ (собственные значения $\lambda_i$ те же самые).

In [0]:
l, v = np.linalg.eig(a.T)
print(l)
print(v)

[-0.56155281 3.56155281]
[[-0.96276969 -0.48963374]
 [ 0.27032301 -0.87192821]]


Собственные векторы нормированы на 1.

In [0]:
print(u.T @ u)
print(v.T @ v)

[[ 1. -0.23570226]
 [-0.23570226 1. ]]
[[1. 0.23570226]
 [0.23570226 1. ]]


Левые и правые собственные векторы, соответствующие разным собственным значениям, ортогональны, потому что $v_i a u_j = \lambda_i v_i u_j = \lambda_j v_i u_j$.

In [0]:
print(v.T @ u)

[[ 9.71825316e-01 -7.57355847e-18]
 [-4.34446700e-17 9.71825316e-01]]


# Интегрирование

In [0]:
from scipy.integrate import quad, odeint
from scipy.special import erf

In [0]:
def f(x):
 return np.exp(-x ** 2)

Адаптивное численное интегрирование (может быть до бесконечности). `err` - оценка ошибки.

In [0]:
res, err = quad(f, 0, np.inf)
print(np.sqrt(np.pi) / 2, res, err)

0.8862269254527579 0.8862269254527579 7.101318390472462e-09


In [0]:
res, err = quad(f, 0, 1)
print(np.sqrt(np.pi) / 2 * erf(1), res, err)

0.7468241328124269 0.7468241328124271 8.291413475940725e-15


## Сохранение в файл и чтение из файла

In [0]:
x = np.arange(0, 25, 0.5).reshape((5, 10))

# Сохраняем в файл example.txt данные x в формате с двумя точками после запятой и разделителем ';'
np.savetxt('example.txt', x, fmt='%.2f', delimiter=';')

Получится такой файл

In [0]:
!cat example.txt

0.00;0.50;1.00;1.50;2.00;2.50;3.00;3.50;4.00;4.50
5.00;5.50;6.00;6.50;7.00;7.50;8.00;8.50;9.00;9.50
10.00;10.50;11.00;11.50;12.00;12.50;13.00;13.50;14.00;14.50
15.00;15.50;16.00;16.50;17.00;17.50;18.00;18.50;19.00;19.50
20.00;20.50;21.00;21.50;22.00;22.50;23.00;23.50;24.00;24.50
