### Библиотеки / данные

импортируем библиотеки numpy и pandas

In [None]:
import numpy as np
import pandas as pd

импортируем библиотеку datetime для работы с датами

In [None]:
from datetime import datetime

Задаем некоторые опции библиотеки pandas, которые настраивают вывод

In [None]:
pd.options.display.max_rows = 10

- считываем данные
- используем столбец Symbol в качестве индекса 
- считываем только столбцы ['Symbol', 'Sector', 'Price', 'Book Value']

| Column Name | Description
| ------------- |:-------------:|
|Symbol|Сокращенное название организации|
|Name|Полное название организации|
|Sector|Сектор экономики|
|Price|Стоимость акции|
|Dividend Yield|Дивидендная доходность|
|Price/Earnings|Цена / прибыль|
|Earnings/Share|Прибыль на акцию|
|Book Value|Балансовая стоимость компании|
|52 week low|52-недельный минимум|
|52 week high|52-недельный максимум|
|Market Cap|Рыночная капитализация|
|EBITDA|**E**arnings **b**efore **i**nterest, **t**axes, **d**epreciation and **a**mortization|
|Price/Sales|Цена / объём продаж|
|Price/Book|Цена / балансовая стоимость|
|SEC Filings|Ссылка *sec.gov*|

In [None]:
sp500 = pd.read_csv("../data/sp500.csv",
 index_col='Symbol',
 usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

создаем датафрейм с 5 строками и 3 столбцами

In [None]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), 
 index=['a', 'b', 'c', 'd', 'e'], 
 columns=['c1', 'c2', 'c3'])
df

- добавляем несколько столбцов и строк в датафрейм столбец c4 со значениями NaN
- строка 'f' со значениями от 15 до 18 
- строка 'g', состоящая из значений NaN
- столбец 'c5', состоящий из значений NaN
- меняем значение в столбце 'c4' строки 'a'

In [None]:
df['c4'] = np.nan
df.loc['f'] = np.arange(15, 19) 
df.loc['g'] = np.nan
df['c5'] = np.nan
df['c4']['a'] = 20
df

### Пропущенные значения

#### поиск

какие элементы являются значениями NaN?

In [None]:
df.isnull()

какие элементы являются непропущенными значениями? (можем использовать ~df.isnull() )

In [None]:
df.notnull()

подсчитываем количество значений NaN в каждом столбце

In [None]:
df.isnull().sum(axis=0)

вычисляем количество значений, отличных от NaN, по каждому столбцу (можем использовать len(df) - df.isnull().sum())


In [None]:
df.count(axis=0)

#### удаление

In [None]:
df

отбираем непропущенные значения в столбце c4

In [None]:
df.c4[df.c4.notnull()]

этот программный код извлекает в столбце c4 все значения, кроме значений NaN

In [None]:
df.c4.dropna()

.dropna() возвращает копию с удаленными значениями исходный датафрейм/столбец не изменился

In [None]:
df.c4

метод .dropna() при применении к датафрейму удаляет целиком строки, в которых есть по крайней мере одно значение NaN в данном случае будут удалены все строки

In [None]:
df.dropna()

используя параметр how='all', удаляем лишь те строки, в которых все значения являются значениями NaN

In [None]:
df.dropna(how = 'all')

In [None]:
df

меняем ось, чтобы удалить столбцы со значениями NaN вместо строк

In [None]:
df.dropna(how='all', axis=1) # удаляем c5

- создаем копию датафрейма df
- заменяем две ячейки с пропусками значениями 0

In [None]:
df2 = df.copy()
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

а сейчас удаляем столбцы, в которых есть хотя бы одно значение NaN

In [None]:
df2.dropna(how='any', axis=1) 

удаляем лишь те столбцы, в которых по меньшей мере 3 значений не NaN

In [None]:
df2

In [None]:
df2.dropna(thresh=2, axis=1)

#### заполнение

##### константой

In [None]:
df

возвращаем новый датафрейм, в котором значения NaN заполнены константой - нулями

In [None]:
filled = df.fillna(0)
filled

значения NaN не учитываются при вычислении средних значений

In [None]:
df.mean()

после замены значений NaN на 0 получаем другие средние значения

In [None]:
filled.mean()

##### прямое и обратное

заполнение в прямом порядке

In [None]:
df.c4

In [None]:
df.c4.fillna(method="ffill")

либо выполняем обратное заполнение

In [None]:
df.c4.fillna(method="bfill")

##### с помощью индексов

новая серия для примеров:

In [None]:
fill_values = pd.Series([100, 101, 102], index=['a', 'e', 'g'])
fill_values

пример заполнения:

In [None]:
df.c4

In [None]:
df.c4.fillna(fill_values)

заполняем значения NaN в каждом столбце средним значением этого столбца

In [None]:
df.mean()

In [None]:
df

In [None]:
df.fillna(df.mean())

#### интерполяция пропущенных значений

выполняем линейную интерполяцию ( method = 'linear' по умолчанию) значений NaN с 1 по 2

In [None]:
s = pd.Series([1, np.nan, np.nan, np.nan, 2])
s

In [None]:
s.interpolate()

создаем временной ряд, но при этом значение по одной дате будет пропущено

In [None]:
ts = pd.Series([1, np.nan, 2], 
 index=[datetime(2014, 1, 1), 
 datetime(2014, 2, 1), 
 datetime(2014, 4, 1)])
ts

выполняем линейную интерполяцию на основе количества элементов в данной серии

In [None]:
ts.interpolate()

этот программный код учитывает тот факт, что у нас отсутствует запись для 2014-03-01

In [None]:
ts.interpolate(method="time")

создаем объект Series, чтобы продемонстрировать интерполяцию, основанную на индексных метках

In [None]:
s = pd.Series([0, np.nan, 100], index=[0, 2, 10])
s

выполняем линейную интерполяцию

In [None]:
s.interpolate()

выполняем интерполяцию на основе значений индекса

In [None]:
s.interpolate(method="index")

### Повторяющиеся значения 

создаем датафрейм с дублирующимися строками

In [None]:
data = pd.DataFrame({'a': ['x'] * 3 + ['y'] * 4, 
 'b': [1, 1, 2, 3, 3, 4, 4]})
data

определяем, какие строки являются дублирующимися, то есть какие строки уже ранее встречались в датафрейме

In [None]:
data.duplicated()

удаляем дублирующиеся строки, каждый раз оставляя первое из дублирующихся наблюдений

In [None]:
data.drop_duplicates()

удаляем дублирующиеся строки, каждый раз оставляя последнее из дублирующихся наблюдений

In [None]:
data.drop_duplicates(keep='last')

добавляем столбец:

In [None]:
data

In [None]:
data['c'] = range(7)
data.duplicated()

In [None]:
data

но если мы укажем, что нужно удалить дублирующиеся строки с учетом значений в столбцах a и b, результаты будут выглядеть так

In [None]:
data.drop_duplicates(['a', 'b'])

### Замена значений

#### метод .map() 

создаем два объекта Series для иллюстрации процесса сопоставления значений

In [None]:
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b", 3: "c"})
x

In [None]:
y

сопоставляем значения серии x значениям серии y 

In [None]:
x.map(y)

если между значением серии y и индексной меткой серии x не будет найдено соответствие, будет выдано значение NaN

In [None]:
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b"})

In [None]:
x

In [None]:
y

In [None]:
x.map(y)

#### метод .replace()

для примера

In [None]:
s = pd.Series([0., 1., 2., 3., 2., 4.])
s

замена 2 на 5

In [None]:
s.replace(2, 5)

заменяем все элементы новыми значениями

In [None]:
s.replace([0, 1, 2, 3, 4], [4, 3, 2, 1, 0])

In [None]:
s

заменяем элементы, используя в качестве аргумента словарь

In [None]:
s.replace({0: 10, 2: 100})

создаем датафрейм с двумя столбцами

In [None]:
df = pd.DataFrame({'a': [0, 1, 2, 3, 4], 'b': [5, 6, 7, 8, 9]})
df

задаем разные заменяемые значения для каждого столбца

In [None]:
df.replace({'a': 1, 'b': 8}, {'a': 777, 'b': 888})

### Применение функций

#### к стокам / столбцам

иллюстрируем применение функции к каждому элементу объекта Series

In [None]:
s = pd.Series(np.arange(0, 5))
s

In [None]:
s.apply(lambda v: v * 3)

создаем датафрейм, чтобы проиллюстрировать применение операции суммирования к каждому столбцу

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4, 3), 
 columns=['a', 'b', 'c'])
df

вычисляем сумму элементов в каждом столбце

In [None]:
df.apply(lambda col: col.sum())

вычисляем сумму элементов в каждой строке

In [None]:
df.apply(lambda row: row.sum(), axis=1)

создаем столбец 'interim' путем умножения столбцов a и b

In [None]:
df

In [None]:
df['interim'] = df.apply(lambda r: r.a * r.b, axis=1)
df

а теперь получаем столбец 'result' путем сложения столбцов 'interim' и 'c'

In [None]:
df['result'] = df.apply(lambda r: r.interim + r.c, axis=1)
df

#### к значениям

используем метод .applymap() для всех значений датафрейма, чтобы изменить формат всех элементов объекта DataFrame

In [None]:
df

In [None]:
df.applymap(lambda x: np.exp(x)/10)