### Библиотеки

In [None]:
import pandas as pd
import numpy as np

### Создание

#### из списка

создаем Series значений из списка целых чисел

In [None]:
s = pd.Series(data=[10, 11, 12, 13, 14],
 index=[1, 2, 3, 5, 7])
s

создаем Series из строковых значений

In [None]:
s = pd.Series(['Blue', 'Yellow', 'Green'])
s

создаем Series из 5 элементов, каждый элемент - list python

In [None]:
l = [[1, 2]]
s = pd.Series(l*5)
s

создаем DataFrame из двумерного списка

In [None]:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]])
df

задаем имена столбцов

In [None]:
df = pd.DataFrame([[10, 11], [20, 21], [30, 31]],
 columns=['A', 'B'])
df

создаем DataFrame для списка объектов Series

In [None]:
series_1 = pd.Series([70, 90])
series_2 = pd.Series([71, 91])
df = pd.DataFrame([series_1, series_2])
df

задаем имена столбцов после создания датафрейма

In [None]:
df.columns = ['col_1', 'col_2']
df

#### из словаря 

создаем объект Series из словаря, при этом посмотрим, как изменились индексы

In [None]:
s = pd.Series({'Homer': 'Dad',
 'Marge': 'Mom',
 'Bart': 'Son',
 'Lisa': 'Daughter',
 'Maggie': 'Daughter'})
s

создание DataFrame с помощью питоновского словаря

In [None]:
list_1 = [70, 71]
list_2 = [90, 91]
temperatures = {'col_1': list_1,
 'col_2': list_2}
pd.DataFrame(temperatures)

создание DataFrame с помощью словаря, состоящего из объектов Series

In [None]:
series_1 = pd.Series([70, 71])
series_2 = pd.Series([90, 91])

df = pd.DataFrame({'col_1': series_1,
 'col_2': series_2})
df

#### при помощи функций

создание Series, используя np.arange - последовательность чисел от **start** до **stop-1** с шагом **step**:
```python 
np.arange(start, stop, step) 
```

In [None]:
s = pd.Series(np.arange(15,25,2))
s

создаем Series из 5 значений, равномерно разбивающих отрезок 0 до 9

In [None]:
s = pd.Series(np.linspace(0, 9, 5))
s

Генерация случайных чисел.

Зафикисруем значение seed, что позволит нам в будущем воcпроизводить свои результаты

Создадим объект Series из 5 нормально распределенных случайных чисел

In [None]:
np.random.seed(123)
s = pd.Series(np.random.normal(size=5))
s

Создадим объект DataFrame размерности 4х3 из случайных чисел

In [None]:
np.random.seed(123)
df = pd.DataFrame(np.random.normal(size=12).reshape(4, 3),
 index=['ind_1', 'ind_2', 'ind_3', 'ind_4'],
 columns=['col_1', 'col_2', 'col_3'])
df

#### [из файла](http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-tools-text-csv-hdf5)

| Column Name | Description
| ------------- |:-------------:|
|Symbol|Сокращенное название организации|
|Name|Полное название организации|
|Sector|Сектор экономики|
|Price|Стоимость акции|
|Dividend Yield|Дивидендная доходность|
|Price/Earnings|Цена / прибыль|
|Earnings/Share|Прибыль на акцию|
|Book Value|Балансовая стоимость компании|
|52 week low|52-недельный минимум|
|52 week high|52-недельный максимум|
|Market Cap|Рыночная капитализация|
|EBITDA|**E**arnings **b**efore **i**nterest, **t**axes, **d**epreciation and **a**mortization|
|Price/Sales|Цена / объём продаж|
|Price/Book|Цена / балансовая стоимость|
|SEC Filings|Ссылка *sec.gov*|

In [None]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
 sep = ';')

разделитель

In [None]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
 sep = ',')

количество строк

In [None]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
 sep = ',',
 nrows = 3)

столбцы

In [None]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
 sep = ',',
 nrows = 3,
 usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

индекс

In [None]:
pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
 sep = ',',
 nrows = 3,
 usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
 index_col='Symbol')

итератор

In [None]:
df_chunk = pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
 sep = ',',
 chunksize=50,
 usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
 index_col='Symbol')

In [None]:
for df_tmp in df_chunk:
 print('DataFrame part:', df_tmp.shape) 

In [None]:
sp500 = pd.read_csv(filepath_or_buffer = "../data/sp500.csv",
 sep = ',',
 usecols=['Symbol', 'Sector', 'Price', 'Book Value'],
 index_col='Symbol')
sp500

### Свойства

#### создаем Series для примеров

In [None]:
Simpsons = pd.Series({'Homer': 120,
 'Marge': 60,
 'Bart': 35,
 'Lisa': 30,
 'Maggie': 7})

Simpsons

In [None]:
np.random.seed(123)
numbers = pd.Series(data = np.random.normal(size=10),
 index = np.arange(25,35))
numbers

#### тип данных

In [None]:
Simpsons.dtype

In [None]:
sp500.dtypes

#### количество элементов

Series:

In [None]:
print('Первый способ:', len(Simpsons))
print('Второй способ:', Simpsons.size)
print('Третий способ:', Simpsons.shape)

DataFrame:

In [None]:
print('Первый способ:', len(sp500))
print('Второй способ:', sp500.size)
print('Третий способ:', sp500.shape)

#### количество уникальных элементов

In [None]:
Simpsons.nunique()

In [None]:
sp500.nunique()

#### индекс и значения

Series:

In [None]:
Simpsons.index

In [None]:
Simpsons.values

DataFrame:

In [None]:
sp500.index

In [None]:
sp500.values

In [None]:
sp500.columns

#### присвоение / изменение имени

##### объекта Series

In [None]:
Simpsons.name = 'Simpsons weight'
Simpsons

##### индекса

In [None]:
Simpsons.index.name = 'First name'
Simpsons

##### столбца

In [None]:
sp500_copy = sp500.rename(columns = {'Book Value': 'BookValue'})

проверяем, не изменились ли имена столбцов в исходном датафрейме

In [None]:
sp500.columns

In [None]:
sp500_copy.columns

этот программный код переименовывает столбец на месте

In [None]:
sp500_copy.rename(columns = {'Book Value': 'BookValue'},
 inplace=True)

смотрим изменилось ли имя столбца

In [None]:
sp500_copy.columns

### Вывод значений

#### первые / последние строки

In [None]:
sp500.head()

In [None]:
Simpsons.tail(3)

#### столбцы 

извлекаем столбец Sector

In [None]:
sp500['Sector'].head()

тип столбца датафрейма:

In [None]:
type(sp500['Sector'])

извлекаем столбцы Price и Book Value

In [None]:
sp500[['Price', 'Book Value']].head()

покажем, что результат является объектом DataFrame

In [None]:
type(sp500[['Price', 'Book Value']])

атрибутивный доступ к столбцу по имени

In [None]:
sp500.Price.head()

пример с названием "Book Value"

In [None]:
sp500.Book Value

#### строки

##### по метке 

**Series**

In [None]:
numbers.loc[[25,33]]

ошибка - нет метки

In [None]:
numbers.loc[0]

**DataFrame**

получаем строку с меткой индекса MMM,которая возвращается в виде объекта Series

In [None]:
sp500.loc['MMM']

In [None]:
type(sp500.loc['MMM'])

получаем строки MMM и MSFT результатом будет объект DataFrame

In [None]:
sp500.loc[['MMM', 'MSFT']]

In [None]:
type(sp500.loc[['MMM', 'MSFT']])

##### по позиции

**Series** 

In [None]:
numbers

по позиции

In [None]:
numbers.iloc[[5,-5]]

ошибка:

In [None]:
numbers.iloc[10]

**DataFrame**

получаем строки, имеющие позиции 0 и 2

In [None]:
sp500.iloc[[0, 2]]

получаем позиции меток MMM и A в индексе

In [None]:
i1 = sp500.index.get_loc('MMM')
i2 = sp500.index.get_loc('A')
(i1, i2)

и извлекаем строки

In [None]:
sp500.iloc[[i1, i2]]

#### поиск скалярного значения

ищем скалярное значение по метке строки и метке (имени) столбца

In [None]:
sp500.at['MMM', 'Price']

ищем скалярное значение по позиции строки и позиции столбца; извлекаем значение в строке 0, столбце 1

In [None]:
sp500.iat[0, 1]

#### одновременный отбор строк и столбцов

отбираем строки с метками индекса ABT и ZTS для столбцов Sector и Price

In [None]:
sp500.loc[['ABT', 'ZTS']][['Sector', 'Price']]

In [None]:
sp500.loc[['ABT', 'ZTS'],['Sector', 'Price']]

определение номера позиций заданных меток

In [None]:
print(sp500.index.get_loc('ABT'),sp500.index.get_loc('ZTS')) 

отбор строк и столбцов по номеру позиций

In [None]:
sp500.iloc[[1,499],[0,1]]

#### транспонирование

In [None]:
sp500.head()

In [None]:
sp500.T.head()

#### переиндексация

ошибка:

In [None]:
sp500.loc[['MMM', 'ABBV', 'NEW VALUE']]

делаем переиндексацию, задав метки MMM, ABBV и NEW VALUE

In [None]:
reindexed = sp500.reindex(index=['MMM', 'ABBV', 'NEW VALUE'])

обратите внимание, что все индексы, кромя перечисленных при вызове, удалены, а *NEW VALUE* содержит значения *NaN*

In [None]:
reindexed

выполняем переиндексацию столбцов

In [None]:
sp500.reindex(columns=['Price', 'Book Value', 'NewCol']).head()

при этом можем заполнить отсутствующие значения константами вместо *NaN*

In [None]:
sp500.reindex(columns=['Price',
 'Book Value',
 'NewCol'],
 fill_value=0).head()

#### случайная подвыборка

отбираем три случайные строки

In [None]:
sp500.sample(n=3)

случайный отбор с возвращением

In [None]:
sp500.sample(frac=5, replace=True, random_state=777)

#### [настройки вывода](http://pandas.pydata.org/pandas-docs/stable/user_guide/options.html#available-options)

In [None]:
pd.options.display.max_rows

In [None]:
sp500

In [None]:
pd.options.display.max_rows = 10

In [None]:
sp500

In [None]:
pd.options.display.max_rows

### Срезы данных

#### Series

Задаём срез по правилу: [начальная позиция: конечная позиция: величина шага], при этом:
- Правая граница - не включается
- Шаг может быть отрицательным
- Позиция также может быть отрицательной - тогда отсчёт происходит "с другого конца"
- Нумерация происходит от нуля

In [None]:
numbers

срез, содержащий элементы с позициями от 1 по 5

In [None]:
numbers.iloc[1:6]

выбираем элементы в позициях 1, 3, 5 == выбираем элементы с 1 по 5 позицию с шагом 2

In [None]:
numbers.iloc[1:6:2]

можем оставить только конечную позицию

In [None]:
numbers.iloc[:6]

либо оставим только начальную позицию

In [None]:
numbers.iloc[3:]

отбираем элементы Series в обратном порядке, начиная с 5

In [None]:
numbers.iloc[5::-1]

отбор 4 последних строк

In [None]:
numbers.iloc[-4:]

#### DataFrame

In [None]:
sp500.iloc[:5]

в обратном порядке

In [None]:
sp500.iloc[4::-1]

строки, начиная с метки ABT и заканчивая меткой ACN

In [None]:
sp500.loc['ABT':'ACN']

### Копирование и ссылки

In [None]:
numbers

элементы с 1 по 4

In [None]:
numbers.iloc[[1,2,3,4]]

сохранили в переменную n

In [None]:
n = numbers.iloc[[1,2,3,4]]

In [None]:
n

присваиваем значение 0 всем элементам

In [None]:
n.loc[:] = 0
n

что-нибудь произошло с numbers?

In [None]:
numbers

еще раз сохраним первые 4 элемента

In [None]:
n = numbers.iloc[[1,2,3,4]]
n

создаем переменную k = срез с 1 по 4 элемент

In [None]:
k = numbers[1:5]
k.loc[:] = 0
k

In [None]:
numbers

воcстановили numbers

In [None]:
numbers[1:5] = n
numbers

### Удаление 

#### del

Series

In [None]:
Simpsons

In [None]:
Simpsons_copy = Simpsons.copy()
del Simpsons_copy['Maggie']
Simpsons_copy

DataFrame

In [None]:
sp500.head()

In [None]:
sp500_copy = sp500.copy()
del sp500_copy['Price']
sp500_copy.iloc[:2]

#### pop 

In [None]:
sp500_copy = sp500.copy()

In [None]:
sp500_copy.head(3)

эта строка удалит столбец Sector и возвратит его как серию

In [None]:
popped_column = sp500_copy.pop('Sector')

столбец Sector удален на месте

In [None]:
sp500_copy.head(3)

и у нас есть столбец Sector, полученный в результате применения pop

In [None]:
popped_column.head(3)

Для Series применение .pop идентично

#### drop 

In [None]:
sp500_copy = sp500.copy()

In [None]:
sp500_copy.head(3)

- эта строка вернет новый датафрейм с удаленным столбцом 'Sector’
- копия датафрейма не изменится

In [None]:
sp500_copy_after_drop = sp500_copy.drop(['Sector'], axis = 1)
sp500_copy_after_drop.head(3)

In [None]:
sp500_copy.head(3)

получаем копию первых 5 строк датафрейма data

In [None]:
sp500_part_copy = sp500.iloc[:5].copy()
sp500_part_copy

удаляем строки с метками ABT и ACN

In [None]:
sp500_part_copy = sp500_part_copy.drop(['ABT', 'ACN'], axis=0)
sp500_part_copy.head(5)

Для Series применение .drop идентично

### Фильтрация по условию

#### Series 

In [None]:
numbers

какие строки имеют значения больше 0 и меньше 1?

In [None]:
logical_results = (numbers > 0) & (numbers < 1)
logical_results

Скобки!!! Следующий программный код приведет к выдаче исключения
```python
numbers > 0 & numbers < 1 
```

тип полученного результата - Series, который можно использовать для отбора интерсующих нас значений

In [None]:
type(logical_results)

отбираем строки со значением True

In [None]:
numbers[logical_results]

использование метода .where

In [None]:
numbers.where((numbers > 0) & (numbers < 1))

In [None]:
numbers.where((numbers > 0) & (numbers < 1), other = -1)

все ли элементы >= 0?

In [None]:
(numbers >= 0).all()

есть ли элемент < 2?

In [None]:
(numbers < 2).any()

сколько значений < 1?

In [None]:
numbers < 1

In [None]:
(numbers < 1).sum()

#### DataFrame

какие строки имеют значения Price < 100?

In [None]:
sp500.Price < 100

теперь получим строки, в которых Price < 100

In [None]:
sp500[sp500.Price < 100]

извлекаем лишь те строки, в которых значение Price < 10 и > 6

In [None]:
r = sp500[(sp500['Price'] < 10) & 
 (sp500.Price > 6)] ['Price']
r

извлекаем строки, в которых переменная Sector принимает значение Health Care, а переменная Price больше или равна 100.00

In [None]:
r = sp500[(sp500.Sector == 'Health Care') & 
 (sp500.Price >= 100.00)] [['Price', 'Sector']]
r

использование метода .isin

In [None]:
s_tmp = sp500.Sector.isin(['Information Technology', 'Financials'])
s_tmp

In [None]:
sp500[s_tmp].head()

использование метода .query

In [None]:
r = sp500[(sp500.Sector == 'Health Care') & 
 (sp500.Price >= 100.00)] [['Price', 'Sector']]
r

In [None]:
q = sp500.query("Sector=='Health Care' & Price >= 100")[['Price', 'Sector']]
q

### Добавление 

#### оператор [ ] 

создаем копию, чтобы исходные данные остались в неизменном виде

In [None]:
sp500_copy = sp500.copy()

добавляем столбец

In [None]:
sp500_copy['RoundedPrice'] = sp500_copy.Price.round()
sp500_copy.head(3)

#### метод .insert()

создаем копию, чтобы исходные данные остались в неизменном виде

In [None]:
sp500_copy = sp500.copy()

вставляем столбец RoundedPrice в качестве третьего столбца датафрейма

In [None]:
sp500_copy.insert(1, 'RoundedPrice', sp500_copy.Price.round())
sp500_copy.head(3)

#### метод .assign() 

создаем копию, чтобы исходные данные остались в неизменном виде

In [None]:
sp500_copy = sp500.copy()

одновременное добавление двух столбцов:

In [None]:
sp500_copy.assign(Rounded_Price=sp500_copy.Price.round(),
 R_BookValue_Price=lambda x: (x['Book Value'] / x['Rounded_Price']))

### Выравнивание данных

#### Series 

первая серия для примеров

In [None]:
s_1 = pd.Series(data=[77,33,11],index=['a','b','f'])
s_1

вторая серия для примеров

In [None]:
s_2 = pd.Series(data=[11,5,6],index=['c','b','a'])
s_2

для непересекающейся части индексов будут получены значения NaN

In [None]:
s_1+s_2

метки не обязательно должны быть уникальными

In [None]:
s_1 = pd.Series(data=[77, 33, 15, 3], index=['a', 'a', 'a', 'd'])
s_1

In [None]:
s_2 = pd.Series(data=[11, 5, 6], index=['c', 'a', 'a'])
s_2

3 метки 'а' и 2 метки 'а', результат 6 меток а

In [None]:
s_2+s_1

#### DataFrame

In [None]:
sp500_part_1 = sp500.iloc[0:5, 0:2].copy()
sp500_part_2 = sp500.iloc[2:7, 1:3].copy()

In [None]:
sp500_part_1

In [None]:
sp500_part_2

In [None]:
sp500_part_1 + sp500_part_2

происходит выравнивание при создании датафрейма

In [None]:
series_1 = pd.Series([70, 90])
series_2 = pd.Series([71, 91])
series_3 = pd.Series([85, 87], index=[1, 2])
df = pd.DataFrame({'col_1': series_1,
 'col_2': series_2,
 'col_3': series_3})
df

### Сортировка

#### по индексу 

In [None]:
sp500.head()

In [None]:
sp500.sort_index().head()

In [None]:
sp500.sort_index(axis=1).head()

#### по значению

In [None]:
sp500.sort_values(by='Price').head()

In [None]:
sp500.sort_values(by='Price', ascending=False).head()

#### наименьшее / наибольшее значение

In [None]:
sp500.nsmallest(5, 'Price')

In [None]:
sp500.nlargest(5, 'Price')