In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# настроим значения отображения данных по умолчанию в графиках pandas
plt.rc("figure", figsize=(10, 6))
np.set_printoptions(precision=4)
pd.options.display.max_columns = 20
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80

Управление социального обеспечения США представило данные в виде набора файлов (по одному на каждый год), в которых указано общее число родившихся младенцев для каждой пары пол/имя. 
Архив этих файлов находится по адресу http://www.ssa.gov/oact/babynames/limits.html.

Поскольку поля в исходном файле разделены запятыми, файл можно загрузить в объект DataFrame методом pandas.read_csv

In [None]:
names1880 = pd.read_csv("babynames/yob1880.txt",
 names=["name", "sex", "births"])
names1880

С этим набором можно проделать много интересных вариантов аналитики:
* наглядно представить долю младенцев, получавших данное имя (совпадающее с вашим или какое-нибудь другое) за весь период времени;
* определить относительный ранг имени;
* найти самые популярные в каждом году имена или имена, для которых фиксировалось наибольшее увеличение или уменьшение частоты;
* проанализировать тенденции выбора имен: 
 * количество гласных и согласных,
 * длину,
 * общее разнообразие, 
 * изменение в  написании, 
 * частотность первых/последних букв ...
* проанализировать внешние источники тенденций: библейские имена, имена знаменитостей, демографические изменения.

В эти файлы включены только имена, которыми были названы не менее пяти младенцев в году, поэтому для простоты сумму значений в столбце sex можно считать общим числом родившихся в данном году младенцев

In [None]:
names1880.groupby("sex")["births"].sum()

Поскольку в каждом файле находятся данные только за один год, то соберем все данные за ХХ век в единый объект DataFrame и добавим поле year. 

Это делается методом pandas.concat

In [None]:
pieces = []
for year in range(1900, 2001):
 path = f"babynames/yob{year}.txt"
 frame = pd.read_csv(path, names=["name", "sex", "births"])

 # добавим колонку year
 frame["year"] = year
 pieces.append(frame)

# соединим все фреймы в один DataFrame
names = pd.concat(pieces, ignore_index=True)

Обратите внимание на два момента. 

Во-первых, напомним, что concat по умолчанию объединяет объекты DataFrame построчно. 

Во-вторых, следует задать параметр ignore_index=True, потому что нам неинтересно сохранять исходные номера строк, прочитанных методом read_csv. 

В итоге получили очень большой DataFrame, содержащий данные обо всех именах.

In [None]:
names

Имея эти данные, можем приступить к агрегированию на уровне года и пола, используя метод _groupby_ или _pivot_table_

In [None]:
total_births = names.pivot_table("births", index="year", columns="sex", aggfunc=sum)
#total_birth_s = names.pivot_table("births", index="year", columns="sex").sum()
total_births.tail()
total_births.plot(title="Всего рождений по году и полу")
pass

Далее вставим столбец _prop_, содержащий долю младенцев (пропорцию), получивших данное имя, относительно общего числа родившихся. 

Значение _prop_, равное 0.02, означает, что данное имя получили 2 из 100 младенцев. Затем сгруппируем данные по году и полу и добавим в каждую группу новый столбец.

In [None]:
def add_prop(group):
 group["prop"] = group["births"] / group["births"].sum()
 return group

namesap = names.groupby(["year", "sex"], group_keys=False).apply(add_prop)

In [None]:
namesap

При выполнении такой операции группировки часто бывает полезно произвести проверку разумности результата, например удостовериться, что сумма значений в столбце _prop_ по всем группам равна 1.

In [None]:
namesap.groupby(["year", "sex"])["prop"].sum()

Далее получим подмножество данных, чтобы упростить последующий анализ: первые 1000 имен для каждой комбинации пола и  года. Это еще одна групповая операция

In [None]:
def get_top1000(group):
 return group.sort_values("births", ascending=False)[:1000]

top1000 = namesap.groupby(["year", "sex"]).apply(get_top1000)
top1000.head()

Это набор, содержащий первые 1000 записей. Его мы и будем использовать для исследования данных в дальнейшем.

In [None]:
top1000 = top1000.reset_index(drop=True)
top1000.head()

Имея полный набор данных и первые 1000 записей, можно приступить к анализу различных интересных тенденций. 

Для начала решим простую задачу: разобьем набор _top1000_ на части, относящиеся к мальчикам и девочкам.

In [None]:
boys = top1000[top1000["sex"] == "M"]
girls = top1000[top1000["sex"] == "F"]

Можно вывести на график временные ряды, например, количество Джонов и Мэри в каждом году, но для этого потребуется предварительное переформатирование. 
Сформируем сводную таблицу, в которой представлено общее число родившихся по годам и именам

In [None]:
total_births = top1000.pivot_table("births", index="year", columns="name", aggfunc=sum)

Теперь можно нанести на график несколько имен, воспользовавшись методом _plot_ объекта _DataFrame_

In [None]:
total_births.info()
subset = total_births[["John", "Harry", "Mary", "Marilyn"]]
subset.plot(subplots=True, figsize=(12, 10), title="Число рождений в год")
pass

Глядя на графики, можно сделать вывод, что эти имена в Америке вышли из моды, но на самом деле картина несколько сложнее

Убывание кривых на рисунках выше можно объяснить тем, что меньше родителей стали выбирать такие распространенные имена. Эту гипотезу можно проверить и подтвердить имеющимися данными. Один из возможных показателей – доля родившихся в наборе 1000 самых популярных имен, который агрегируем по году и полу

In [None]:
table = top1000.pivot_table("prop", index="year", columns="sex", aggfunc=sum)
table.plot(title="Сумма доли 1000 имен (table1000.prop) по году и полу",
 yticks=np.linspace(0, 1.2, 13))
pass

Действительно, похоже, что разнообразие имен растет (доля в первой тысяче падает). 

Другой интересный показатель – количество различных имен среди первых 50 % родившихся, упорядоченное по популярности в порядке убывания. Вычислить его несколько сложнее. Рассмотрим только имена мальчиков, родившихся в 2000 году

In [None]:
df = boys[boys["year"] == 2000]
df

После сортировки _prop_ в порядке убывания мы хотим узнать, сколько популярных имен нужно взять, чтобы достичь 50 %. 

Можно написать для этого цикл _for_, но _NumPy_ предлагает более хитроумный векторный подход:

Если вычислить накопительные суммы _cumsum_ массива _prop_, а затем вызвать метод _searchsorted_, то будет возвращена позиция в массиве накопительных сумм, в которую нужно было бы вставить 0.5, чтобы не нарушить порядок сортировки

In [None]:
prop_cumsum = df["prop"].sort_values(ascending=False).cumsum()
prop_cumsum[:10]
prop_cumsum.searchsorted(0.5)

Поскольку индексация массивов начинается с  нуля, то нужно прибавить к результату 1 и получится 77. Заметим, что в 1900 году этот показатель был гораздо меньше

In [None]:
df = boys[boys.year == 1900]
in1900 = df.sort_values("prop", ascending=False).prop.cumsum()
in1900.searchsorted(0.5) + 1

Теперь можно применить данную операцию к  каждой комбинации года и пола; произведем группировку по этим полям с помощью метода _groupby_, а затем с помощью метода _apply_ применим функцию, возвращающую счетчик для каждой группы

In [None]:
def get_quantile_count(group, q=0.5):
 group = group.sort_values("prop", ascending=False)
 return group.prop.cumsum().searchsorted(q) + 1
# оценим разнообразие
diversity = top1000.groupby(["year", "sex"]).apply(get_quantile_count)
# преобразуем series во фрейм
diversity = diversity.unstack()
diversity.head()

В получившемся объекте _DataFrame_ с именем _diversity_ хранится два временных ряда, по одному для каждого пола, индексированные по году. 

Его выведем на график

In [None]:
#
fig = plt.figure()
diversity.plot(title="Число популярных имен в 50%")
pass

Как видим, девочкам всегда давали более разнообразные имена, чем мальчикам, и со временем эта тенденция проявляется все ярче. 

Для анализа того, что именно является причиной разнообразия (например, растет число вариантов написания одного и того же имени), нужно сделать доп.разбор

!!!***!!!

В 2007 году исследовательница детских имен Лаура Уоттенберг (Laura Wattenberg) отметила на своем сайте (http://www.babynamewizard.com), что распределение имен мальчиков по последней букве за последние 100 лет существенно изменилось. 
Чтобы убедиться в этом, сначала агрегируем данные полного набора обо всех родившихся по году, полу и последней букве

In [None]:
def get_last_letter(x):
 return x[-1]

last_letters = names["name"].map(get_last_letter)
last_letters.name = "last_letter"

table = names.pivot_table("births", index=last_letters,
 columns=["sex", "year"], aggfunc=sum)

Затем выберем из всего периода три репрезентативных года и напечатаем первые несколько строк

In [None]:
subtable = table.reindex(columns=[1910, 1960, 2000], level="year")
subtable.head()

Далее пронормируем эту таблицу на общее число родившихся, чтобы вычислить новую таблицу, содержащую долю от общего количества родившихся для каждого пола и каждой последней буквы

In [None]:
subtable.sum()
letter_prop = subtable / subtable.sum()
letter_prop

Зная доли букв, теперь можно нарисовать столбчатые диаграммы для каждого пола, разбив их по годам

In [None]:
#import matplotlib.pyplot as plt
# Доли имен мальчиков и девочек, заканчивающихся на каждую букву
fig, axes = plt.subplots(2, 1, figsize=(10, 9))
plt.subplots_adjust(hspace=0.25)
letter_prop["M"].plot(kind="bar", rot=0, ax=axes[0], title="мальчики", xlabel = "последняя буква в имени")
letter_prop["F"].plot(kind="bar", rot=0, ax=axes[1], title="девочки", xlabel = "последняя буква в имени", legend=False)

Как видим, с 1960-х годов доля имен мальчиков, заканчивающихся буквой n, значительно возросла. 

Вернемся к созданной ранее полной таблице, пронормируем ее по году и полу, выберем некое подмножество букв для имен мальчиков, и транспонируем, чтобы превратить каждый столбец во временной ряд

In [None]:
letter_prop = table / table.sum()
# выборка и транспонирование
dny_ts = letter_prop.loc[["d", "n", "y"], "M"].T
dny_ts.head()

Имея этот объект _DataFrame_, содержащий временные ряды, можно методом _plot_ построить график изменения тенденций в  зависимости от времени

In [None]:
plt.close("all")
fig = plt.figure()
dny_ts.plot(title="Изменение доли мальчиков с именами,заканчивающимися на буквы d,n,y во времени", xlabel = "годы")

!!!+++!!!
Еще одно интересное наблюдение – изучить имена, которые раньше чаще давали мальчикам, а  затем «сменили пол». 

Возьмем, например, имя Lesley или Leslie. По набору top1000 вычислим список имен, начинающихся с 'lesl'

In [None]:
all_names = pd.Series(top1000["name"].unique())
lesley_like = all_names[all_names.str.contains("Lesl")]
lesley_like

Далее можно оставить только эти имена и просуммировать количество родившихся, сгруппировав по имени, чтобы найти относительные частоты

In [None]:
filtered = top1000[top1000["name"].isin(lesley_like)]
filtered.groupby("name")["births"].sum()

Затем агрегируем по полу и  году и нормируем в пределах каждого года

In [None]:
tableL = filtered.pivot_table("births", index="year", columns="sex", aggfunc="sum")
tableL = tableL.div(tableL.sum(axis="columns"), axis="index")
tableL.tail()

Теперь нетрудно построить график распределения по полу в  зависимости от времени

In [None]:
fig = plt.figure()
tableL.plot(style={"M": "k-", "F": "k--"},
 title= "Изменение во времени доли мальчиков и девочек с именами, похожими на Lesley")

Найдите и проверьте изменение популярности имен типа Mu(o)hammad, Mu(o)hammed, Mu(o)hamed, Mu(o)hamad