In [None]:
text = 'Жан Антуан Вердье родился 02.05.1767 в Тулузе и умер 30.05.1839 в Маконе, Франция.'

# Tokenization

In [None]:
!pip install razdel

Collecting razdel
 Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Installing collected packages: razdel
Successfully installed razdel-0.5.0


In [None]:
from razdel import tokenize, sentenize

In [None]:
for t in tokenize(text):
 print(t)

Substring(0, 3, 'Жан')
Substring(4, 10, 'Антуан')
Substring(11, 17, 'Вердье')
Substring(18, 25, 'родился')
Substring(26, 36, '02.05.1767')
Substring(37, 38, 'в')
Substring(39, 45, 'Тулузе')
Substring(46, 47, 'и')
Substring(48, 52, 'умер')
Substring(53, 63, '30.05.1839')
Substring(64, 65, 'в')
Substring(66, 72, 'Маконе')
Substring(72, 73, ',')
Substring(74, 81, 'Франция')
Substring(81, 82, '.')


# Morphology

In [None]:
!pip install pymorphy2 pymorphy2-dicts-ru

Collecting pymorphy2
 Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[?25l[K |██████ | 10 kB 23.6 MB/s eta 0:00:01[K |███████████▉ | 20 kB 25.0 MB/s eta 0:00:01[K |█████████████████▊ | 30 kB 12.1 MB/s eta 0:00:01[K |███████████████████████▋ | 40 kB 9.3 MB/s eta 0:00:01[K |█████████████████████████████▌ | 51 kB 5.2 MB/s eta 0:00:01[K |████████████████████████████████| 55 kB 2.1 MB/s 
[?25hCollecting pymorphy2-dicts-ru
 Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[K |████████████████████████████████| 8.2 MB 10.0 MB/s 
Collecting dawg-python>=0.7.1
 Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Installing collected packages: pymorphy2-dicts-ru, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.417127.4579844


In [None]:
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()

In [None]:
hypotheses = morph.parse('родился')
for h in hypotheses:
 print(h)

Parse(word='родился', tag=OpencorporaTag('VERB,perf,intr masc,sing,past,indc'), normal_form='родиться', score=0.5, methods_stack=((DictionaryAnalyzer(), 'родился', 2802, 1),))
Parse(word='родился', tag=OpencorporaTag('VERB,impf,intr masc,sing,past,indc'), normal_form='родиться', score=0.5, methods_stack=((DictionaryAnalyzer(), 'родился', 2802, 21),))


In [None]:
hypotheses[0].normal_form

'родиться'

In [None]:
def lemma_tokenize(text):
 result = []
 for token in tokenize(text):
 parsed = morph.parse(token.text)
 if not parsed or not parsed[0].normal_form:
 result.append(token.text.lower())
 else:
 result.append(parsed[0].normal_form)
 return result

In [None]:
print(lemma_tokenize(text))

['жан', 'антуан', 'вердие', 'родиться', '02.05.1767', 'в', 'тулуза', 'и', 'умереть', '30.05.1839', 'в', 'макон', ',', 'франция', '.']


# Regular Expresions
https://docs.python.org/3/howto/regex.html

In [None]:
import re

In [None]:
pattern = '[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4}'
print(re.findall(pattern, text))

['02.05.1767', '30.05.1839']


Для более детального анализа совпадений можно использовать именованные группы. 

In [None]:
pattern = '(?P[0-9]{2})\.(?P[0-9]{2})\.(?P[0-9]{4})'
print([match.groupdict() for match in re.finditer(pattern, text)])

[{'day': '02', 'month': '05', 'year': '1767'}, {'day': '30', 'month': '05', 'year': '1839'}]


# Grammars

In [None]:
from nltk import CFG, wordpunct_tokenize
from nltk.parse import BottomUpLeftCornerChartParser

In [None]:
grammar_text = """
S -> ANY
S -> FROM | FROM ANY | ANY FROM | ANY FROM ANY
S -> EXPLICIT_TO | ANY EXPLICIT_TO | EXPLICIT_TO ANY | ANY EXPLICIT_TO ANY
S -> FROM TO | ANY FROM TO | FROM TO ANY | ANY FROM TO ANY

ANY -> TRASH | PARAM | TRAIN 
ANY -> TRASH ANY | PARAM ANY | TRAIN ANY

PARAM -> TODAY | TOMORROW | CHANGES | BIRD | EXPRESS | DIRECTION | DATE | PRICE

TRASH -> 'тут' | '2018' | '2019' | 'tutu' | 'ru' | 'ру' | 'яндекс' | 'направление'
TRAIN -> 'билет' | 'на' 'электричка' | 'расписание' | 'электричка'

TODAY -> 'сегодня' | 'на' 'сегодня'
TOMORROW -> 'завтра' | 'на' 'завтра'
CHANGES -> 'изменение' | 'с' 'изменение'
BIRD -> 'ласточка'
EXPRESS -> 'экспресс'
PRICE -> 'цена' | 'стоимость'

FROM -> FROM_PLACE | EXPLICIT_FROM
TO -> TO_PLACE | EXPLICIT_TO

EXPLICIT_FROM -> FROM_WORD FROM_PLACE
EXPLICIT_TO -> TO_WORD TO_PLACE

FROM_PLACE -> PLACE
TO_PLACE -> PLACE

FROM_WORD -> 'с' | 'от' | 'из'
TO_WORD -> 'на' | 'к' | 'до' | 'в'

DATE -> 'на' REAL_DATE | REAL_DATE
REAL_DATE -> MONTH | DAY | DAY MONTH | WEEKDAY
DAY -> '1' | '2' | '3' | '4' | '5' | '6' | '7' | '8' | '9' | '10' | '11' | '12' | '13' | '14' | '15' | '16' | '17' | '18' | '19' | '20' | '21' | '22' | '23' | '24' | '25' | '26' | '27' | '28' | '29' | '30' | '31'
WEEKDAY -> 'понедельник' | 'вторник' | 'среда' | 'четверг' | 'пятница' | 'суббота' | 'воскресенье'
MONTH -> 'январь' | 'февраль' | 'март' | 'апрель' | 'май' | 'июнь' | 'июль' | 'август' | 'сентябрь' | 'октябрь' | 'ноябрь' | 'декабрь'

PLACE -> 'москва' | 'питер' | 'петушки'
DIRECTION -> 'казанский'
"""
grammar = CFG.fromstring(grammar_text)
grammar_parser = BottomUpLeftCornerChartParser(grammar)

In [None]:
def try_parsing(parser, text):
 if isinstance(text, str):
 text = lemma_tokenize(text)
 try:
 result = parser.parse_one(text)
 return result
 except ValueError:
 return None

In [None]:
print(try_parsing(grammar_parser, 'расписание электричек от москвы до питера на завтра'))

(S
 (ANY (TRAIN расписание) (ANY (TRAIN электричка)))
 (FROM (EXPLICIT_FROM (FROM_WORD от) (FROM_PLACE (PLACE москва))))
 (TO (EXPLICIT_TO (TO_WORD до) (TO_PLACE (PLACE питер))))
 (ANY (PARAM (TOMORROW на завтра))))


# Тезаурусы

https://github.com/avidale/python-ruwordnet/

In [None]:
!pip install ruwordnet
!ruwordnet download

Collecting ruwordnet
 Downloading ruwordnet-0.0.2.tar.gz (6.6 kB)
Building wheels for collected packages: ruwordnet
 Building wheel for ruwordnet (setup.py) ... [?25l[?25hdone
 Created wheel for ruwordnet: filename=ruwordnet-0.0.2-py3-none-any.whl size=7398 sha256=8ad6ba6ed3686652538285d288384f574c3396e9c7ec098750e3760e8c1a09a9
 Stored in directory: /root/.cache/pip/wheels/c8/51/8f/403dd402ec844cace9b5d54d26b5001fa8c4df68316330c612
Successfully built ruwordnet
Installing collected packages: ruwordnet
Successfully installed ruwordnet-0.0.2
downloading a ruwordnet model from https://github.com/avidale/python-ruwordnet/releases/download/0.0.2/ruwordnet.db


In [None]:
from ruwordnet import RuWordNet
wn = RuWordNet()

In [None]:
for sense in wn.get_senses('кошка'):
 print(sense.synset, [s.lemma for s in sense.synset.senses])

Synset(id="6804-N", title="КОШКА") ['КОШКА', 'ДОМАШНИЙ КОШКА', 'КОШЕЧКА']
Synset(id="110841-N", title="КОШАЧЬИ") ['КОШКА', 'КОШАЧЬИ', 'СЕМЕЙСТВО КОШАЧИЙ', 'КОШАЧИЙ ХИЩНИК']
Synset(id="123870-N", title="КОШКИ ДЛЯ ЛАЗАНИЯ") ['КОШКА', 'КОШКА ДЛЯ ЛАЗАНИЕ']


In [None]:
synset = sense.synset
for _ in range(20):
 print(synset)
 if not synset.hypernyms:
 break
 print(synset.hypernyms)
 print()
 synset = synset.hypernyms[0]


Synset(id="123870-N", title="КОШКИ ДЛЯ ЛАЗАНИЯ")
[Synset(id="106553-N", title="ПРИСПОСОБЛЕНИЕ, ИНСТРУМЕНТ")]

Synset(id="106553-N", title="ПРИСПОСОБЛЕНИЕ, ИНСТРУМЕНТ")
[Synset(id="106554-N", title="ПРЕДМЕТ, ВЕЩЬ")]

Synset(id="106554-N", title="ПРЕДМЕТ, ВЕЩЬ")
[Synset(id="147133-N", title="ФИЗИЧЕСКИЙ ОБЪЕКТ")]

Synset(id="147133-N", title="ФИЗИЧЕСКИЙ ОБЪЕКТ")
[Synset(id="147134-N", title="ФИЗИЧЕСКАЯ СУЩНОСТЬ")]

Synset(id="147134-N", title="ФИЗИЧЕСКАЯ СУЩНОСТЬ")
[Synset(id="153782-N", title="ПОСТОЯННАЯ СУЩНОСТЬ")]

Synset(id="153782-N", title="ПОСТОЯННАЯ СУЩНОСТЬ")


In [None]:
wn["147134-N"].hyponyms

[Synset(id="144149-N", title="ПОКРЫВАЮЩАЯ ЧАСТЬ"),
 Synset(id="106451-N", title="МЕСТО В ПРОСТРАНСТВЕ"),
 Synset(id="147133-N", title="ФИЗИЧЕСКИЙ ОБЪЕКТ"),
 Synset(id="106623-N", title="ОПОРА, ОПОРНАЯ ЧАСТЬ"),
 Synset(id="106610-N", title="ПРОСТРАНСТВО"),
 Synset(id="820-N", title="ВЕЩЕСТВО"),
 Synset(id="150414-N", title="БИОЛОГИЧЕСКАЯ СУЩНОСТЬ")]

In [None]:
sense = wn.get_senses('гарантировать')[0]
synset = sense.synset
for _ in range(20):
 print(synset)
 if not synset.hypernyms:
 break
 print(synset.hypernyms)
 print()
 synset = synset.hypernyms[0]

Synset(id="116802-V", title="ГАРАНТИРОВАТЬ (ЗАЩИЩАТЬ)")
[Synset(id="106595-V", title="ОБЕРЕГАТЬ, ЗАЩИЩАТЬ"), Synset(id="120410-V", title="ОБЕСПЕЧИТЬ, СОЗДАТЬ УСЛОВИЯ")]

Synset(id="106595-V", title="ОБЕРЕГАТЬ, ЗАЩИЩАТЬ")
[Synset(id="106597-V", title="ОХРАНЯТЬ")]

Synset(id="106597-V", title="ОХРАНЯТЬ")
[Synset(id="106473-V", title="ОБУСЛАВЛИВАТЬ, СПОСОБСТВОВАТЬ")]

Synset(id="106473-V", title="ОБУСЛАВЛИВАТЬ, СПОСОБСТВОВАТЬ")
[Synset(id="111611-V", title="ВЛИЯТЬ, ВОЗДЕЙСТВОВАТЬ")]

Synset(id="111611-V", title="ВЛИЯТЬ, ВОЗДЕЙСТВОВАТЬ")
[Synset(id="106646-V", title="ОТНОШЕНИЕ МЕЖДУ СУЩНОСТЯМИ")]

Synset(id="106646-V", title="ОТНОШЕНИЕ МЕЖДУ СУЩНОСТЯМИ")


# Синтаксис

https://spacy.io/models/ru

In [None]:
!pip install --upgrade spacy
!python -m spacy download ru_core_news_md

Collecting spacy
 Downloading spacy-3.1.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.4 MB)
[K |████████████████████████████████| 6.4 MB 4.2 MB/s 
[?25hCollecting pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4
 Downloading pydantic-1.8.2-cp37-cp37m-manylinux2014_x86_64.whl (10.1 MB)
[K |████████████████████████████████| 10.1 MB 39.6 MB/s 
Collecting pathy>=0.3.5
 Downloading pathy-0.6.0-py3-none-any.whl (42 kB)
[K |████████████████████████████████| 42 kB 1.1 MB/s 
[?25hCollecting typer<0.4.0,>=0.3.0
 Downloading typer-0.3.2-py3-none-any.whl (21 kB)
Collecting catalogue<2.1.0,>=2.0.4
 Downloading catalogue-2.0.4-py3-none-any.whl (16 kB)
Collecting thinc<8.1.0,>=8.0.8
 Downloading thinc-8.0.8-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (621 kB)
[K |████████████████████████████████| 621 kB 41.2 MB/s 
Collecting spacy-legacy<3.1.0,>=3.0.7
 Downloading spacy_legacy-3.0.8-py2.py3-none-any.whl (14 kB)
Collecting srsly<3.0.0,>=2.4.1
 Downloading srsly-2.4.1-cp37-cp37

In [None]:
import spacy
spacy_nlp = spacy.load('ru_core_news_md')

Подробнее про синтаксис зависимостей можно почитать тут:

https://universaldependencies.org/u/dep
и
https://universaldependencies.org/ru/index.html

In [None]:
doc = spacy_nlp('По утрам я кормлю своего любимого кота Мурзика.')
for token in doc:
 print(f'{token.text:12} {token.dep_:10} {token.head}')

По case утрам
утрам obl кормлю
я nsubj кормлю
кормлю ROOT кормлю
своего det кота
любимого amod кота
кота obj кормлю
Мурзика appos кота
. punct кормлю


In [None]:
from spacy import displacy

In [None]:
displacy.render(doc, style="dep", jupyter=True)