# Этот ноутбук работает только на линуксовских машинах. На Windows запустить не получится, потому что библиотека tensorflow-text есть только для Linux. Можно запустить его, например, на Google.Colab.

### Решаем задачу автоматической проверки свободных ответов учеников на тестовые задания с помощью векторов и линейного классификатора
Пример тестового задания есть на картинке в репозитории, который клонируется во второй клетке с кодом. Датасет состоит из 3 колонок: id, текст ответа и оценка.

In [None]:
# установка библиотеки tensorflow-text, USE использует ее для предобработки текстов

!pip install -U tensorflow-text

In [None]:
# клонируем репозиторий с гитхаба

!git clone -l -s https://github.com/Krinistopen/hse-workshop.git
%cd hse-workshop
!ls

In [None]:
import tensorflow_hub as hub
import tensorflow as tf
import numpy as np
import tensorflow_text
from google.colab import files
import pandas as pd

from sklearn.naive_bayes import GaussianNB, BernoulliNB
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegressionCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_recall_fscore_support as prfs

In [None]:
# загружаем модель Universal Sentence Encoder

embed = hub.load("https://tfhub.dev/google/universal-sentence-encoder-multilingual/3")

In [None]:
# считываем датасет, указываем название колонки с текстами и оценкой

data = pd.read_csv('data.csv', sep=';')
text_var = 'text'
class_var = 'mark'

In [None]:
data.head() 

In [None]:
# визуализация распреления оценок в датасете

df = data[class_var].value_counts(normalize=True) * 100
df.plot.bar(x=class_var)

In [None]:
# оценка -1 ставится за отсутствие ответа, такие случаи проще ловить отдельным кодом
# здесь исключаем из датасета ответы с такой оценкой

data = data[(data[class_var] != -1)]

In [None]:
# в данном задании оценка ставится по трехбалльной шкале:
# 0 баллов за неправильный вариант, 1 балл за правильный вариант,
# 2 балла за правильный вариант и правильное объяснение своего ответа
# но попробуем сначала обучить модель отличать неправильные ответы (0 баллов)
# от сколько-нибудь правильных (1 и 2 балла), для этого все оценки 2
# превратим в 1, останется 2 класса и задача бинарной классификации

marks_new = []
for i, mark in enumerate(data[class_var]):
 if mark == 2:
 marks_new.append(1)
 else:
 marks_new.append(mark)
class_var = 'class_new'
data[class_var] = marks_new
del marks_new

In [None]:
# устанавливаем размер обучающей выборки в процентах

train_vol = 0.7

In [None]:
# делим датасет на обучающую и тестовую выборки
# из обучающей выборки удаляем дубликаты ответов

train, test = train_test_split(data, train_size = train_vol, random_state = 99, stratify = data[class_var])
train = train.drop_duplicates(subset=[text_var])

In [None]:
# из тестовой выборки удаляем все ответы, которые есть в обучающей

check = []
train_data = train[text_var].tolist()
for text in test[text_var]:
 if text not in train_data:
 check.append('KEEP')
 else:
 check.append('IGNORE')
test['check'] = check
test = test.loc[test['check'] == 'KEEP']
test = test.drop(['check'], axis=1)
del check

In [None]:
# переводим все ответы из обучающей выборки в вектора

train_embeddings = []
for text in train_data:
 embedding = embed(str(text))[0]
 train_embeddings.append(embedding)

In [None]:
# переводим все ответы из тестовой выборки в вектора

test_embeddings = []
for text in test[text_var]:
 embedding = embed(str(text))[0]
 test_embeddings.append(embedding)

In [None]:
# инициализируем классификатор с некоторыми параметрами

# nbg = GaussianNB()
# nbb = BernoulliNB()
# lg = LogisticRegressionCV(cv=5, multi_class='ovr', max_iter=1200)
svm = SVC(kernel='poly', gamma='scale', probability=True)

In [None]:
# получаем список оценок из обучающей и тестовой выборок

classes = train[class_var].tolist()
classes_to_check = test[class_var].tolist()

In [None]:
# обучаем классификатор

# nbg.fit(train_embeddings,classes)
# nbb.fit(train_embeddings,classes)
# lg.fit(train_embeddings,classes)
svm.fit(train_embeddings,classes)

In [None]:
# получаем оценки для ответов из тестовой выборки

# classesNBG = nbg.predict(test_embeddings)
# classesNBB = nbb.predict(test_embeddings)
# classesLG = lg.predict(test_embeddings)
classesSVM = svm.predict(test_embeddings)

In [None]:
# получаем точность, полноту и ф-меру для класса 0 (неправильные ответы)

metrics = prfs(classes_to_check, classesSVM, pos_label = 0, average = 'binary')

In [None]:
metrics

### То же самое, только с SVD векторами

Пока код работает не так, как я планировал. Причину выясняю.

In [None]:
# установка библиотеки для морфологического анализа слов русского языка

!pip install -U pymorphy2

In [None]:
import gensim
import pandas as pd
import pymorphy2
import pprint
from collections import defaultdict
from gensim import corpora, models
import re

In [None]:
morph = pymorphy2.MorphAnalyzer()
frequency = defaultdict(int)
from rustoplist import stopwords

In [None]:
def tokenize(document):
 '''
 Токенизатор. Фильтрует текст от пунктуации, цифр, если они не являются частью слова 
 (чтобы оставить токены типа "ТЕЛЕ2", "2gis" и т.п), множественных пробелов.
 ''' 
 punc_1 = re.compile(r'[\.,;:\!\?/\|\\@#\$%\^\&\*)(_=\+\]\[}{"`~<>»«\'@]')
 punc_2 = re.compile(r'[،;؛¿!"\])}»›”؟¡%٪°±©®।॥…“‘„‚«‹「『\–—]')
 document = document.lower()
 document = re.sub(punc_1, ' ', document)
 document = re.sub(punc_2, ' ', document)
 document = re.sub(r'(?= cutoff]
 for text in texts]
 return new_texts

In [None]:
def preproc(documents, cutoff=2, stoplist=stopwords):
 '''
 Подготовка текстовых данных к извлечению тематик.
 '''
 texts = []

 if stoplist:
 for document in documents:
 text = []
 for token in tokenize(document):
 token = morphanalyze(token)
 if token not in stoplist:
 text.append(token)
 texts.append(text)
 new_texts = applyCutoff(texts, cutoff)

 else:
 for document in documents:
 text = []
 for token in tokenize(document):
 token = morphanalyze(token)
 text.append(token)
 texts.append(text)
 new_texts = applyCutoff(texts, cutoff)

 del texts
 return new_texts

In [None]:
data = pd.read_csv('data.csv', sep=';')
text_var = 'text'
class_var = 'mark'
data = data[(data[class_var] != -1)]
marks_new = []
for i, mark in enumerate(data[class_var]):
 if mark == 2:
 marks_new.append(1)
 else:
 marks_new.append(mark)
class_var = 'class_new'
data[class_var] = marks_new
del marks_new

In [None]:
texts = data[text_var]
ids = data['id']

In [None]:
texts_preproc = preproc(texts)

In [None]:
# каждому слову присваиваем id, а тексты представляем не как 
# последовательность слов, а как последовательность id
# именно здесь код работает не так, как я ожидал:
# в словаре с id слов почти в 2 раза меньше, чем реально в корпусе

dictionary = corpora.Dictionary(texts_preproc)
corpus = [dictionary.doc2bow(text) for text in texts_preproc]

In [None]:
pprint.pprint(corpus[0])

In [None]:
# взвешиваем все слова в текстах

tfidf = models.TfidfModel(corpus)
corpus_weighted = tfidf[corpus]

In [None]:
corpus_weighted[0]

In [None]:
# проводим сингулярное разложение терм-документной матрицы

model = models.LsiModel(corpus_weighted, id2word=dictionary, num_topics=300)

In [None]:
model.show_topics()[:5]

In [None]:
model[corpus_weighted[0]]

In [None]:
embeddings = {}

for i, ID in enumerate(ids):
 embedding_raw = model[corpus_weighted[i]]
 embedding = [value for ind, value in embedding_raw]
 embeddings.update({ID: embedding})

In [None]:
train_vol = 0.7
train, test = train_test_split(data, train_size = train_vol, random_state = 99, stratify = data[class_var])
train = train.drop_duplicates(subset=[text_var])

In [None]:
check = []
train_data = train[text_var].tolist()
for text in test[text_var]:
 if text not in train_data:
 check.append('KEEP')
 else:
 check.append('IGNORE')
test['check'] = check
test = test.loc[test['check'] == 'KEEP']
test = test.drop(['check'], axis=1)
del check

In [None]:
train_embeddings = [embeddings[ID] for ID in train['id'].tolist()]
test_embeddings = [embeddings[ID] for ID in test['id'].tolist()]

In [None]:
svm = SVC(kernel='poly', gamma='scale', probability=True)

In [None]:
classes = train[class_var].tolist()
classes_to_check = test[class_var].tolist()

In [None]:
svm.fit(train_embeddings,classes)

### Код для проверки среднего результата на 10 прогонах

Когда мы один раз разделили датасет на обучающую и тестовую выборку, обучили классификатор и проверили качество, то эти метрики качества нельзя считать окончательными. Возможно, нам повезло, и обучающая выборка получилась хорошей. А если датасет разделить так, что на обучающей выборке классификатор обучится не так хорошо? Качество получится ниже. 

Чтобы получить адекватные метрики качества, нужно хотя бы 10 раз случайным образом, по-разному разделить датасет на обучающую и тестовую выборки и 10 раз обучить один и тот же классификатор. Затем вывести средние показатели качества. Код ниже проделывает эту операцию для 4 разных классификаторов и в конце выводит график для сравнения средних метрик.

In [None]:
df_results = pd.DataFrame(columns=['classifier', 'train_size', 'average_precision',
 'average_recall', 'average_fscore'])
precision_all = {'NBG':[], 'NBB':[], 'SVM':[], 'LG':[]}
recall_all = {'NBG':[], 'NBB':[], 'SVM':[], 'LG':[]}
fscore_all = {'NBG':[], 'NBB':[], 'SVM':[], 'LG':[]}

data = pd.read_csv('data.csv', sep=';')

text_var = 'text'
class_var = 'mark'

data = data[data[class_var] != -1]

marks_new = []
for i, mark in enumerate(data[class_var]):
 if mark == 2:
 marks_new.append(1)
 else:
 marks_new.append(mark)
class_var = 'class_new'
data[class_var] = marks_new

train_vol = 0.7

for i in range(10):
 train, test = train_test_split(data, train_size = train_vol, stratify = data[class_var])
 train = train.drop_duplicates(subset=[text_var])
 check = []
 train_data = train[text_var].tolist()
 for text in test[text_var]:
 if text not in train_data:
 check.append('KEEP')
 else:
 check.append('IGNORE')
 test['check'] = check
 test = test.loc[test['check'] == 'KEEP']
 test = test.drop(['check'], axis=1)
 del check

 train_embeddings = []
 for text in train_data:
 embedding = embed(str(text))[0]
 train_embeddings.append(embedding)
 print('Прогон {}, вектора для обучения готовы.'.format(i+1))

 test_embeddings = []
 for text in test[text_var]:
 embedding = embed(str(text))[0]
 test_embeddings.append(embedding)
 print('Прогон {}, вектора для тестирования готовы.'.format(i+1))

 nbg = GaussianNB()
 nbb = BernoulliNB()
 svm = SVC(kernel='poly', gamma='scale', probability=True)
 lg = LogisticRegressionCV(cv=5, multi_class='ovr', max_iter=1200)

 classes = train[class_var].tolist()

 nbg.fit(train_embeddings,classes)
 nbb.fit(train_embeddings,classes)
 svm.fit(train_embeddings,classes)
 lg.fit(train_embeddings,classes)
 print('Прогон {}, все модели обучены.'.format(i+1))

 target = 0

 classesNBG = nbg.predict(test_embeddings)
 classesNBB = nbb.predict(test_embeddings)
 classesSVM = svm.predict(test_embeddings)
 classesLG = lg.predict(test_embeddings)

 classes_to_check = test[class_var].tolist()

 precisionNBG, recallNBG, fscoreNBG = prfs(classes_to_check, classesNBG, pos_label = 0, average = 'binary')[0:3]
 precisionNBB, recallNBB, fscoreNBB = prfs(classes_to_check, classesNBB, pos_label = 0, average = 'binary')[0:3]
 precisionSVM, recallSVM, fscoreSVM = prfs(classes_to_check, classesSVM, pos_label = 0, average = 'binary')[0:3]
 precisionLG, recallLG, fscoreLG = prfs(classes_to_check, classesLG, pos_label = 0, average = 'binary')[0:3]

 precision_all['NBG'].append(precisionNBG)
 precision_all['NBB'].append(precisionNBB)
 precision_all['SVM'].append(precisionSVM)
 precision_all['LG'].append(precisionLG)
 recall_all['NBG'].append(recallNBG)
 recall_all['NBB'].append(recallNBB)
 recall_all['SVM'].append(recallSVM)
 recall_all['LG'].append(recallLG)
 fscore_all['NBG'].append(fscoreNBG)
 fscore_all['NBB'].append(fscoreNBB)
 fscore_all['SVM'].append(fscoreSVM)
 fscore_all['LG'].append(fscoreLG)
 print('Прогон {} закончен.'.format(i+1))


for model in ['NBG', 'NBB', 'SVM', 'LG']:
 df_results = df_results.append({'classifier': model,
 'average_precision':sum(precision_all[model])/10,
 'average_recall':sum(recall_all[model])/10,
 'average_fscore':sum(fscore_all[model])/10},
 ignore_index=True)

df_results.set_index('classifier')
df_results_t = df_results.transpose()
df_results_t.columns = df_results_t.iloc[0]
df_results_t.reset_index(inplace=True)
df_results_t = df_results_t.drop([0], axis=0)
df_results_t.plot.bar('index')