{ "nbformat": 4, "nbformat_minor": 0, "metadata": { "colab": { "name": "faq_bot.ipynb", "provenance": [], "collapsed_sections": [] }, "kernelspec": { "name": "python3", "display_name": "Python 3" }, "language_info": { "name": "python" } }, "cells": [ { "cell_type": "code", "metadata": { "id": "30RU81xQGAzV" }, "source": [ "!pip install transformers razdel pymorphy2" ], "execution_count": null, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "fwREg80dEkFW" }, "source": [ "import requests\n", "from bs4 import BeautifulSoup\n", "import pandas as pd" ], "execution_count": null, "outputs": [] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "jV57QpSREqIs", "outputId": "9e922b6d-ab3e-4c74-d015-63941a468e46" }, "source": [ "soup = BeautifulSoup(requests.get('https://ma.hse.ru/faq').text)\n", "questions = []\n", "answers = []\n", "for div in soup.findAll('div', {'class': 'faq'}):\n", " questions.append(div.find('div', {'class': 'faq__question'}).text.strip())\n", " answers.append(div.find('div', {'class': 'faq__answer'}).text.strip())\n", "print(len(questions))\n", "data = pd.DataFrame({'q': questions, 'a': answers})" ], "execution_count": null, "outputs": [ { "output_type": "stream", "text": [ "48\n" ], "name": "stdout" } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 220 }, "id": "7eeohcvFFamZ", "outputId": "f34bf598-cb15-4783-d192-1f26ebadbe55" }, "source": [ "pd.options.display.max_colwidth = 300\n", "data.sample(3)" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/html": [ "
\n", " | q | \n", "a | \n", "
---|---|---|
43 | \n", "Что делать, если я не могу пройти вступительные испытания в назначенный день? Есть ли запасной день? | \n", "Резервный день есть. Но учтите, что сдавать в резервный день можно только в том случае, если причина пропуска экзамена уважительная. Уважительной причиной считаются, например, документально подтверждённые болезнь, военные сборы или командировка на работе. А вот, например, сдача экзамена в другом... | \n", "
22 | \n", "Не получается зарегистрироваться в личном кабинете: не приходят логин и пароль. Куда обращаться? | \n", "В случае возникновения проблем с регистрацией в личном кабинете абитуриента, необходимо сообщить о проблеме в службу технической поддержки pkadmin3@hse.ru. | \n", "
4 | \n", "В какое время учатся магистранты? Можно ли совмещать учебу в магистратуре с работой? | \n", "Вы можете ознакомиться с расписанием прошлых лет на странице вашей программы и уточнить у менеджера программы, чего ожидать от расписания и учебного плана в ближайшем году. | \n", "