Section outline

  • В курсе рассматриваются вопросы о том, что такое Большие Данные (Big Data) и как с ними работать. В процессе изучения мы затронем такие темы, как базовые принципы анализа данных применительно к большим массивам данных; основы распределённых и параллельных вычислений; современные системы хранения и обработки больших данных, используемые в индустрии (HadoopSparkStormHBase,Cassandra и др.). Курс содержит практическую часть в виде лабораторных работ, на которых Вы получите навыки работы с Apache Spark и библиотекой для анализа данных и машинного обучения MLlib.

    In this course you will learn what is Big Data and how to deal with them. We’ll cover key topics such as principals of data analysis applied to massive datasets, basics of distributed and parallel computing, modern storage and processing systems used in industry mainly Hadoop, Spark, Storm, HBaseCassandra etc. The course includes a practical part in the form of labs where you will get experience with Apache Spark and the special library, MLlib, for data analysis and machine learning.