Курс M20773 Анализ больших данных с Microsoft R | nt.ua

(044) 390 73 35 (050) 352 68 64

EN RU UA

Курс M20773 Анализ больших данных с Microsoft R

Курс предоставляет знания и навыки использования сервера Microsoft R для создания и запуска анализа наборов больших данных, а также использования сред больших данных, например, кластера для обработки больших данных Hadoop, фреймворка с открытым исходным кодом для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark или базы данных SQL Server.

По окончании курса слушатели смогут:

  • объяснить, как работают Microsoft R Server и Microsoft R Client;
  • использовать R Client с R Server для исследования больших данных, хранящихся в разных хранилищах данных;
  • визуализировать данные, используя графики и диаграммы;
  • преобразовывать и очищать наборы больших данных;
  • реализовывать опции для разделения заданий анализа на параллельные задачи;
  • создавать и оценивать регрессионные модели, созданные на основе больших данных;
  • создавать и оценивать развертывание модели распределений, которые генерируются из больших данных;
  • использовать R в средах SQL Server и Hadoop.

Аудитория

Специалисты-аналитики наборов больших данных в среде больших данных и разработчики, которые интегрируют аналитические возможности R в свои решения.

Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:

  • опыт программирования на R;
  • знание распространенных R-пакетов;
  • знание общих статистических методов и лучших практик анализа данных;
  • знания операционной системы Microsoft Windows и ее основных функций;
  • знание реляционных баз данных.
  1. Microsoft R Server и R Client
    • Что такое Microsoft R Server
    • Использование Microsoft R Client
    • Функции ScaleR
  2. Изучение больших данных
    • Понимание источников данных ScaleR
    • Чтение данных в объект XDF
    • Суммирование данных в объекте XDF
  3. Визуализация больших данных
    • Визуализация данных в памяти
    • Визуализация больших данных
  4. Обработка больших данных
    • Преобразование больших данных
    • Управление наборами данных
  5. Распараллеливание операций анализа
    • Использование контекста вычисления RxLocalParallel с rxExec
    • Использование пакета revoPemaR
  6. Создание и оценка регрессионных моделей
    • Кластеризация больших данных
    • Генерация регрессионных моделей и прогнозирование
  7. Создание и оценка моделей секционирования
    • Создание моделей разбиения на основе деревьев решений
    • Тестирование моделей распределений путем составления и сравнения прогнозов
  8. Обработка больших данных в SQL Server и Hadoop
    • Использование R в SQL Server
    • Использование Hadoop Map/Reduce
    • Использование Hadoop Spark

Регистрация на ближайший курс

Код курса

M20773

Длительность, дней (часов)

3 (24)

Задать вопрос