Курс предоставляет знания и навыки использования сервера Microsoft R для создания и запуска анализа наборов больших данных, а также использования сред больших данных, например, кластера для обработки больших данных Hadoop, фреймворка с открытым исходным кодом для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark или базы данных SQL Server.
По окончании курса слушатели смогут:
- объяснить, как работают Microsoft R Server и Microsoft R Client;
- использовать R Client с R Server для исследования больших данных, хранящихся в разных хранилищах данных;
- визуализировать данные, используя графики и диаграммы;
- преобразовывать и очищать наборы больших данных;
- реализовывать опции для разделения заданий анализа на параллельные задачи;
- создавать и оценивать регрессионные модели, созданные на основе больших данных;
- создавать и оценивать развертывание модели распределений, которые генерируются из больших данных;
- использовать R в средах SQL Server и Hadoop.
Аудитория
Специалисты-аналитики наборов больших данных в среде больших данных и разработчики, которые интегрируют аналитические возможности R в свои решения.
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
- опыт программирования на R;
- знание распространенных R-пакетов;
- знание общих статистических методов и лучших практик анализа данных;
- знания операционной системы Microsoft Windows и ее основных функций;
- знание реляционных баз данных.
- Microsoft R Server и R Client
- Что такое Microsoft R Server
- Использование Microsoft R Client
- Функции ScaleR
- Изучение больших данных
- Понимание источников данных ScaleR
- Чтение данных в объект XDF
- Суммирование данных в объекте XDF
- Визуализация больших данных
- Визуализация данных в памяти
- Визуализация больших данных
- Обработка больших данных
- Преобразование больших данных
- Управление наборами данных
- Распараллеливание операций анализа
- Использование контекста вычисления RxLocalParallel с rxExec
- Использование пакета revoPemaR
- Создание и оценка регрессионных моделей
- Кластеризация больших данных
- Генерация регрессионных моделей и прогнозирование
- Создание и оценка моделей секционирования
- Создание моделей разбиения на основе деревьев решений
- Тестирование моделей распределений путем составления и сравнения прогнозов
- Обработка больших данных в SQL Server и Hadoop
- Использование R в SQL Server
- Использование Hadoop Map/Reduce
- Использование Hadoop Spark