Курс надає знання та навички використання сервера Microsoft R для створення та запуску аналізу наборів великих даних, а також використання середовищ великих даних, як-от кластера для обробки великих даних Hadoop, фреймворку з відкритим вихідним кодом для реалізації розподіленої обробки неструктурованих та слабкоструктурованих даних Spark або бази даних SQL Server.
Після закінчення курсу слухачі зможуть:
- пояснити, як працюють Microsoft R Server та клієнт Microsoft R;
- використовувати R Client з R Server для дослідження великих даних, які зберігаються в різних сховищах даних;
- візуалізувати дані за допомогою графіків та діаграм;
- перетворювати та очищувати набори великих даних;
- реалізовувати варіанти розподілу завдань аналізу на паралельні завдання;
- будувати та оцінювати регресійні моделі, створені з великих даних;
- створювати, оцінювати та розгортати моделі розподілів, які генеруються з великих даних;
- використовувати R у середовищах SQL Server та Hadoop.
Аудиторія
Фахівці-аналітики наборів великих даних у середовищі великих даних та розробники, які інтегрують аналітичні можливості R у свої рішення.
Для ефективного навчання на курсі, слухачі повинні володіти такими знаннями і навичками:
- досвід програмування за допомогою R;
- знання поширених R-пакетів;
- знання загальних статистичних методів та найкращих практик аналізу даних;
- знання операційної системи Microsoft Windows та її основних функціональних можливостей;
- знання реляційних баз даних.
- Microsoft R Server та R Client
- Що таке Microsoft R Server
- Використання Microsoft R Client
- Функції ScaleR
- Дослідження великих даних
- Розуміння джерел даних ScaleR
- Читання даних в об'єкт XDF
- Узагальнення даних в об'єкті XDF
- Візуалізація великих даних
- Візуалізація даних в пам'яті
- Візуалізація великих даних
- Обробка великих даних
- Трансформація великих даних
- Управління наборами даних
- Паралельний аналіз операцій
- Використання контексту обчислення RxLocalParallel з rxExec
- Використання пакету revoPemaR
- Створення та оцінка регресійних моделей
- Кластеризація великих даних
- Генерування регресійних моделей та прогнозування
- Створення та оцінка моделей розподілу
- Створення моделей розподілу на основі дерев рішень
- Тестування моделей розподілів шляхом складання та порівняння прогнозів
- Обробка великих даних у SQL Server та Hadoop
- Використання R у SQL Server
- Використання Hadoop Map/Reduce
- Використання Hadoop Spark