Курс M20773 Аналіз великих даних з Microsoft R

Курс надає знання та навички використання сервера Microsoft R для створення та запуску аналізу наборів великих даних, а також використання середовищ великих даних, як-от кластера для обробки великих даних Hadoop, фреймворку з відкритим вихідним кодом для реалізації розподіленої обробки неструктурованих та слабкоструктурованих даних Spark або бази даних SQL Server.


Після закінчення курсу слухачі зможуть:
  • пояснити, як працюють Microsoft R Server та клієнт Microsoft R;
  • використовувати R Client з R Server для дослідження великих даних, які зберігаються в різних сховищах даних;
  • візуалізувати дані за допомогою графіків та діаграм;
  • перетворювати та очищувати набори великих даних;
  • реалізовувати варіанти розподілу завдань аналізу на паралельні завдання;
  • будувати та оцінювати регресійні моделі, створені з великих даних;
  • створювати, оцінювати та розгортати моделі розподілів, які генеруються з великих даних;
  • використовувати R у середовищах SQL Server та Hadoop.
Аудиторія

Фахівці-аналітики наборів великих даних у середовищі великих даних та розробники, які інтегрують аналітичні можливості R у свої рішення.


Для ефективного навчання на курсі, слухачі повинні володіти такими знаннями і навичками:
  • досвід програмування за допомогою R;
  • знання поширених R-пакетів;
  • знання загальних статистичних методів та найкращих практик аналізу даних;
  • знання операційної системи Microsoft Windows та її основних функціональних можливостей;
  • знання реляційних баз даних.
  1. Microsoft R Server та R Client
    • Що таке Microsoft R Server
    • Використання Microsoft R Client
    • Функції ScaleR
  2. Дослідження великих даних
    • Розуміння джерел даних ScaleR
    • Читання даних в об'єкт XDF
    • Узагальнення даних в об'єкті XDF
  3. Візуалізація великих даних
    • Візуалізація даних в пам'яті
    • Візуалізація великих даних
  4. Обробка великих даних
    • Трансформація великих даних
    • Управління наборами даних
  5. Паралельний аналіз операцій
    • Використання контексту обчислення RxLocalParallel з rxExec
    • Використання пакету revoPemaR
  6. Створення та оцінка регресійних моделей
    • Кластеризація великих даних
    • Генерування регресійних моделей та прогнозування
  7. Створення та оцінка моделей розподілу
    • Створення моделей розподілу на основі дерев рішень
    • Тестування моделей розподілів шляхом складання та порівняння прогнозів
  8. Обробка великих даних у SQL Server та Hadoop
    • Використання R у SQL Server
    • Використання Hadoop Map/Reduce
    • Використання Hadoop Spark

Реєстрація на найближчий курс

Код курсу

M20773

Тривалість, днів (годин)

3 (24)

Найближчі дати

за запитом

Ціна, грн