[Stepik Academy] Big Data для Data Science 2020

Тема в разделе "Сайтостроение / Программирование", создана пользователем seoxa, 29 июл 2020.



  1. Пост от администрации
    seoxa
    ТопикCтартер

    seoxa

    Сообщ:
    1.736
    Лайк:
    8.600
    Баллов:
    197
    1 дек 2013
    Big Data для Data Science [Stepik Academy].png
    [Stepik Academy] Big Data для Data Science 2020

    Кому подойдет эта программа?

    Начинающим специалистам
    Вы уже знакомы с Python, у вас есть базовые знания SQL и вы хотите развиваться в сфере Data Science

    Data Science специалистам уровня junior/middle
    Вы уже работаете в сфере Data Science и хотите прокачать навыки работы с Big Data)

    Аналитикам и исследователям
    Вы уже умеете работать с данными и хотите познакомиться с инструментами для работы с Big Data

    Специалистам в области Data Engineering
    Вы уже работаете в сфере Data Engineering и хотите расширить свой кругозор и освоить актуальные технологии

    Первая неделя. Введение в Big Data для Data Science

    1. Зачем DS знать Big Data?
    • Зачем нужны DS?
    • Две проблемы в работе с данными для DS
    • Teamwork (Data Engineer + Data Science + Data Analyst)
    2. Хранилища данных (SQL/NoSQL обзор)
    • SQL (PostgreSQL, MySQL)
    • NoSQL (Document, KV, Column, Graph)
    3. Обработка данных (Hadoop/Spark)
    • Применение Hadoop
    • Применение Spark
    4. Вебинар первой недели

    Вторая неделя. Hadoop

    1. Архитектура Hadoop и компоненты

    2. HDFS

    • Свойства
    • NameNode/DataNode
    • Отказоустойчивость
    • Работа с HDFS
    3. MapReduce парадигма (YARN/MR)
    4. Реляционные БД и SQL
    5. Hbase & Cassandra & ClickHouse
    6. Hive
    5. Вебинар второй недели


    Третья неделя. Spark

    1. Архитектура Spark и компоненты
    • Применение
    • Spark Core/SQL/Streams/GraphX/ML
    • Архитектура
    • Выполнение задач и мониторинг (master, mode...)
    2. Core (RDD/DataFrame)
    • RDD
    • DataFrame
    • DataFrame Spark vs Pandas (link)
    3. SparkSQL
    • Dataframe as SQL table
    4. Spark Streaming & Apache Kafka
    • Применение
    • Spark Streaming
    • Apache Kafka
    5. Вебинар третьей недели

    Четвёртая неделя. Workflow

    1. Архитектура хранилищ Data Warehouse vs Data Lake
    • Data Warehouse компоненты, плюсы и минусы
    • Data Lake компоненты, плюсы и минусы
    • Cloud AWS/GCP
    2. Управление задачами
    • ETL & ELT
    • Apache Airflow
    3. Вебинар четвёртой недели

    Пятая неделя. SparkML

    1. Модели и алгоритмы Spark ML
    • Spark ML Архитектура
    • Spark ML модели и алгоритмы
    • Spark ML - Практика
    • Spark ML - Задачи
    Шестая неделя. BI Tools
    • Введение в Business Intelligence
    • SuperSet - Практика
    • SuperSet - Задачи
    Продажник:

    Скачать бесплатно [Stepik Academy] Big Data для Data Science 2020
     

Поделиться этой страницей