Zbiory Big Data i eksploracja danych I-TT-NM3O>ZBDiED
Szczegółowy opis form zajęć:
Wykłady:
szczegółowe treści kształcenia (szczegółowy program zajęć):
1. Wprowadzenie do Big Data: Definicja i cechy Big Data. Rozwój technologii i potrzeba przetwarzania dużych zbiorów danych. Przegląd popularnych narzędzi i technologii związanych z Big Data.
2. Architektura systemów Big Data: Skalowalność i architektura rozproszona. Frameworki przetwarzania danych, takie jak Apache Hadoop i Apache Spark.
Bazy danych NoSQL jako elementy architektury Big Data.
3. Definicja i rola rurociągów danych w architekturze Big Data. Znaczenie efektywnego przesyłania danych między różnymi etapami procesu. Przegląd popularnych narzędzi i frameworków do tworzenia rurociągów danych (np. Apache NiFi, Apache Airflow)
4. Szczegółowe omówienie etapów ETL w rurociągach danych. Przykłady transformacji danych w kontekście Big Data. Wykorzystanie technologii przetwarzania strumieniowego (Apache Kafka i Apache Flink) do budowy dynamicznych rurociągów. Porównanie przetwarzania strumieniowego z przetwarzaniem wsadowym
5. Wyzwania związane z bezpieczeństwem danych podczas przesyłania i przetwarzania. Strategie zabezpieczania rurociągów danych przed atakami i nieautoryzowanym dostępem.
6. Przypadki użycia i studia przypadków. Przykłady konkretnych rurociągów danych w różnych branżach. Analiza sukcesów i wyzwań związanych z implementacją rurociągów danych.
7. Etyka i regulacje w obszarze Big Data. Wyzwania etyczne związane z gromadzeniem, przetwarzaniem i analizą dużych ilości danych. Aktualne regulacje dotyczące ochrony prywatności danych.
metody dydaktyczne i techniki kształcenia oraz sposób organizacji zajęć:
Wykład w postaci prezentacji multimedialnej, prezentacje rozwiązań oraz ich elementów.
Ćwiczenia laboratoryjne
1. Instalacja i konfiguracja narzędzi Big Data: Apache Hadoop, Apache Spark, czy Apache NiFi.
2. Implementacja prostego rurociągu w Apache NiFi. Projektowanie i implementacja prostego rurociągu danych przy użyciu Apache NiFi, obejmującego etap przesyłania i transformacji danych.
3. Zastosowanie narzędzia Apache Spark do analizy danych. Zrozumienie, jak działa przetwarzanie wsadowe w kontekście Big Data.
4. Przetwarzanie strumieniowe w Apache Kafka. Budowa prostego rurociągu przetwarzania strumieniowego przy użyciu Apache Kafka i analiza różnic między przetwarzaniem strumieniowym a wsadowym.
5. Bezpieczeństwo w rurociągach danych. Eksperymenty z różnymi strategiami zabezpieczania rurociągów danych, w tym konfiguracją dostępu, szyfrowaniem i zarządzaniem kluczami.
6. Analiza i studium przypadku rurociągu danych dla wybranej branży. Analiza studium przypadku z wykorzystaniem gotowego rurociągu danych, który jest reprezentatywny dla konkretnej branży (np. finanse, zdrowie, e-commerce).
7. Implementacja ETL. Implementacji procesów ETL w kontekście przetwarzania strumieniowego.
8. Optymalizacja rurociągów danych w Apache Spark. Zastosowanie różnych technik optymalizacji wydajności rurociągów danych w Apache Spark na swoich komputerach.
9. Analiza danych w chmurze przy użyciu wybranej dedykowanej infrastruktury.
10. Etyczne gromadzenie i przetwarzanie danych. Implementacja praktyk etycznych związanych z gromadzeniem, przetwarzaniem i analizą dużych ilości danych.
11. Tworzenie interaktywnego panelu zarządzania przy użyciu narzędzi wizualizacyjnych.
12. Przetwarzanie danych z użyciem Apache Hive. Analizy danych przetwarzanych w klastrze Hadoop.
13. Implementacja rurociągu danych dla wybranego zagadnienia. Prezentacja i obrona rozwiązania.
W cyklu 2021/2022-Z:
Zapoznanie słuchaczy z tematyką przetwarzania dużych ilości danych (np. hurtownie danych, Hadoop, Spark). Prezentacja architektury hurtowni danych. Omówienie podstawowych zagadnień projektowania systemów przetwarzających duże ilości danych. Wskazanie podstawowych pojęć z dziedziny analizy danych (OLAP, eksploracja danych- data mining, Map Reduce). |
Koordynatorzy przedmiotu
W cyklu 2021/2022-L: | W cyklu 2021/2022-Z: | W cyklu 2023/2024-L: | W cyklu 2022/2023-L: |
<b>Ocena końcowa</b>
<b>Wymagania wstępne</b>
<b>Literatura podstawowa</b>
W cyklu 2022/2023-L: 1. J. P. Lander, R dla każdego. Warszawa: Wydawnictwo Naukowe PWN, 2020.
2. P. Biecek, Przewodnik po pakiecie R. Warszawa: O'Reilly, 2017.
3. A. Kołodziej, R w naukach społecznych. Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, 2019.
4. F. Nielsen, Praktyczne uczenie maszynowe w języku R. Gliwice: Helion, 2021.
| W cyklu 2023/2024-L: 1. Inmon W. H.: "Building the Data Warehouse", John Wiley & Sons, Inc., 2002
2. Ch. Todman: "Projektowanie hurtowni danych", WNT, Warszawa 2003
3. Dokument: "Preparing and Mining Data with Microsoft® SQL Server™ 2000 and Analysis Services"
|
<b>Literatura uzupełniająca</b>
W cyklu 2022/2023-L: "Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery" autorstwa Williamsa, Grahama J., wyd. Springer, 2011.
"Data Mining for the Masses" autorstwa Dr Matthew A. North, | W cyklu 2023/2024-L: 1. Kimball R., Ross M.: "The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling", John Wiley & Sons, Inc., 2013
2. Han J., Kamber M., Pei J.: "Data Mining: Concepts and Techniques", Morgan Kaufmann, 2011
3. Inmon W. H., Hackathorn R.: "Using the Data Warehouse", John Wiley & Sons, Inc., 2007
|
<b>Inne informacje</b>
Efekty kształcenia
Wiedza
Zna koncepcję hurtowni danych i innych systemów przetwarzania dużych ilości danych
Powiązane efekty kierunkowe:
IF2A_W10
Metody weryfikacji:
Egzamin
Ocena aktywności na zajęciach:wykonanie zadania
Wiedza
Wie jakie są podstawowe zagadnienia projektowania systemów przetwarzania dużych ilości danych.
Powiązane efekty kierunkowe:
IF2A_W10
Metody weryfikacji:
Egzamin
Wiedza
Zna najważniejsze problemy ładowania danych do hurtowni (ETL) i innych systemów przetwarzania dużych ilości danych
Powiązane efekty kierunkowe:
IF2A_W10
Metody weryfikacji:
Egzamin
Ocena aktywności na zajęciach:wykonanie zadania
Umiejętności
Potrafi zdefiniować systemu przetwarzania dużych ilości danych np. hurtowni danych
Powiązane efekty kierunkowe:
IF2A_U18
Metody weryfikacji:
Ocena aktywności na zajęciach:wykonanie zadania
Umiejętności
Potrafi uruchomić proces ETL (np. Map Reduce)
Powiązane efekty kierunkowe:
IF2A_U15
Metody weryfikacji:
Ocena aktywności na zajęciach:wykonanie zadania
Umiejętności
Potrafi posłużyć się podstawowymi narzędziami analizy danych
Powiązane efekty kierunkowe:
IF2A_U22
Metody weryfikacji:
Ocena aktywności na zajęciach:wykonanie zadania
Kompetencje społeczne
Potrafi wyznaczyć cele i priorytety dotyczące realizacji określonego przez siebie zadania
Powiązane efekty kierunkowe:
IF2A_K04
Metody weryfikacji:
Ocena aktywności na zajęciach:wykonanie zadania
Kryteria oceniania
Zaliczenie na podstawie oceny realizacji ćwiczeń w trakcie zajęć laboratoryjnych. Uzyskanie pozytywnych ocen z projektu realizowanego w grupach w ramach samodzielnej pracy studenta. Warunkiem zaliczenia przedmiotu jest uzyskanie zaliczenia z ćwiczeń laboratoryjnych oraz pozytywna ocena z egzaminu przeprowadzanego na zakończenie zajęć.
Literatura
• strona projektu: IBIGWORLD Job Hub https://ibigworld.ath.edu.pl/index.php/pl/
• Dey, Nilanjan, et al., eds. Internet of things and big data analytics toward next-generation intelligence. Vol. 35. Berlin: Springer, 2018.
• Richterich, Annika. The big data agenda: Data ethics and critical data studies. University of Westminster Press, 2018.
• Chambers, Bill, and Matei Zaharia. Spark: The definitive guide: Big data processing made simple. " O'Reilly Media, Inc.", 2018