logo
Karta przedmiotu
logo

Inżynieria i analiza danych

Podstawowe informacje o zajęciach

Cykl kształcenia: 2020/2021

Nazwa jednostki prowadzącej studia: Szkoła Doktorska Politechniki Rzeszowskiej

Profil studiów:

Nazwa jednostki prowadzącej zajęcia: Zakład Informatyki

Kod zajęć: 13156

Status zajęć: obowiązkowy dla programu

Układ zajęć w planie studiów: sem: 4 / W15 P15 / 0 ECTS / E

Język wykładowy: polski

Imię i nazwisko koordynatora: dr hab. inż. prof. PRz Galina Setlak

Cel kształcenia i wykaz literatury

Główny cel kształcenia: Celem przedmiotu jest przedstawienie metod i technik Data Science, w tym akwizycji, wstępnej obróbki i przetwarzania, analizy i interpretacji danych oraz pozyskiwania wiedzy z danych, niezbędnej do modelowania zjawisk fizycznych oraz praktycznego rozwiązywania problemów w badaniach naukowych i eksperymentalnych. Celem przedmiotu jest również nabycie przez doktorantów praktycznych umiejętności wykorzystywania w tym celu zarówno podstawowego arkusza kalkulacyjnego MS Excel, jak i specjalistycznego oprogramowania Statistica, Statistica Data Miner oraz Python, czy RStudio.

Ogólne informacje o zajęciach: W ramach przedmiotu przedstawione zostaną zagadnienia teoretyczne dotyczące metod analizy statystycznej danych, zaawansowanych metod i technik eksploracji danych, uczenia maszynowego i sztucznej inteligencji oraz przetwarzania dużych zbiorów danych Big Data. Na zajęciach projektowych doktoranci będą poznawać i nabędą umiejętności wykorzystywania w tym celu odpowiedniego oprogramowania, m.in. MS Excel, Statistica, Statistica Data Miner, Matlab z dodatkowymi narzędziami oraz Python.

Materiały dydaktyczne: Umieszczane w MS Teams w folderze Pliki/Materiały do zajęc oraz na stronie gsetlak.v.prz.edu.pl

Wykaz literatury, wymaganej do zaliczenia zajęć
Literatura wykorzystywana podczas zajęć wykładowych
1 Foreman J. W. Mistrz analizy danych. Od danych do wiedzy wyd. Helion, Gliwice. 2019
2 David Natingga Algorytmy Data Science. Siedmiodniowy przewodnik HELION, Gliwice. 2019
3 Aileen Nielsen Szeregi czasowe. Praktyczna analiza i predykcja z wykorzystaniem statystyki i uczenia maszynowego Aileen Nielsen, HELION, Gliwice. 2020
4 S. Osowski Metody i narzędzia eksploracji danych Wyd. BTC, Legionowo. 2013
5 Joel Grus Data science od podstaw. Analiza danych w Python O'REILLY, HELION, Beijing, Cambridge, Gliwice. 2018
6 M. Alexander, J. Decker, Analizy Business Intelligence. Zaawansowane wykorzystanie Excela Helion, Gliwice . 2015
7 Tom M. Mitchell Machine Learning McGraw-Hill Education . 1997,
Literatura wykorzystywana podczas zajęć ćwiczeniowych/laboratoryjnych/innych
1 A. Zięba Analiza danych w naukach ścisłych i technice PWN, Warszawa. 2013
2 Małgorzata Rabiej Analizy statystyczne z programami Statistica i Excel Helion, Gliwice. 2018
3 Sobczyk M. Statystyka wyd. PWN, Warszawa. 2007
4 B. Dębska, B. Guzowska-Świder Statystyka i opracowanie wyników Oficyna wydawnicza Politechniki Rzeszowskiej. 2011
5 J. Walkenbach, M. Alexander Analiza i prezentacja danych w Microsoft Excel Helion, Gliwice. 2014
Literatura do samodzielnego studiowania
1 Helion, Gliwice Excel. Profesjonalna analiza i prezentacja danych Helion, Gliwice. 2006
2 M. Freeman, Joel Ross Data science. Programowanie, analiza i wizualizacja danych z wykorzystaniem Języka R Helion, Gliwice . 2020
3 Mayer-Schönberger V., Cukier K. Big Data. Efektywna analiza danych wyd. MT Biznes, Warszawa . 2017
4 Peck R., Olsen C., Devore J. L. Introduction to: Statistics & Data Analysis Cengage Learning. 2016

Wymagania wstępne w kategorii wiedzy/umiejętności/kompetencji społecznych

Wymagania formalne: Przyjęcie do Szkoły Doktorskiej na Politechnice Rzeszowskiej

Wymagania wstępne w kategorii Wiedzy: Wiedza na poziomie absolwenta studiów magisterskich z zakresu matematyki, statystyki matematycznej i informatyki.

Wymagania wstępne w kategorii Umiejętności: Umiejętność obsługi komputera i korzystania z oprogramowania, w tym wykorzystania MS Excel, Matlab.

Wymagania wstępne w kategorii Kompetencji społecznych: Zdolność do współpracy w niewielkim zespole.

Efekty kształcenia dla zajęć

MEK Doktorant, który zaliczył zajęcia Formy zajęć/metody dydaktyczne prowadzące do osiągnięcia danego efektu kształcenia Metody weryfikacji każdego z wymienionych efektów kształcenia Związki z KEK Związki z PRK
01 potrafi stosować zarówno podstawowe metody statystycznej analizy danych, jak i zaawansowane: eksploracji danych, uczenia maszynowego, sztucznej inteligencji, przetwarzania dużych zbiorów danych Big Data itp.. wykład, projekt indywidualny, ćwiczenia problemowe zaliczenie cz. praktyczna, egzamin cz. pisemna K_W01+++
P8S_WG
02 Posiada znajomość metod statystycznych, uczenia maszynowego, eksploracji danych i potrafi je zastosować do analizy zbiorów danych pochodzących z różnorodnych źródeł. wykład, ćwiczenia problemowe, projekt indywidualny zaliczenie cz. praktyczna, egzamin cz. pisemna K_W01+++
K_U05++
P8S_UK
P8S_WG
03 nabywa umiejętności praktyczne dotyczące identyfikacji i formułowania specyfikacji złożonych problemów z zakresu inżynierii i analizy danych oraz doboru odpowiednich metod i narzędzi do ich rozwiązania wykład, ćwiczenia problemowe, projekt indywidualny zaliczenie cz. pisemna, egzamin cz. pisemna K_W01+++
K_U05++
K_U06+
P8S_UK
P8S_WG
04 posiada wiedzę w zakresie doboru do rozwiązywania wybranych problemów badawczych odpowiednich metod analizy danych i narzędzi programowych oraz nabywa umiejętności praktyczne ich zastosowania, w tym m.in. MS Excel, pakiet programowy Statistica oraz oprogramowanie MATLAB z odpowiednimi Toolbox'ami ćwiczenia problemowe, projekt indywidualny, wykład, e-learning zaliczenie cz. praktyczna, egzamin cz. pisemna K_W01++
K_U05++
P8S_UK
P8S_WG

Uwaga: W zależności od sytuacji epidemicznej, jeżeli nie będzie możliwości weryfikacji osiągniętych efektów uczenia się określonych w programie studiów w sposób stacjonarny w szczególności zaliczenia i egzaminy kończące określone zajęcia będą mogły się odbywać przy użyciu środków komunikacji elektronicznej (w sposób zdalny).

Treści kształcenia dla zajęć

Sem. TK Treści kształcenia Realizowane na MEK
4 TK01 Inżynieria i analiza danych w badaniach naukowych (nauki techniczne). Podstawowe pojęcia w zakresie Data Science. Dane – informacje - wiedza. Wprowadzenie do analizy i eksploracji danych. Analiza danych z użyciem metod statystycznych, eksploracji danych, uczenia maszynowego i analizy predykcyjnej oraz narzędzi sztucznej inteligencji. Podstawowe pojęcia statystyczne. Badanie rozkładów empirycznych. Miary: tendencji centralnej, zróżnicowania, asymetrii oraz miary spłaszczenia (współczynnik ekscesu) i koncentracji. W01 MEK03
4 TK02 Wstępne przygotowanie danych pozyskiwanych z różnych źródeł. Wizualizacja danych, standardowe formy wizualizacji danych. Graficzna prezentacja statystyk opisowych. Wykresy pudełkowy -wykres ramka-wąsy. Wykres rozrzutu. Histogramy. Analiza i interpretacja wykresów. WO2 MEK03
4 TK03 Statystyczna analiza danych. Analiza głównych składowych (PCA - Principal Component Analysis) oraz jej nieliniowa wersja, zwana metodą nieliniowej redukcji wymiarowości (ang. Manifold Learning – ML). Przygotowywanie i analiza statystyk opisowych. Analiza wariancji ANOVA - jedno-czynnikowa i dwu-czynnikowa analiza wariancji, MANOVA. Klasyczne metody analityki predyktywnej: regresja liniowa i nieliniowa, wieloraka, logistyczna. W03 MEK01 MEK02
4 TK04 Analiza i eksploracja danych w kontekście procesu pozyskiwania wiedzy. Przegląd zadań eksploracji danych: klasyfikacji, estymacji, predykcji, grupowania, uogólnienia. Klasyfikacja przez indukcję drzew decyzyjnych - Drzewa klasyfikacyjne – metoda C&RT (CART - Classification and Regression Trees), ogólne modele CHAID (Chi-square Automatic Interaction Detection). Drzewa Klasyfikacyjne i regresyjne ze wzmacnianiem (Boosted Trees). Miary oceny poprawności klasyfikacji. W04 MEK01
4 TK05 Wielowymiarowe metody analizy statystycznej. Grupowanie danych: Analiza skupień (cluster analysis). Metody grupowania obiektów. Algorytm k-średnich (ang. k-means). Miary oceny jakości rezultatów skupiania. Rozmyta metoda k-średnich (Fuzzy C-Means). W05 MEK01 MEK02
4 TK06 Sztuczne sieci neuronowe w analizie danych. Rodzaje sieci neuronowych (MLP, PNN, RBF, Kohonen, SVM) oraz ich zastosowania do zadań analizy danych. Metody uczenia sieci neuronowych. Dobór sieci neuronowych do rozwiązywanych zadań analizy danych (klasyfikacja i regresja, grupowanie obiektów, predykcja, asocjacja). W06 MEK01 MEK03
4 TK07 Analityka predykcyjna. Przegląd technik i narzędzi wykorzystywanych do predykcji. Przygotowanie danych do tworzenia modeli predykcyjnych. Podejście klasyczne do analityki predyktywnej (regresja: liniowa, wieloraka, logistyczna). Metody, techniki i narzędzia uczenia maszynowego do budowy modeli predykcyjnych. Analiza szeregów czasowych.Analiza szeregów czasowych. Identyfikacja struktury szeregu czasowego. Analiza trendu, analiza sezonowości. Konstrukcja modeli ARIMA. Analiza pojedynczego widma Fouriera. Klasyczne metody dekompozycji szeregów czasowych, metoda CENSUS I W07, W08 MEK01 MEK03
4 TK08 Wstępne przetwarzanie i przygotowanie danych do analizy. Oczyszczanie danych w MS Excel, przygotowanie danych w Statistica. Statystyki opisowe z wykorzystaniem Analysis Toolpak MS Excel i Statistica. Studium przypadków. Interpretacja uzyskanych wyników analizy. P01 MEK03
4 TK09 Wstępna analiza danych, standaryzacja i normalizacja. Wizualizacja danych - standardowe wykresy w MS Excel. Graficzna prezentacja statystyk opisowych. Wykres pudełkowy Tukeya. Histogramy. Tabele i wykresy przestawne w MS Excel. Analiza i interpretacja wykresów. P02 MEK02 MEK03
4 TK10 Analiza statystyczna danych. Analiza wariancji ANOVA, analiza jednoczynnikowa i wieloczynnikowa w MS Excel i w Statistica. Analiza współzależności między zmiennymi. Analiza regresji i korelacji. Wyniki regresji wielokrotnej. Weryfikacja modelu. P03 MEK02 MEK03 MEK04
4 TK11 Eksploracyjne metody analizy danych: klasyfikacja danych za pomocą drzew decyzyjnych. Zastosowanie drzew decyzyjnych C&RT (pakiet programowy Statistica) do klasyfikacji obiektów z wykorzystaniem zbiorów danych rzeczywistych. Studium przypadków. Interpretacja wyników C&RT. Analiza skupień w Statistica - zastosowanie metody aglomeracyjnej i metody k-średnich do grupowania danych. P04 MEK01 MEK02 MEK04
4 TK12 Analiza danych za pomocą sieci neuronowych. Zastosowanie Statistica Automatyczne sieci neuronowe (SANN): Przygotowanie danych, m.in. biory danych uczące, testowe i walidacyjne dla sieci. Globalna analiza wrażliwości. Funkcje błędu w uczeniu SN. Analiza danych za pomocą sieci neuronowych: klasyfikacja za pomocą sieci neuronowych, grupowanie obiektów za pomocą sieci neuronowych Kohonena. Analiza danych predyktywna za pomocą sieci neuronowych: regresja i prognozowanie za pomocą sieci neuronowych. P05, P06 MEK01 MEK02 MEK04
4 TK13 Analiza predyktywna danych. Analiza szeregów czasowych. Metoda wskaźników, dekompozycja sezonowa (Census 1). Rozwiązanie z wykorzystaniem programu MS Excel i pakitu Statistica.Wyznaczanie trendu i wahań sezonowych. Konstrukcja modeli ARIMA (Auto-Regressive Integrated Moving Average). Ocena zbudowanych modeli predykcyjnych i analiza wyników prognozowania. P07, P08 MEK01 MEK02 MEK03 MEK04

Nakład pracy doktoranta

Forma zajęć Praca przed zajęciami Udział w zajęciach Praca po zajęciach
Wykład (sem. 4) Przygotowanie do kolokwium: 5.00 godz./sem.
Godziny kontaktowe: 15.00 godz./sem.
Studiowanie zalecanej literatury: 2.00 godz./sem.
Projekt/Seminarium (sem. 4) Przygotowanie do zajęć projektowych/seminaryjnych: 5.00 godz./sem.
Godziny kontaktowe: 15.00 godz./sem..
Konsultacje (sem. 4)
Egzamin (sem. 4) Przygotowanie do egzaminu: 5.00 godz./sem.
Egzamin pisemny: 2.00 godz./sem.

Sposób wystawiania ocen składowych zajęć i oceny końcowej

Forma zajęć Sposób wystawiania oceny podsumowującej
Wykład Na egzaminie pisemnym sprawdzana jest realizacja wszystkich efektów kształcenia. Aby uzyskać ocenę dostateczną student musi uzyskać 60% punktów. Wyższą ocenę można uzyskać przy następujących progach punktowych: od 65% punktów - 3,5; od 75% punktów - 4,0; od 85% punktów - 4,5; od 95% punktów - 5,0.
Projekt/Seminarium Zaliczenie praktyczne projektów stanowi warunek dopuszczenia do egzaminu. Sprawdzana jest realizacja trzech efektów kształcenia. Aby uzyskać ocenę dostateczną student musi uzyskać 60% punktów. Wyższą ocenę można uzyskać przy następujących progach punktowych: od 65% punktów - 3,5; od 75% punktów - 4,0; od 85% punktów - 4,5; od 95% punktów - 5,0.
Ocena końcowa Ocena końcowa stanowi ocenę uzyskanej na egzaminie pisemnym

Przykładowe zadania

Wymagane podczas egzaminu/zaliczenia
(-)

Realizowane podczas zajęć ćwiczeniowych/laboratoryjnych/projektowych
(-)

Inne
(-)

Czy podczas egzaminu/zaliczenia student ma możliwość korzystania z materiałów pomocniczych : nie

Treści zajęć powiazane są z prowadzonymi badaniami naukowymi: tak

1 Ł. Paśko; G. Setlak Random Forests in a Glassworks: Knowledge Discovery from Industrial Data 2020
2 Ł. Paśko; M. Piróg; G. Setlak Pozyskiwanie wiedzy z danych przemysłowych do wspomagania decyzji w procesie produkcyjnym 2019