Sissejuhatus suurandmete haldamisse (IXX9108)
PÕHIANDMED
õppeaine register
A - põhiregister
õppeaine kood
IXX9108
õppeaine nimetus eesti k
Sissejuhatus suurandmete haldamisse
õppeaine nimetus inglise k
Introduction to Big Data Management
õppeaine maht AP
-
õppeaine maht EAP
6.00
deklareeritav
jah
õppeaine täies mahus läbitav e-õppes
jah
kontrollivorm
arvestus
õpetamise semester
sügis-kevad
õppekeel
eesti keel
inglise keel
Õppekavad, millesse aine kuulub
kavaversiooni kood
aine kohustuslik
IAXD22/22
ei
Ainet õpetavad struktuuriüksused
IT - tarkvarateaduse instituut
Ainekaardi link
Tunniplaani link
Vaata tunniplaani
Versioon:
VERSIOONIPÕHISED ANDMED
õppeaine eesmärgid eesti k
Õppeaine põhieesmärk on tutvustada doktorandile kõige uuemaid ja võimsamaid infotehnoloogiaid, mida kasutatakse suurandmete töötlemiseks, salvestamiseks ning analüüsiks.
õppeaine eesmärgid inglise k
The key objective of this course is to familiarize a Ph.D. student with the most potent cutting-edge information technologies used in manipulating, storing, and analyzing big data.
õppeaine õpiväljundid eesti k.
Aine läbinud üliõpilane:
- selgitab suurandmete olemust ja peamisi suurandmete töötlemise tööriistu;
- kirjeldab Sparki’i mitmekihilist keskkonda;
- paigaldab Sparki klastri (paigaldades ja seadistades sõlmed, seadistades MESOS-i);
- kasutab struktureeritud andmeid Spark SQLi abil;
- töötleb jooksvalt sissetulevaid andmeid;
- kohaldab suurandmete ennustavat analüüsi tegeliku elu kasutusstsenaariumites.
õppeaine õpiväljundid ingl k.
Upon successful completion of this course, the student:
- identifies Big Data challenges and recognize main Big Data tools and frameworks;
- describes the multi-layer ecosystem of Spark;
- sets up and configure a Spark cluster (installing and configuring nodes, configuring MESOS);
- leverages structured data with Spark SQL;
- processes data coming in the flight;
- applies predictive analytics on big data in real-life use cases.
õppeaine sisu lühikirjeldus eesti k
Oleme tunnistajaks sotsiaalmeedia plahvatuslikule kasvule ning sotsiaalse ja majandustegevuse kõigi aspektide arvutipõhiseks muutumisele, mistõttu kasvavad andmemahud kiiremini kui töötlemiskiirus. See on kaasa toonud suure hulga peamiselt struktureerimata andmete loomise: ajaveebid, videod, kõnesalvestused, fotod, e-kirjad, säutsud, kui nimetada vaid mõnda.
Õppeaine põhieesmärk on tutvustada doktorandile kõige uuemaid ja võimsamaid infotehnoloogiaid, mida kasutatakse suurandmete töötlemiseks, salvestamiseks ja analüüsiks. Kõige suurem väljakutse doktorantidele oleks näha oma uurimisküsimusi uues valguses suurandmete haldamise vaatenurgast.
Selles loengus saate teada, kuidas koguda, säilitada ja töödelda suuri ja heterogeenseid andmevorminguid, kasutades suurandmete raamistikku Spark, et luua infosüsteemi integreeritud töötlusahelaid. Kuna andmeid saab salvestada kettale või edastada voona, saate mudeli koostamiseks ja uute andmete hõlpsaks klassifitseerimiseks rakendada masinõppemudeleid.
Loengud on mitmekeelsed, st doktorant saab kasutada keelt, mida valdab kõige paremini (Java, Python, Scala).
Kava:
1. Suurandmete tutvustus
2. Core Spark
4. Spark SQL and Data Frames
5. Striimingu analüütika, kasutades Kafka ja Sparki Striimingut
6. SparkML – sissejuhatus masinõppe vahenditesse
õppeaine sisu lühikirjeldus ingl k
Data is growing faster than processing speeds since we witness an explosion of social media and the computerization of every aspect of social and economic activity. The latter lead to the creation of overwhelming volumes of primarily unstructured data: weblogs, videos, speech recordings, photographs, e-mails, Tweets, to name but a few.

The key objective of this course is to familiarize a Ph.D. student with the most potent cutting-edge information technologies used in manipulating, storing, and analyzing big data. The most thriving challenge would be how a Ph.D. student would rediscover his research questions from the big data management point of view.

In this lecture, you will learn how to collect, store, and process large and heterogeneous data formats using the big data framework Spark to set up processing chains integrated into the Information System. Since data can be stored on a disk or arriving in a stream, you will be able to apply machine learning models to build your model and classify New Data easily.

The lectures will be multilingual, i.e., the Ph.D. student can use the language that masters the most Java, Python, Scala.
Outline:

1. Big Data introduction
2. Core Spark - RDD-Transformations and Actions
3. Spark SQL and Data Frames
4. Streaming analytics using Kafka and Spark Streaming
5. SparkML: Introduction to Machine learning tools
hindamisviis eesti k
Arvestuse saamiseks esitavad doktorandid sooritatud praktiliste ülesannete kohta aruanded.
hindamisviis ingl k
In order to receive the assessment, doctoral students submit reports on the hands-on activities performed.
iseseisev töö eesti k
-
iseseisev töö ingl k
-
õppekirjandus
-
õppevormid ja mahud
päevaõpe: nädalatunnid
4.0
sessioonõppe töömahud (semestris):
loenguid
2.0
loenguid
-
praktikume
2.0
praktikume
-
harjutusi
0.0
harjutusi
-
vastutav õppejõud
-
ÕPPEJÕU AINEKAVA INFO
õppetöö semester
õpetav õppejõud / üksus
õppetöö keel
Laiendatud ainekava
2022/2023 kevad
Sadok Ben Yahia, IT - tarkvarateaduse instituut
inglise keel
    kuva rohkem
    2021/2022 kevad
    Sadok Ben Yahia, IT - tarkvarateaduse instituut
    inglise keel
      Ainekaart eesti keeles
      Ainekaart inglise keeles