course aims in Estonian
.Õppeaine eesmärk on:
- positsioneerida andmeteadus kui distsipliin ja selgitada selle seoseid statistikaga;
- tutvustada kõiki vajalikke mõisteid ja meetodeid, mis on pärit matemaatikast, statistikast ja arvutiteadusest, sealhulgas spetsiifilist slängi, mida selle valdkonna spetsialistid kasutavad;
- tutvustada andmeteaduse töövoogu: andmete kogumine, andmete eeltöötlus, tunnuste projekteerimine (arvutamine), tunnuste valimine (selekteerimine), mudeli treenimine, mudeli testimine, posthock-tõlgendus;
- tutvustada üksikasjalikult mudeli valideerimise ja testimise protsessi;
- tutvustada tulemuste visualiseerimiseks kasutatavaid lihtsaid tööriistu;
- tutvustada SQL-i kasutamist.
course aims in English
.The aim of this course is to:
- position data science as the discipline and explain its relations to statistics;
- explain all the necessary notions and methods inherited from mathematics, statistics, and computer science including specific slang used by professionals in this area;
- explain data science workflow: data acquisition, data preprocessing, feature engineering, feature selection, model training, model testing, post-hock interpretation;
- explain in detail the process of model validation and testing;
- explain simple tools used to visualise the results;
- explain usage of SQL.
learning outcomes in the course in Est.
Aine läbinud üliõpilane:
- kirjeldab andmeteaduse probleemide ja meetodite ulatust;
- defineerib andmeteaduses kasutatavate mõistete tähendust (ka teistelt erialadelt pärit mõisteid);
- püstitab (formuleerida) andmeteaduse probleemi;
- kasutab Jupyteri keskkonda Pythoni programmeerimiskeeles lihtsa koodi kirjutamiseks;
- valib ja kasutab andmeteaduses kasutatavaid teeke nagu NumPy, Pandas ja SK Learn jne;
- kujundab ja kodeerib (programmeerida) töövoogu klasterdamise, klassifitseerimise ning regressiooni ülesannete lahendamiseks;
- kasutab visualiseerimisvahendeid (baastasemel);
- omab põhiteadmisi SQL-i kasutamisest andmete haldamiseks.
learning outcomes in the course in Eng.
After completing this course, the student:
- describes the scope of data science problems and methods;
- defines the notions used in the data science (incl. those inherited from other disciplines);
- uses Jupyter environment to write simple code in Python programming language;
- chooses and uses the packages used in data science, such as NumPy, Pandas, and SK Learn;
- designs and codes (program) the workflow to solve problems of clustering, classification and regression;
- chooses and uses basic visualisation tools;
- uses SQL to manage the data, on the basic level.
brief description of the course in Estonian
Õppetöö toimub loengute (üks kord nädalas), praktika (kaks korda nädalas) ja iseseisva õppe vormis. Iga mõistet õpetatakse kolmes etapis. Esimene etapp selgitab konkreetse mõiste või meetodi taga olevat motivatsiooni ja intuitsiooni. Seejärel antakse formaalne selgitus, mida toetavad numbrilised näited ja harjutused. Lõpuks antakse õppesuunad neile, kes soovivad ainet süvitsi õppida. Õpilaste sooritust hinnatakse kahe esimese etapi edusammude põhjal. Õpilaste teadmiste hindamist hinnatakse praktika käigus läbiviidavate praktiliste testide ja kursuse lõpus sooritatava kirjaliku eksamiga.
Alustades andmeteaduse valdkonna üldisest ülevaatest, positsioneerime esmalt probleemide ulatuse ning selgitame seoseid statistika ja tõenäosusteooria, matemaatika ja informaatikaga. Seejärel õpetatakse, kuidas formuleerida andmeteaduse ülesannet. Vaheetapiks selgitame statistikast, tõenäosusteooriast, arvutusest, lineaaralgebrast ja arvutiteadusest päritud põhimõistete tähendust. Seejärel selgitatakse üksikasjalikult tavalist andmeteaduses kasutatavat töövoogu ja illustreeritakse numbrinäidetega. Lisaks klassikalistele etappidele, nagu andmete eeltöötlus, tunnuste arvutamine, mudelitreenimine ja valideerimine, võetakse arvesse ka tulemuste tõlgendamist seletatava tehismõiste meetodite abil. Kursuse viimane teema on pühendatud SQL-ile, pakkudes õpilastele võimsat andmehalduse tööriista.
brief description of the course in English
The teaching will be performed in the form of lectures (one per week), practises (two per week), and independent studies. All the material will be taught in three stages. The first stage explains the motivation and intuition behind a particular notion or method. Then, a more formal explanation is given, supported with proper numeric example and exercises to be conducted during the practise. Finally, directions for studies are provided for those willing to study the subject in depth. The performance of the students will be evaluated on the basis of their progress with respect to the first two stages. The evaluation of the students' knowledge will be evaluated through practical tests conducted during practise and a general written exam at the end of the course.
Starting with the general overview of the data science field, we first position the scope of the problems and explain relations to statistics and probability theory, mathematics, and computer science. Then, students are taught to formally state the problem of data science. As the intermediate step we explain the meaning of the main notions inherited from statistics, probability theory, calculus, linear algebra, and computer science. The usual workflow used in data science is then explained in detail and illustrated by the numeric examples. Besides the classical steps such as data preprocessing, feature engineering, model training, and validation, results interpretation using the methods of explainable AI will be considered. The final topic of the course will be devoted to SQL, providing students with the powerful tool for data management.
type of assessment in Estonian
Kodutööd, eksam.
type of assessment in English
Home assignments and final exam.
independent study in Estonian
-
independent study in English
-
study literature
Loengute slaidid, harjutused ja harjutuste lühijuhendid jagatakse Moodle'i keskkonnas.
study forms and load
daytime study: weekly hours
2.0
session-based study work load (in a semester):
exercises
1.0
exercises
12.0
lecturer in charge
Sven Nõmm, kaasprofessor tenuuris (IT - tarkvarateaduse instituut)