Kilka złotych rad
lub
co przydaje się w życiu
(statystyka)
Piotr Sobczyk
26 stycznia 2017
Co trzeba umieć żeby zostać data scientist?
Co statystyk powinien potrafić?
- Multum podobnych pytań (i odpowiedzi) na quorze
- Istnieje wiele specjalności związanych z analizą danych
- Najlepiej wybrać to, co sprawia przyjemność :)
Co trzeba umieć?
Poprawka jaką należy wziąć na to, co piszę
Matematyka
- Statystyka, optymalizacja
- Nie chodzi o testy jednostajnie najmocniejsze :)
- Głeboka wiedza o tym jak działają konkretne modele
Programowanie
- R, python, SQL, noSQL, SAS, Julia, Java, C++, javascript, bash, html
- Pojęcie o algorytmach i ich złożoności
- Testowanie, dokumentacja, pisanie wysokiej jakości kodu
Prezentacja wyników
- Z danych tworzymy historię, to historię ,,sprzedajemy"
- Tłumaczenie rzeczy skomplikowanych w prosty sposób
- Wizualizacja
Z jakich źródeł się uczę?
- Kursy internetowe (edx, coursera, udacity itp.)
- Konkretne analizy/projekty np. kaggle lub zaangażowanie się w STWURa - www.stwur.pl
- Kursy uniwersyteckie dostępne online, np. Convex Optimization (Stanford), Statistical Machine Learning (CMU)
- Dobre książki (np. Elements of Statistical Learning, R4DS, Analiza danych w języku R)
Przydatne narzędzia
- Raporty w Markdownie
- Shiny (szczególnie na potrzeby demo)
- System kontroli wersji (nawet jeśli pracuje się samemu!)
- Interaktywne wizualizacje (htmlwidgets)
- …
Inne źródła wiedzy
- Rbloggers
- twitter: @hadleywickham, @hrbrmstr, @EdwardTufte, @AllenDowney, @MicrosoftR
- blogi: Simply statistics, Error statistics, FlowingData, Normal Deviate, Thinking inside the box, Statistical Modeling, Causal Inference, and Social Science
- podcasty/YT - NSSD, Data Stories, kanał Rogera Penga
- książki: Pułapki myślenia, Niewidzialny goryl, Beautiful evidence, Odkrywać! Ujawniać! Objaśniać!, Uncertainity, Causality: Models, Reasoning and Inference, Statystyka i prawda