Kilka złotych rad
lub
co przydaje się w życiu
(statystyka)

Piotr Sobczyk

26 stycznia 2017

Co trzeba umieć żeby zostać data scientist?

Co statystyk powinien potrafić?

  • Multum podobnych pytań (i odpowiedzi) na quorze
  • Istnieje wiele specjalności związanych z analizą danych
  • Najlepiej wybrać to, co sprawia przyjemność :)

Co trzeba umieć?

Poprawka jaką należy wziąć na to, co piszę

Four Yorkshireman

Matematyka

  • Statystyka, optymalizacja
  • Nie chodzi o testy jednostajnie najmocniejsze :)
  • Głeboka wiedza o tym jak działają konkretne modele

Programowanie

  • R, python, SQL, noSQL, SAS, Julia, Java, C++, javascript, bash, html
  • Pojęcie o algorytmach i ich złożoności
  • Testowanie, dokumentacja, pisanie wysokiej jakości kodu

Prezentacja wyników

  • Z danych tworzymy historię, to historię ,,sprzedajemy"
  • Tłumaczenie rzeczy skomplikowanych w prosty sposób
  • Wizualizacja

Co warto poznać?

Z jakich źródeł się uczę?

  • Kursy internetowe (edx, coursera, udacity itp.)
  • Konkretne analizy/projekty np. kaggle lub zaangażowanie się w STWURa - www.stwur.pl
  • Kursy uniwersyteckie dostępne online, np. Convex Optimization (Stanford), Statistical Machine Learning (CMU)
  • Dobre książki (np. Elements of Statistical Learning, R4DS, Analiza danych w języku R)

STWUR

Przydatne narzędzia

  • Raporty w Markdownie
  • Shiny (szczególnie na potrzeby demo)
  • System kontroli wersji (nawet jeśli pracuje się samemu!)
  • Interaktywne wizualizacje (htmlwidgets)

Inne źródła wiedzy

  • Rbloggers
  • twitter: @hadleywickham, @hrbrmstr, @EdwardTufte, @AllenDowney, @MicrosoftR
  • blogi: Simply statistics, Error statistics, FlowingData, Normal Deviate, Thinking inside the box, Statistical Modeling, Causal Inference, and Social Science
  • podcasty/YT - NSSD, Data Stories, kanał Rogera Penga
  • książki: Pułapki myślenia, Niewidzialny goryl, Beautiful evidence, Odkrywać! Ujawniać! Objaśniać!, Uncertainity, Causality: Models, Reasoning and Inference, Statystyka i prawda