Pierwszy krok do zostania Data Scientist

Wielu ludzi twierdzi, że Data Scientist, to najseksowniejszy zawód XXI wieku. Jeśli planujesz zostać Data Scientist’em, to zapewne pomocna Ci będzie odpowiedź na pytanie, które często słyszę od innych. Pytanie to brzmi: Jak zostać Data Scientist’em? Od czego zacząć naukę? Na to pytanie znajdziecie wiele różnych odpowiedzi, ale tutaj podzielę się swoimi przemyśleniami i polecę Wam książki, z którymi warto się zapoznać.

Programowanie, czy ML?

Tak, to prawda, jeśli chcesz zostać Data Scientist’em, to musisz nauczyć się programowania w przynajmniej jednym języku. Do najbardziej popularnych języków programowania wśród Data Scientist’ów należą R i oczywiście Python. Osobiście używam i polecam Python, a jeśli chcesz dowiedzieć się, czemu Python jest używany w Data Science, to przeczytaj ten artykuł. Kolejna rzecz jaką będziesz musiał zrozumieć i poznać to uczenie maszynowe (ang. Machine Learning), ale czy od tego powinno się zaczynać przygodę z Data Science?

Twój pierwszy ważny krok

Predykcja i wyszukiwanie różnych struktur w danych to jedna z najważniejszych części pracy Data Scientist’a. To statystyka i prawdopodobieństwo umożliwiają nam odsłanianie ukrytych informacji w dużych danych. Obie te dziedziny matematyki są też nieodłącznym elementem różnych algorytmów predykcyjnych, które są dostępne w ramach uczenia maszynowego. Twoim zadaniem na początku drogi do zostania Data Scientist’em powinno być zatem zgłębienie obu tych dziedzin.

Jakieś trzy, może cztery lata temu, kiedy już wiedziałem, że chcę starać się o pracę jako Data Scientist na swoim profilu na LinkedIn w opisie wrzuciłem ten oto cytat:

Josh Wills

Data Scientist to osoba, która jest lepsza w statystyce niż jakikolwiek programista i lepsza w programowaniu niż jakikolwiek statystyk.

Jeśli tylko chcesz być przyszłym mistrzem danych, to zapamiętaj to zdanie i staraj się dążyć do tego, żeby być właśnie taką osobą. W dążeniu do takiego celu przydadzą Ci się moje rekomendacje książek, z którymi warto się zapoznać, jeśli chcesz odświeżyć lub nabyć wiedzę ze statystyki i prawdopodobieństwa wystarczającą dla przyszłego Data Scientist’a. Warto też wspomnieć, że wiedzę ze statystki powinni też przyswoić przyszli analitycy danych (o różnicy między analityka danych i Data Science pisałem w drugim artykule na tym blogu).

Think Stats 

Think Stats kładzie nacisk na proste techniki, które można wykorzystać do badania rzeczywistych zbiorów danych i odpowiadania na interesujące pytania. W książce przedstawiono studium przypadku wykorzystujące dane z National Institutes of Health. Czytelnicy są zachęcani do pracy nad projektem z prawdziwymi zbiorami danych. Książka ta pokazuje praktyczne wykorzystanie statystyki i prawdopodobieństwa udostępniając jednocześnie kod w języku programowania Python.

Practical Statistics for Data Scientists

Statystyka to bardzo szeroka dziedzina i tylko część jej ma zastosowanie w Data Science. Ta książka doskonale koncentruje się na zagadnieniach, które związane są ściśle z Data Science. Jeśli szukasz książki, która może szybko zapewnić Ci wystarczającą wiedzę, aby być w stanie poruszać się w świecie nauki o danych, to ta książka jest dla Ciebie. Tak jak w Think Stats, tak i tutaj znajdziecie praktyczne przykłady i kod, który pozwoli Wam odtworzyć, to co omawiane jest w książce. Tym razem będziecie mieli dostępny kod zarówno w R, jak i Pyhon.

The Art of Statistics: How to Learn from Data

Autor w tej książce pokazuje jak wykorzystać dane do rozwiązania realnych problemów i kładzie przy tym nacisk na matematyczne pomysły i powiązania. Ta książka może być niezawodnym uzupełnieniem podróży w świat Data Science, bo poniekąd uczy myślenia jak statystycy i rozwiązywania rzeczywistych problemów. Tutaj niestety nie znajdziecie żadnego kodu, ale i tak warto mieć tę pozycję na uwadze.

Żródła

  1. TOP BOOKS TO LEARN STATISTICS IN DATA SCIENCE – link
  2. Importance of Statistics and Probability in Data Science – link
  3. WHY IS STATISTICS IMPORTANT FOR DATA SCIENCE? – link
  4. Role of Statistics in Data Science – link
  5. Data Science: the impact of statistics – link
  6. Photo by Bruno Nascimento on Unsplash

Zostaw komentarz

Twój adres e-mail nie zostanie opublikowany.

pl_PL