Bill Schmarzo: czy data science jest nauką?

Bill Schmarzo, CTO Dell EMC Services, zastanawia się, co może zadecydować, że szeroko rozumiana nauka poświęcona danym i ich analizie (algorytmy, narzędzia i aplikacje big data) zostanie zaliczona w poczet dyscyplin naukowych. Według niego, internet rzeczy będzie tym rozwiązaniem, które przybliży badaczy danych do tradycyjnych naukowców, stawiających kluczowe pytanie: „dlaczego” określone działania prowadzą do przewidywalnych rezultatów.

Nauka – definicje

W encyklopedii PWN czytamy: „w literaturze naukowej i mowie potocznej w języku polskim, używany w wielu różnych, choć pokrewnych i powiązanych ze sobą znaczeniach; wobec wieloznaczności pojęcia, różnorodności desygnatów terminu „nauka” oraz wielości aspektów, w kontekście których może być rozpatrywana, nie ma jednej, uniwersalnej definicji nauki, zadawalającej wszystkich i obejmującej wszystkie aspekty znaczeniowe tego terminu”.

„Nauka” – to intelektualna i praktyczna aktywność obejmująca systematyczną analizę struktur i zachowań świata fizycznego i naturalnego poprzez obserwację i eksperymenty – taką z kolei definicję przytacza Bill Schmarzo, nazywany „dziekanem big data”. Nauka funkcjonuje w poszczególnych dziedzinach w oparciu o określone, specyficzne reguły, takie jak prawa fizyki, termodynamiki, elektromagnetyzmu, matematyki, aerodynamiki, prawa ruchu Newtona itp.

Naukowcy mogą stosować je, aby zrozumieć, dlaczego określone działania prowadzą do pewnych rezultatów. W wielu dziedzinach dla naukowców (lekarze lub inżynierowie) krytyczne znaczenie (w niektórych przypadkach, to nawet kwestia życia i śmierci) ma wiedza, dlaczego coś się wydarzy.

https://youtu.be/3EqyKsTfOzY

  • W farmacji: chemicy muszą wiedzieć, jak pewne substancje chemiczne można łączyć (receptury), aby uzyskać pożądany efekt leczenia.
  • W inżynierii mechanicznej: inżynier budowlany musi wiedzieć, jak należy połączyć i uformować wybrane materiały, aby fundamenty wytrzymały ciężar 40-piętrowego budynku.
  • W elektrotechnice: inżynierowie elektrycy muszą wiedzieć, ile potrzebnych jest przewodów, jak je zainstalować oraz jaki rodzaj okablowania wybrać, żeby zapewnić optymalne zasilanie budynku lub pojazdu. /…/

IoT i fizyka na torze kolizyjnym

Według Billa Schmarzo, istnieją jednak pewne nowe rozwiązania, które będą przybliżały „data science” do innych nauk. Przede wszystkim będzie to internet rzeczy (IoT – Internet of Things), który wymusi na organizacjach zrozumienie i usystematyzowanie, dlaczego określone operacje prowadzą do przewidywalnych rezultatów. Na przykład, dla producentów krytyczne znaczenie będzie miało zrozumienie (i standaryzacja), dlaczego określone komponenty produktu najczęściej psują się, co jest tego przyczyną (niewłaściwy materiał użyty do budowy komponentu, zły projekt, niestaranna instalacja, inne?).

W ciągu 3-5 lat, miliardy rzeczy będą reprezentowane przez tzw. digital twins – dynamiczny software’owy model fizycznej rzeczy lub systemu. Wykorzystując fizyczne dane (do określania sposobu, w jaki komponenty danej rzeczy działają i reagują na środowisko), jak również dane dostarczane przez czujniki w świecie fizycznym, digital twins mogą być używane do: analizy i symulacji rzeczywistych warunków, reagowania na zmiany, poprawiania działania i dodawania wartości. Digital twin funkcjonuje jako proxy do łączenia specjalistów (np. techników) i tradycyjnych urządzeń do monitorowania i kontroli (np. manometry).

Jako przykład współpracy między analityką a fizyką, Schmarzo podaje wykorzystanie koncepcji „digital twins” przez koncerny, takiejak General Electric, budujące cyfrowe modele, które stanowią lustrzane odbicia fizycznych struktur ich produktów. To pozwala im nie tylko przyspieszyć rozwój nowych produktów i usług, ale również testować je w większej liczbie sytuacji, w celu określenia takich wskaźników, jak: średni czas do awarii, wytrzymałość czy obciążenia strukturalne.

W ciągu 3-5 lat, miliardy rzeczy będą reprezentowane przez tzw. digital twins – dynamiczny software’owy model fizycznej rzeczy lub systemu. Wykorzystując fizyczne dane (do określania sposobu, w jaki komponenty danej rzeczy działają i reagują na środowisko), jak również dane dostarczane przez czujniki w świecie fizycznym, digital twins mogą być używane do: analizy i symulacji rzeczywistych warunków, reagowania na zmiany, poprawiania działania i dodawania wartości. Digital twin funkcjonuje jako proxy do łączenia specjalistów (np. techników) i tradycyjnych urządzeń do monitorowania i kontroli (np. manometry).

Jako że światy fizyki i IoT przenikają się, badacze danych coraz bardziej będą przypominać tradycyjnych „naukowców’, w miarę jak ich cyfrowy świat zacznie być regulowany takimi samymi prawami, jakie obowiązują w takich dziedzinach, jak: fizyka, aerodynamika, chemia czy elektryka.

Na stronie Politechniki Warszawskiej można znaleźć informacje o zapisach na studia podyplomowe Data Science – algorytmy, narzędzia i aplikacje dla problemów typu Big Data.

Badacze danych i fizycy łączcie się

W świecie internetu rzeczy, konsekwencje pomyłek mogą oznaczać konieczność poniesienia bardzo poważnych kosztów prawnych i finansowych. Linie lotnicze nie mogą sobie pozwolić na katastrofy samolotów, producenci autonomicznych samochodów na to, że będą one wjeżdżały w pieszych, a farmaceuci – na przypadkowe zabijanie pacjentów, przestrzega Schmarzo.

Ze świata IoT, w którym organizacje łączą analitykę (uczenie maszynowe i sztuczną inteligencję) z fizycznymi produktami, wyłania się dyscyplina naukowa „data science” wykraczająca daleko poza tylko naukę o danych. Zespoły badaczy danych działające w internecie rzeczy powinny poszerzać zakres swojej aktywności, współpracując z inżynierami i fizykami.

Ułatwi to zrozumienie i odpowiedź na ważny aspekt analitycznych modeli – pytanie: „dlaczego rzeczy się zdarzają” (także w ujęciu ilościowym). Jeśli nie, to koszty mogą być katastrofalne – konkluduje Schmarzo (oryginalny wpis tutaj).

itfilolog