Kiedy chce się zbudować i wyuczyć jakiś model Machine Learning-owy trzeba rozpocząć od posiadania właściwych danych. Można je zebrać samemu i porządnie oznaczyć, bądź skorzystać z zasobów udostępnianych przez innych.

Do całkiem niedawna poszukiwanie takich gotowych dataset-ów to była prawdziwa udręka. Przeszukiwanie linków na repozytoriach github-owych, szukane postów przeróżnych osób opisujących ich znaleziska... Sprawdzanie linków, wczytywanie się w specyfikę, logowanie się i poszukiwanie informacji licencyjnych...

Na przeciw temu zagadnieniu wyszedł Google i stworzył wyśmienitą stronę. Prostą acz bardzo potężną. Od kiedy to zrobili, często ją odwiedzam. O czym mowa:

Google Dataset Search

Cóż można powiedzieć:

  • Jest to świetna wyszukiwarka (Google umie to robić)
  • ma mnogość datasetów
  • od razu widać licencję datasetu
  • bez wchodzenia gdzie indziej zobaczymy opis problemu, metodyki zbierania i oznaczania danych

Screenshot:

Polecam!

Linki: