Skąd brać datasety
Kiedy chce się zbudować i wyuczyć jakiś model Machine Learning-owy trzeba rozpocząć od posiadania właściwych danych. Można je zebrać samemu i porządnie oznaczyć, bądź skorzystać z zasobów udostępnianych przez innych.
Do całkiem niedawna poszukiwanie takich gotowych dataset-ów to była prawdziwa udręka. Przeszukiwanie linków na repozytoriach github-owych, szukane postów przeróżnych osób opisujących ich znaleziska... Sprawdzanie linków, wczytywanie się w specyfikę, logowanie się i poszukiwanie informacji licencyjnych...
Na przeciw temu zagadnieniu wyszedł Google i stworzył wyśmienitą stronę. Prostą acz bardzo potężną. Od kiedy to zrobili, często ją odwiedzam. O czym mowa:
Cóż można powiedzieć:
- Jest to świetna wyszukiwarka (Google umie to robić)
- ma mnogość datasetów
- od razu widać licencję datasetu
- bez wchodzenia gdzie indziej zobaczymy opis problemu, metodyki zbierania i oznaczania danych
Screenshot:
Polecam!