Pillole di IA

Il blog di Federico Magliani sull'Intelligenza Artificiale

View on GitHub
31 March 2021

Cos'è un dataset?

by Federico Magliani

Definizione

Un dataset è un insieme o collezione di dati omogenei.

Perché servono?

Avere dei dati (meglio se annotati) aiuta a risolvere i problemi di IA.

Come possono essere suddivisi?

Nei problemi di intelligenza artificiale, i dati utilizzati possono essere informazioni numeriche, testi, immagini o suoni.


I dati contenuti nel dataset saranno poi suddivisi in classi in base a determinati attributi. Nel caso di immagini di animali, esse potrebbero essere suddivise in immagini della classe “cane” e della classe “gatto”.

Dataset noti

Esistono numerosi dataset per ogni tipologia di problema da trattare. Su di essi possono quindi essere valutati gli algoritmi di IA. Tra i più noti troviamo:

Sono riportate 3 figure che aiutano a comprendere le differenze fra le varietà di iris.

Figura 1 - Iris Setosa. Immagine sotto licenza CC BY-SA 4.0. URL


Figura 2 - Iris Virginica. Immagine sotto licenza CC BY-SA 4.0. URL


Figura 3 - Iris Versicolor. Immagine sotto licenza CC BY-SA 3.0. URL


Nella figura 4 vengono mostrate le cifre, scritte a mano, presenti nel dataset MNIST.

Figura 4 - MNIST. Immagine sotto licenza CC BY-SA 4.0. URL

Di dataset ne esistono davvero tantissimi. Vi invito a visitare la pagina dedicata di Wikipedia che espone una lista molto più completa di quella riportata da me in questo articolo.

Homepage


Federico Magliani
Sono appassionato di Intelligenza Artificiale e nel 2020 ho ricevuto il Ph.D. in Visione Artificiale presso l'Università degli Studi di Parma.
Se vuoi ricevere maggiori informazioni sull'articolo o sui progetti che sto svolgendo visita il mio sito web. Privacy Policy
tags: apprendimento-automatico - IA - intelligenza-artificiale