The Million Song Database zawiera metadane muzyki, a nie samych piosenek, więc zespół sparował wszystkie te informacje z katalogiem Deezera za pomocą identyfikatorów, takich jak tytuły utworów, nazwiska wykonawców i tytuły albumów. Około 60% wynikowego zbioru danych zostało użyte do szkolenia AI, a reszta posłuży do sprawdzania poprawności i dalszego testowania systemu.
Ostatecznie ustalono, że sztuczna inteligencja lepiej radzi sobie z odczytywaniem nastroju utworu niż dotychczasowe „tradycyjne” metody.
„Wygląda na to, że ten wzrost wydajności jest wynikiem zdolności naszego modelu do odkrywania i stosowania średnich korelacji pomiędzy dźwiękiem a tekstem, szczególnie jeśli chodzi o przewidywanie wartościowości” – napisali naukowcy w artykule opublikowanym na arxiv.org.
Zaznaczają oni także, że bardzo istotną rolę dla dalszego rozwoju odegrałaby baza danych oferująca ścieżki audio zsynchronizowane z tekstem. Badacze uważają, że prace nad tym systemem AI mogą poszerzyć naszą wiedzę na temat tego w jaki sposób muzyka, słowa i nastrój korelują ze sobą, a także na to, że modele głębokiego uczenia się mogą się porządkować i znajdować nieoznakowane dane w dużych ilościach.
Źródło: The Verge