Współczesne rozpoznawanie mowy nie jest idealne. Często wymaga wielu transkrypcji i adnotacji, aby w pełni oddać sens. Jednak jak można to uprościć? W iście ludzki sposób – traktując AI jak dziecko.
Jeśli chcemy nauczyć dziecka słowa „spodnie” pokazujemy spodnie palcem, jednocześnie powtarzając te słowo. Dokładnie tak samo może to działać w przypadku sztucznej inteligencji. Wskazujemy AI frazę „czerwone spodnie” jednocześnie oznaczając je na grafice. Program dzieli grafikę na siatkę komórek, a spektogram audio na krótkie fragmenty. Następnie wykorzystując siatkę neuronową uczy się powiązywać odpowiednie frazy z obiektami.
Jest to o tyle ciekawa opcja, że dzięki takiemu podejściu algorytm byłby w stanie bezproblemowo obsługiwać rozpoznawanie mowy dla znacznie więcej niż 100 języków, które aktualnie mają wystarczającą transkrypcję.
Źródło: Engadget