Един от начините, че хората научават за нещата е чрез звука. За бебета удрянето и хвърлянето на предмети не е само забавление - някои проучвания показват, че по този начин те всъщност усвояват интуитивно физическите качества на околния свят. Възможно ли е да се създадат машини, които да се учат по същия начин?
Изследователи от Лабораторията за компютърни науки и изкуствен интелект (CSAIL) в MIT демонстрират алгоритъм, който ефективно предсказва звука от удар по различни обекти и хората не могат да различат генерирания от истинския.
Това е истински успешен "Тюринг тест за звук" - на изкуствения интелект пускат видео без звук, на което с палка удрят различни предмети и ИИ генерира шума, който би издал в реалния свят този удар. Изследователите предвиждат бъдещите версии на подобни алгоритми да се използват за автоматично получаване на звукови ефекти за филми и телевизионни предавания, както и да помогнат на роботите по-добре да разберат свойствата на обектите.
Екипът използва техники от областта на “deep learning” , която включва обучаването на компютри да пресяват огромни обеми от данни, за да открият модели в тях. Deep подходи за обучение са особено полезни, защото те освободи компютърни специалисти да се налага да ръчно дизайн алгоритми и контролира напредъка им.
Доклад за постижението ще бъде представен по-късно този месец, по време на годишната конференция на Computer Vision и разпознаване на образи (CVPR) в Лас Вегас.
За да научат ИИ как звучат нещата, в течение на няколко месеца изследователите записали около 1000 видеа на около 46000 звуци, в които различни обекти били удряни, остъргвани или бутани с палка. След това екипът предоставил клиповете на алгоритъма, който деконструирал звуците и ги анализирал.
В резултат алгоритъмът може точно да се симулира достатъчно финои различни звуци от докосване до удар, даже шумоленето на листата на бръшлян.
Допълнително предимство на работата е, че библиотеката на 46000 звуци на екипа е безплатна и достъпна за други изследователи да използват. Името на базата данни е "Greatest Hits".
За да тества колко реалистичен е фалшивият звук екипът провежда онлайн проучване, в което на хората трябвало да гледат два клипа - един с действителния записан звук, и един с генерирания от изкуствения интелект и да посочат кой е истинския звук. Резултатът бил, че фалшивият звук бил посочен за истински два пъти повече от истинския. Особено заблуждаващи били клиповете с листа и боклуци, коитообикновено не издават "чист" звук, както, да речем, дървото или металът.
Екипът установил, че звуците на материалите разкриват ключови аспекти на техните физични свойства. Те разработили алгоритъм, който по звука може да определи правилно разликата между твърди и меки материали в 67 процента от случаите.
Изследователите казват, че все още има възможности за подобряване на системата. Екипът смята, че в бъдеще биха могли да подобрят способностите роботите да си взаимодействат със средата.
"Един робот може да погледне тротоара и инстинктивно знае, че циментът е твърд и тревата е мека, и да знае какво ще се случи, ако стъпи върху някое от тях," казва Оуенс. "Да бъдеш в състояние да предскажеш звука е важна първа стъпка към възможността да се предскаже последствията от физически взаимодействия със света."
Работата е финансирана отчасти от Националната научна фондация и Shell, също е подкрепена от Microsoft Research Fellowship.