產經情報

如何增加 AI 模型的學習效率?新研究顯示:仿效人類兒童就對了

日期:2024-02-15

生成式 AI 的訓練資料集是眾所皆知的龐大,有時可能涵蓋數兆個單字,反觀人類小時候僅需要一小部分的資料,便能發展出完整的溝通方式。兒童究竟如何學會語言,以及對語言學習的理解能如何讓 AI 模型更上一層樓,也是科學家們著墨的領域。

其中紐約大學研究人員在《科學》雜誌刊登了一篇新論文,團隊提供 AI 兒童學習語言時的數據集,發現 AI 能藉由少量的資料,將單字與代表的物體配對。

研究團隊讓一名來自澳洲兒童「山姆」佩戴頭盔攝影機,在長達一年半的時間中(六個月大至兩歲),共拍攝了長 61 小時的影片。影片記錄山姆視角所看到的環境,包括家裡養的兩隻貓、父母、嬰兒床、玩具和食物等。

為了進一步訓練 AI 模型,研究人員將 60 萬個影格,和山姆環境中共 3.75 萬則話語進行配對,部分組合能成功配對,其他則無法配對。團隊也提供模型兩條線索:物體和詞語同時出現就代表可能有關係;當物體和單詞未同時出現時則代表可能不匹配。

AI 能將物體和單詞配對的結果,顯示了語言中某些部分是可透過少量的經驗來學習,不需要某種先天性的能力,團隊中的一名心理學家表示這樣的結果「動搖了我的世界觀」。(由於兒童身處的環境時常很複雜,有多種物品散布各地,聽到的單字也有可能含多種意義,因此有些發展心理學家認為,兒童能學會說話是源自於對語言有某種先天性的理解。)

研究的下一個階段是要持續探索如何讓 AI 模型學習的模式更接近兒童的發展,因此接下來需要收集更多資料,包括讓 18 個月大的兒童也開始配戴攝影機來進行實驗。

如果 AI 模型能仿效人類部分的學習語言模式,或許就能讓 AI 的學習更加有效率,能學到字句內涵的意義、對新情境做出反應,或從新經驗中學習,離人類再靠近一步。