AI學會人類素描思維!MIT新系統讓機器像你我一樣塗鴉創作
在日常生活中,我們常會隨手塗鴉來表達想法——可能是會議中畫個流程圖,或是隨手勾勒產品設計概念。但你知道嗎?現在人工智慧也能用這種「人類方式」來創作草圖了!
麻省理工學院電腦科學與人工智慧實驗室(CSAIL)與史丹佛大學最新研發的「SketchAgent」系統,突破性地讓AI模仿人類一筆一畫的素描過程。這套系統採用多模態語言模型(如Anthropic的Claude 3.5 Sonnet),能將文字指令轉換成即時繪圖,無論是獨立創作或與人類協作都難不倒它。
研究團隊展示,SketchAgent可以繪製各種抽象概念:從機器人、蝴蝶、DNA雙螺旋,到流程圖甚至雪梨歌劇院。未來這項技術可能發展成互動式教育工具,幫助教師圖解複雜概念,或成為寓教於樂的繪畫教學系統。
該研究論文第一作者、CSAIL博士後研究員雅艾爾·溫克爾指出:「人們常忽略塗鴉在日常生活的重要性。我們會用簡圖記錄靈感、腦力激盪,而這套工具正是要複製這個思維過程。」
特別的是,SketchAgent不需透過傳統訓練資料學習繪畫。研究團隊開發了獨特的「素描語言」,將影象轉換為網格上的編號筆劃序列。例如教AI畫房子時,會標註第七筆是標記為「大門」的長方形,這種結構化教學讓系統能舉一反三理解新概念。
相較於DALL-E 3等文生圖模型雖能產生精美影象,卻缺乏人類素描中「邊畫邊構思」的創作特質。SketchAgent則模仿人類一筆一畫的過程,使作品更自然流暢。更突破的是,它直接運用預訓練語言模型的知識庫,不需受限於有限的手繪資料集。
在協作測試中,研究人員發現AI的筆劃對完成作品至關重要。例如移除AI繪製的船桅後,整幅帆船素描就變得難以辨識。而在模型比較實驗中,Claude 3.5 Sonnet產生的向量圖形最接近人類繪畫風格,表現優於GPT-4o等競爭模型。
共同作者塔瑪·羅特·沙哈姆強調:「這項技術將改變人機互動模式。當AI能理解素描等多元表達方式,使用者就能用更直覺的形式溝通,大幅提升互動體驗。」
當然,現階段SketchAgent仍只能繪製簡易線條圖,面對Logo設計、複雜生物或特定人物時表現有限。有時協作中還會出現「雙頭兔子」這類誤解,研究團隊認為這與AI的「思維鏈」分步推理特性有關。未來他們計劃透過擴散模型生成合成資料來改進,並最佳化人機互動介面。
儘管尚有改進空間,這項突破已預示AI繪圖的新可能——不再是魔術般瞬間產出完美影象,而是像人類一樣,透過筆劃間的思考與協作,逐步完成充滿創意的視覺表達。
[end]