AI學會人類素描思維！MIT新系統讓機器像你我一樣塗鴉創作

科技 06-09

在日常生活中，我們常會隨手塗鴉來表達想法——可能是會議中畫個流程圖，或是隨手勾勒產品設計概念。但你知道嗎？現在人工智慧也能用這種「人類方式」來創作草圖了！

麻省理工學院電腦科學與人工智慧實驗室（CSAIL）與史丹佛大學最新研發的「SketchAgent」系統，突破性地讓AI模仿人類一筆一畫的素描過程。這套系統採用多模態語言模型（如Anthropic的Claude 3.5 Sonnet），能將文字指令轉換成即時繪圖，無論是獨立創作或與人類協作都難不倒它。

研究團隊展示，SketchAgent可以繪製各種抽象概念：從機器人、蝴蝶、DNA雙螺旋，到流程圖甚至雪梨歌劇院。未來這項技術可能發展成互動式教育工具，幫助教師圖解複雜概念，或成為寓教於樂的繪畫教學系統。

該研究論文第一作者、CSAIL博士後研究員雅艾爾·溫克爾指出：「人們常忽略塗鴉在日常生活的重要性。我們會用簡圖記錄靈感、腦力激盪，而這套工具正是要複製這個思維過程。」

特別的是，SketchAgent不需透過傳統訓練資料學習繪畫。研究團隊開發了獨特的「素描語言」，將影象轉換為網格上的編號筆劃序列。例如教AI畫房子時，會標註第七筆是標記為「大門」的長方形，這種結構化教學讓系統能舉一反三理解新概念。

相較於DALL-E 3等文生圖模型雖能產生精美影象，卻缺乏人類素描中「邊畫邊構思」的創作特質。SketchAgent則模仿人類一筆一畫的過程，使作品更自然流暢。更突破的是，它直接運用預訓練語言模型的知識庫，不需受限於有限的手繪資料集。

在協作測試中，研究人員發現AI的筆劃對完成作品至關重要。例如移除AI繪製的船桅後，整幅帆船素描就變得難以辨識。而在模型比較實驗中，Claude 3.5 Sonnet產生的向量圖形最接近人類繪畫風格，表現優於GPT-4o等競爭模型。

共同作者塔瑪·羅特·沙哈姆強調：「這項技術將改變人機互動模式。當AI能理解素描等多元表達方式，使用者就能用更直覺的形式溝通，大幅提升互動體驗。」

當然，現階段SketchAgent仍只能繪製簡易線條圖，面對Logo設計、複雜生物或特定人物時表現有限。有時協作中還會出現「雙頭兔子」這類誤解，研究團隊認為這與AI的「思維鏈」分步推理特性有關。未來他們計劃透過擴散模型生成合成資料來改進，並最佳化人機互動介面。

儘管尚有改進空間，這項突破已預示AI繪圖的新可能——不再是魔術般瞬間產出完美影象，而是像人類一樣，透過筆劃間的思考與協作，逐步完成充滿創意的視覺表達。

[end]