科技議題

首頁> 科技議題 - 智慧科技> 深度洞察生成式AI
深度洞察生成式AI Deep Point of View Generative AI
2023/01
LTIMindtree
https://www.ltimindtree.com/wp-content/uploads/2023/01/DeepPoV-Generative-AI.pdf?pdf=download
一、簡介
在這個人工智慧(Artificial Intelligence, AI)和深度類神經網路(Deep Neural Network)的時代,我們常使用電腦來執行瑣碎的雜務與需要零錯誤的工作。科學家們希望開發出能夠將人類從繁瑣的工作中解放出來的技術,這樣我們就可以將自己的生命投入更具創造力和想像力的工作,例如寫詩、繪畫、手工藝等。隨著功能強大的顯示卡的出現,我們的創造力變得數位化,從創建3D模型和數位攝影轉變為將它們轉換為數位藝術,並將其作為非同質化代幣(Non-fungible Token, NFT)出售。

Google推出了文字生成圖片AI工具Imagen,可隨機擷取一段文字並將其轉化為藝術,展示了生成式AI(Generative AI)在有限輸入下的強大功能,這項技術改變了圖片和語言建模的方式,這樣的生成式AI可以讀取和分析以文字、圖片、音訊或影片形式輸入的資料,並在保留原始資料本質的同時生成新的獨特媒體。

生成式AI技術採用無監督學習演算法,讓機器去識別輸入文字的模式,並利用它們來生成類似的內容。由於這些模型在訓練階段提供的參數有限,模型會對資料的獨特性和重要性進行解釋和判斷,因此這些生成式AI模型的結果不受基於人類經驗的偏見和心理歷程的影響。大規模採用生成式AI的一個主要缺點是成本,由於這項技術對處理能力的要求很高,也增加了部署和運營的成本。

二、常用技術
傳統上,AI技術用於資料清理、增強預測分析、壓縮資料以及降低多維資料,以便於其他演算法的處理。生成式模型非常擅於用少量的向量生成接近原始的素材,也讓我們能夠創造以前不存在的素材,無需授權即可使用。生成式AI技術被用來處理圖片、視覺資料或訊號處理應用程序,以下將依序介紹生成對抗網路(Generative Adversarial Networks, GAN)、基於變換(Transformer)的模型、自回歸卷積類神經網路(Autoregressive Convolutional Neural Networks, AR- CNNs)以及其他新興的技術。

GANs在2014年率先被使用,在起始階段已被用於透過模仿人類語音並進行聲音和唇部動作的配對,以獲得更好的翻譯效果,另外也解釋了視覺效果,區分了白天和黑夜,並定義了身體的舞蹈動作。GANs使用兩個相互競爭的類神經網路,一個生成器和一個鑑別器,生成器也稱為生成網路,是負責產生與原始資料類似的新資料或內容的類神經網路,鑑別器也稱為鑑別網路,是區分原始資料和生成資料的類神經網路,這兩個網路之間的競爭是發展GANs的演算法,直到GANs能夠創造與原始素材無法區分的資料。

基於Transformer架構的模型主要用於分析具有順序結構的資料,例如句子中單詞的順序。在現代,此技術已經成為自然語言建模的標準工具,其架構的核心是能夠處理輸入序列的不同位置,並且計算該序列的表徵(Representation)。

AR-CNNs是根據先前觀察到的序列結果來預測序列的未來結果。此模型探索隨時間變化的系統,並認為特定資料的似然性(Likelihood)僅基於之前發生的事情,也就是依靠於過去的時間序列資料,來建立可靠的新資料。

貝氏(Bayesian)網路是一種生成機率圖形模型,可以有效的表示一組隨機變數的聯合機率分佈,可應用於時間序列預測、異常檢測、推論等;高斯混合模型(Gaussian Mixture Model, GMM)是一種生成機率模型,通常用作生物識別系統中特徵機率分佈的參數模型,包括語音識別系統中與聲道相關的頻譜分量;隱馬爾可夫模型(Hidden Markov Model, HMM)是一種統計模型,可以依據內部不可直接被觀察到的因素,描述可被觀察事件的演變,已被廣泛應用於語音識別和數字通訊方面;潛在狄利克里分配(Latent Dirichlet Allocation, LDA)是一種生成機率模型,具有離散資料的集合,例如文字語料庫,這個模型適用於各種問題,包括協同過濾(Collaborative Filtering)和基於圖片內容的檢索;變分自編碼器 (Variational Autoencoders, VAEs)是複雜分佈的無監督學習最流行的方法之一,應用包括生成各種複雜的資料,包括手寫數字、人臉、CIFAR資料集圖片、從靜態圖片預測未來等等。

三、產業應用
在醫療保健方面,生成式AI有雙重用途。第一種用途為改善病患護理,例如透過將資料庫中健康器官的圖片與受損器官的圖片進行比較,來識別癌症的發展。第二種用途為加強病患資料隱私,側重於資料去識別化,有助於提高逆向過程的安全性,但仍然不是絕對安全的。

在生命科學方面,生成式AI可以幫助發現藥物。此技術可以產生用於治療各種疾病的藥物分子結構,當這種技術快速搜索物質的資料庫時,也可以促進對新疾病的治療。

媒體和娛樂方面的應用包含電影修復、動畫模型生成以及音訊合成。生成式AI可以將影片提高到4k及以上的畫質、減少噪音,並將黑白轉換為彩色;利用AI演算法在電腦遊戲中建構3D模型時,可大幅減少軟體開發人員的工作量跟開發時間;生成式AI還可以改善聲場,用於創建人聲效果、環境音效、配音和其他音訊效果,並應用於電影製作和電動遊戲,或是幫助公司和個人創作影片配音、音訊剪輯和旁白。

在零售和電子商務方面,AI演算法可能被訓練來評估來自消費者的文字訊息、音訊樣本和面部表情,從而深入了解客戶對產品的態度。其他生成式AI技術可以監控線上消費者的網路活動並評估使用者資料,以確定使用者體驗的愉悅程度或廣告或整體營銷活動的效果。

金融方面的應用包含詐欺檢測與趨勢評估。有多家企業已經在利用AI的強大功能,使用的自動化的反詐欺檢測方法幫助企業快速且準確的發現惡意和可疑行為。另外,機器學習和人工學習技術有助於預測未來,這些技術超越了傳統的趨勢計算分析,提供了有價值的見解。

資訊科技產業方面的應用包含軟體開發、資料合成與擴增、演算法發明。資訊科技專業人員現在無需完全編寫軟體,而是可以透過跟AI模型解釋需求後,快速的開發解決方案;生成式AI可以生成現實世界中不可用的資料,使用這些擴增的資料可提高資料質量,並用於測試新的機器學習演算法或深度學習架構;機器學習演算法的過程到目前為止主要是手工完成的,但在生成式AI的幫助下可以自動化。

生成式AI的其他用例包含通用人工智慧(Artificial General Intelligence, AGI)、NFT開發、文字、圖片和音樂的生成與人工創造力。AGI由能夠成功執行人類可以完成的任何智力作業的算法組成,生成式AI是建構AI的關鍵一步,可以設計出更好的機器學習演算法和其他形式的AI;NFT在當今數位化的社會中十分盛行,生成式AI技術在NFT藝術創作方面的能力無與倫比,可以為其創作者帶來大筆資金;AI文字生成器可以創建文章摘要、生成產品描述、撰寫部落格文章和改寫文字以防止抄襲,生成式AI也可用於創作圖片或音樂,甚至可以使用演算法來聆聽生成的音樂並用來改善現有的音樂體驗;人工創造力是生成式AI的一個子領域,其主要目標不是生成新資料,而是創造一些以前不存在的東西,例如在沒有人類輸入的情況下,生成抽像畫或小說故事。

四、面臨挑戰
實施生成式AI的一些潛在瓶頸和誤解包括安全性(Safety)、有限的能力、不可預測的結果、資料安全(Data Security)、巨量資料集需求,其中安全性是生成式AI實施過程中出現的最大問題,據報導,人們正在使用這項技術進行詐騙和網路盜竊等犯罪活動。

生成式AI演算法需要大量訓練和大量資料才能執行創作數位藝術等任務,儘管如此,生成的內容並不是100%新的。相反的,這些模型只能盡可能以最好的方式混合、匹配和排序數據。

結果的準確性是生成式AI技術的另一個挑戰。GAN的過程仍然不穩定且難以監管,有可能產生完全出乎意料的結果,採用某些模型時,較容易管理生成式AI的行為,但在繁重的應用程序中,它們會產生錯誤和意料之外的結果。

在資料安全方面,醫療保健和國防等垂直產業不願採用生成式AI,因為沒有相對應的參數可以用於資料監管,而且基於生成式AI的應用程序可能會產生資料安全和隱私問題。

最後,除非生成式AI演算法具有大量輸入內容,否則很難依賴它來有效的工作,這個程序只能在訓練資料設定的有限範圍內創造奇蹟,無法憑空生成新的文件或圖片。
邱珮芸
英文