生成式人工智能的不確定性會給軟件開發(fā)帶來麻煩
神譯局是36氪旗下編譯團(tuán)隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風(fēng)向。
編者按:鑒于人工智能寫代碼已經(jīng)非常溜了,你很容易會產(chǎn)生這樣的想法,既然臟累活都是人工智能模型干的,那只關(guān)注市場需求和商業(yè)模式就行了。錯,生成式人工智能天生具有不確定性,這個坑可得注意了。文章來自編譯。
在我們這里,做的每件事背后都有一個基本循環(huán):寫作->開發(fā)->重復(fù)。開發(fā)會讓你接觸到以前隱藏的世界。寫作能幫你找到一種精確、簡潔的方式來表達(dá)你知道什么以及為什么。這個循環(huán)未必是線性的——有時候我們會從開發(fā)開始,然后轉(zhuǎn)向?qū)懽?,有時候我們會先從寫作開始——但我們認(rèn)為,這種做法確實帶來了一種特別有效的創(chuàng)造新事物的手段。
本文深入闡述了用AI開發(fā)產(chǎn)品的方式,為什么新的AI產(chǎn)品的關(guān)鍵風(fēng)險是可行性,以及如何通過快速實驗來應(yīng)對這些風(fēng)險。
當(dāng)我開發(fā)第一個AI項目時,所采用的方法跟過去開發(fā)產(chǎn)品是一樣的:明確一個問題,規(guī)劃解決方案,構(gòu)建最小可行產(chǎn)品(MVP),然后進(jìn)行迭代。這是一種相當(dāng)直白的軟件驅(qū)動法:快速開發(fā),測試,學(xué)習(xí),然后改進(jìn)。
但是,這種方法并沒有奏效——于是我自問:用AI開發(fā)跟傳統(tǒng)軟件開發(fā)究竟有何不同呢?
我加入公司的時候是懷揣著一個很有野心的目標(biāo)的:在三個月內(nèi)打造九款產(chǎn)品——也就是每10天打造一個項目。我的第一個項目Mindtune是傳統(tǒng)廣告技術(shù)和社交媒體算法的替代品,用AI驅(qū)動的。我的假設(shè)是,大家對社交媒體推送那些公式化的、冷漠的內(nèi)容已經(jīng)厭倦了,而AI可以提供更相關(guān)、更個性化體驗的機(jī)會。
我做Mindtune的時候就考慮到了需求驗證,因為傳統(tǒng)軟件項目這一塊往往做不好。你得做出登錄頁面、跟潛在客戶交流、分析競爭對手,然后才會投入資源打造產(chǎn)品。創(chuàng)始人長期以來一直都是按這個模板走的,就好象是一種條件反射。我們未必會停下來問問自己打造這個產(chǎn)品是否有可能?
用人工智能開發(fā)需要我們打破慣例,用不同的方式去做。人工智能產(chǎn)品帶來了一系列的獨特風(fēng)險,如果你不了解這些風(fēng)險,就肯定會犯錯誤。
在做Mindtune的過程中,我識別出了三種風(fēng)險模式,這些模式幫助我準(zhǔn)確了解自己承擔(dān)的風(fēng)險類型,更重要的是,讓我了解是什么決定了它是否成功。我會深入探討其中的每一種風(fēng)險、它們之間的關(guān)系以及人工智能是如何顛覆了傳統(tǒng)的初創(chuàng)企業(yè)“風(fēng)險鏈”的。我希望創(chuàng)始人和開發(fā)者能夠更好地了解自己想法存在什么風(fēng)險,以及如何最好地化解這些風(fēng)險,從而避免在創(chuàng)意迷宮中走錯路。
▍初創(chuàng)企業(yè)風(fēng)險鏈
任何初創(chuàng)企業(yè)都會涉及到三種風(fēng)險:可行性(feasibility)、價值以及生存力(viability)。
1.可行性風(fēng)險:是不是確實可以開發(fā)出來?這屬于典型的工程挑戰(zhàn)。比方說,SpaceX在開發(fā)可重復(fù)使用的自著陸火箭時就面臨可行性風(fēng)險。
2.價值風(fēng)險:用戶從中能否獲得價值?這是產(chǎn)品市場匹配的核心。Airbnb就是價值風(fēng)險的一個很好例子——大多數(shù)人最初認(rèn)為這個想法很荒謬,認(rèn)為沒有人愿意住在陌生人的家里。
3.生存風(fēng)險:我們自己能否從中獲取價值?眾所周知,F(xiàn)acebook與Google早期就面臨生存風(fēng)險。他們知道自己的產(chǎn)品深受人們喜愛,但需要時間和實驗才能找到可持續(xù)的商業(yè)模式。
這三種風(fēng)險的相互作用方式至關(guān)重要。可以把它們看作一個鏈條:可行性→價值→生存力。如果產(chǎn)品技術(shù)上不可行,那其他兩種風(fēng)險就不重要了。如果可行但沒價值,你又會陷入困境。而就算用戶喜歡你的產(chǎn)品,你還是得想辦法從中賺錢。
這三種風(fēng)險可不是按順序出現(xiàn)的;每種風(fēng)險的大小都會因產(chǎn)品類型而異。
傳統(tǒng)軟件的可行性風(fēng)險一般都不高。Facebook的第一版開發(fā)并未涉及任何突破性的技術(shù)飛躍。馬克·扎克伯格是在哈佛的宿舍里寫出代碼的。真正的挑戰(zhàn)在于價值和生存力風(fēng)險:大家會用嗎?它能否成為一項盈利業(yè)務(wù)?
相比之下,深度科技——基因療法、聚變反應(yīng)堆和自動化通用智能等項目,它們是將全新的技術(shù)推向市場。這類創(chuàng)新有明確的需求和商業(yè)模式(比方說,一種治療現(xiàn)有疾病的藥物),因此價值和生存力風(fēng)險較低。其風(fēng)險在于可行性:深度科技初創(chuàng)企業(yè)要冒著風(fēng)險,打造一些他們不能100%確定是否可行的東西。
我以開始覺得Mindtune可能會像軟件產(chǎn)品,可行性風(fēng)險較低,價值和生存力階段的障礙會大一些。但從我的經(jīng)驗來看,人工智能會給可行性和價值帶來獨特挑戰(zhàn),需要新的辦法應(yīng)對。
首先,風(fēng)險模式不一樣。人工智能初創(chuàng)企業(yè)主要分為兩類:一種是深度人工智能初創(chuàng)企業(yè),一種是應(yīng)用人工智能初創(chuàng)企業(yè)。
深度人工智能初創(chuàng)企業(yè)做的是基礎(chǔ)模型或硬件,比方說Groq的芯片與Figure的人形機(jī)器人。其最大的風(fēng)險是可行性。這些公司通常從事前沿研究,其所追求的突破有無可能實現(xiàn)未必總是很清楚。這屬于高風(fēng)險、高回報的領(lǐng)域。
Sparkle和Lex等應(yīng)用型人工智能初創(chuàng)企業(yè)則是利用OpenAI等公司的現(xiàn)有模型和API。其關(guān)鍵風(fēng)險在于價值。應(yīng)用型人工智能公司需要證明自己所使用的AI能創(chuàng)造價值,而且比非AI解決方案更好、更快或更高效。此外這類企業(yè)還存在可行性風(fēng)險:AI模型未必不總能按照預(yù)期的方式運行,需要更多的思考和改進(jìn)才能獲得良好結(jié)果。
Mindtune是一款應(yīng)用型人工智能產(chǎn)品:它利用了已有的人工智能模型來提供更個性化的社交媒體信息流。我相信它的價值——用戶對不同的社交媒體體驗是歡迎的——而且這種商業(yè)模式已經(jīng)得到現(xiàn)有產(chǎn)品的驗證。但我現(xiàn)在越想越覺得我錯過了一個重要步驟:那就是沒有把這項技術(shù)的可行性考慮清楚。我一度認(rèn)為,就因為我可以設(shè)計人工智能模型來提供結(jié)果,所以就等同于可始終如一地獲得正確結(jié)果。我低估了用人工智能來開發(fā)的可行性風(fēng)險,甚至連應(yīng)用人工智能的可行性風(fēng)險也沒考慮到。
▍人工智能獨特的可行性挑戰(zhàn)
傳統(tǒng)軟件從根本上來說是確定性的:如果邏輯和參數(shù)設(shè)置正確,代碼就會產(chǎn)生可預(yù)測的輸出。
生成式人工智能有著本質(zhì)上的隨機(jī)性:結(jié)果未必是一致的,輸出質(zhì)量可能會因輸入數(shù)據(jù)和模型本身的細(xì)微差別而波動。所以你得不斷測試,好確定結(jié)果是否可靠,且對用戶來說足夠有價值。因此,傳統(tǒng)的工程直覺并不完全適用。
慢慢地,你會意識到人工智能模型能做什么、不能做什么,但這些直覺沒有像對傳統(tǒng)軟件的直覺那么準(zhǔn)確。就算是經(jīng)驗豐富的人工智能工程師也會遇到意想不到的結(jié)果。技術(shù)可行性風(fēng)險比傳統(tǒng)軟件更大,因為模型在測試過程中可能會給你帶來驚喜,或者驚嚇。但這種風(fēng)險不像深度科技那樣令人生畏,深度科技可能需要基礎(chǔ)科學(xué)上的突破才能向前發(fā)展。相反,生成式人工智能的風(fēng)險介于軟件和深度科技之間——可行但不可預(yù)測。
由于這種不可預(yù)測性,跟生成式人工智能打交道需要更多的實驗性方法。傳統(tǒng)的軟件開發(fā),精心打造的第一版可能需要一些細(xì)微調(diào)整——改改按鈕位置,調(diào)整一下文案——而不是徹底改造??墒牵瑢τ谏墒饺斯ぶ悄軄碚f,第一版可能就需要不斷“調(diào)整”了——調(diào)整提示、合并其他數(shù)據(jù)、調(diào)整參數(shù)——為的是提高可靠性,增加用戶價值。而且每次調(diào)整都會讓結(jié)果略微有所改變,所以不斷迭代、不斷測試對于獲得期望的結(jié)果至關(guān)重要。
我在做Mindtune的時候,一開始先是開發(fā)軟件體驗(線框、登錄等),然后測試模型(GPT-4o、Claude 3.5 Sonnet、Gemini Pro 1.5和Llama 3.2),看看能不能給個性化廣告生成足夠好的內(nèi)容。這是錯的:評估模型輸出的質(zhì)量時我發(fā)現(xiàn)返回的結(jié)果不一致。其實我應(yīng)該先看看輸出的結(jié)果,然后再去折騰軟件組件,因為最終決定項目可行性的是底層模型的質(zhì)量,而不是位于其上的軟件。
這個迭代過程還需要用直覺去判斷什么時候該停止或做出調(diào)整。在發(fā)揮模型能力與識別模型上限之間有著微妙的平衡。有時候,盡管已經(jīng)反復(fù)調(diào)整過了,但輸出可能永遠(yuǎn)也無法達(dá)到可接受的質(zhì)量,這時候你就得放棄了?;蛘?,你可能會覺得再迭代幾次就可以得到想要的結(jié)果。
不過,這個階段也有玄機(jī)。有時候,應(yīng)用人工智能缺乏可行性表明這個項目不值得去做。但有時候,盡管可行性較低,可你仍確信是有價值的——因此不該放棄這個項目,而是應(yīng)該換個做法。你可能一開始以為自己做的是一個應(yīng)用人工智能項目,然后意識到自己其實在做的是深度人工智能,而且為了讓項目可行,你得進(jìn)入研究模式,去構(gòu)建自己的模型。這樣一來可行性風(fēng)險會增加,但項目價值也可能變大,因此更值得去做了。
▍了解風(fēng)險,找到方向
是,不管做什么你都得了解風(fēng)險狀況,但這一點對于人工智能來說尤其重要。如果你知道所需承擔(dān)風(fēng)險的性質(zhì),就可以確定該優(yōu)先分配資源和精力到什么地方。這還會迫使你在每個階段提出合適的問題:我們能做這個嗎?別人會用嗎?只有這兩個問題搞定后,才可以提出能否圍繞著它建立可持續(xù)發(fā)展的業(yè)務(wù)這個問題。
不管是應(yīng)用型還是深度型的人工智能初創(chuàng)企業(yè),其運營的復(fù)雜程度與傳統(tǒng)軟件產(chǎn)品都不一樣,需要更深入了解風(fēng)險的相關(guān)性,并愿意去探索未知領(lǐng)域。很多開發(fā)者以為用生成式人工智能API就可以消除技術(shù)風(fēng)險,但那只是多套了“一個殼”而已,別自欺欺人了。那怕使用的是現(xiàn)有模型,也需要進(jìn)行大量實驗。
低估這種技術(shù)風(fēng)險會導(dǎo)致浪費時間浪費資源。你很容易會產(chǎn)生這樣的想法,既然臟累活都是人工智能模型干的,那只關(guān)注市場需求和商業(yè)模式就行了。但實際上,確保人工智能按需要運行是重大挑戰(zhàn)之一。實現(xiàn)可靠和有價值的結(jié)果需要的不僅僅是接入API,還需要你不斷調(diào)整、測試和深入了解模型的行為。
本文來源:36氪
文章轉(zhuǎn)載于其他網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系我們及時刪除!