|
||||
|
||||
■ 本報記者 皮磊 眼下,數字技術、人工智能、AI已成為社會發(fā)展熱詞。今年的政府工作報告中提到,深化大數據、人工智能等研發(fā)應用,開展“人工智能+”行動。這是“人工智能+”首次被寫入政府工作報告,為各行各業(yè)發(fā)展釋放了積極的信號。在公益慈善領域,前沿技術的發(fā)展也促進了行業(yè)不斷升級迭代,新的公益項目、公益產品不斷涌現。 2022年3月,字節(jié)跳動向北京大學教育基金會進行捐贈,支持“北京大學—字節(jié)跳動數字人文開放實驗室”。字節(jié)跳動依托在OCR(光學字符識別)、自然語言處理、知識圖譜等技術領域的經驗積累,以及互聯網產品設計與研發(fā)優(yōu)勢,探索借助人工智能提高古籍修復、整理工作效率。當年10月,由該實驗室研發(fā)的古籍數字化平臺——“識典古籍”上線,讓古籍保護與傳承工作步入“快車道”,更多中華文化瑰寶得以進入大眾視野。 有報道指出,“識典古籍”平臺不僅是一個公益性數字化平臺,對于古籍愛好者尤其是專業(yè)研究人員來說,其更是一座橫跨千年歷史的知識寶庫。目前,該平臺對社會免費開放的古籍超過了2900部,其提供的分詞檢索、圖文對照、字典釋義等功能,讓普通人也能輕松閱讀古籍文獻。 不過,隨著該平臺上線的古籍數量越來越多,平臺功能和相關工具不斷優(yōu)化,如何讓用戶學會使用越來越多的工具,更加高效便捷地找到自己需要的資料來源,成為一個新的問題。 記者從字節(jié)跳動方面了解到,為進一步解決“找不到”“不會用”等問題,“識典古籍”平臺于近期上線古籍智能助手。簡單來說,通過古籍智能助手,用戶可以用平常說話的方式與正在閱讀的古籍進行對話。當遇到不懂的古文時,用戶可以點擊“問AI”,就能夠看到這句話的翻譯,還可以讓智能助手總結古文的主要內容,提出可供參考的研究問題。 這也是大語言模型技術在古籍數字化以及公益領域的一個創(chuàng)新案例。 據“識典古籍”產品負責人王宇介紹,古籍保護與文化傳承一直是字節(jié)跳動公益重點關注的領域,“識典古籍”平臺一方面是一個面向社會公眾的數字化古籍閱讀工具,同時也是一個開放的古籍數字化智能整理平臺?!皬?022年上線到現在,我們根據用戶的反饋對平臺功能進行了一系列優(yōu)化。我們也在探索一些更高效的方式,開發(fā)更好的產品和工具,幫助大家更好地閱讀和理解古籍。此次依托大語言模型技術,上線古籍智能助手,也是我們在這一領域的思考和創(chuàng)新?!?/p> 此前爆火的ChatGPT讓很多人第一次聽說了“大語言模型”這個專業(yè)術語。簡單來說,一些使用了大模型技術的產品,能和用戶自然地對話和交流。不過,將該技術應用在古籍檢索及閱讀領域,目前并沒有先例。加之古籍內容的特殊性和專業(yè)性,如何更好地利用這一技術,使其能夠準確識別用戶意圖并給出讓人滿意的結果,仍是不小的挑戰(zhàn)。 具體而言,在“識典古籍”平臺,當用戶輸入問題或者選中古籍中的文字請AI進行解釋時,古籍智能助手首先會對用戶提出的問題進行意圖判斷;如果回答這個問題需要利用字典中的條目或者古籍數據庫搜索結果作為上下文,智能助手會獲取相關的上下文,然后通過大語言模型綜合總結并給出回復。經過前期測試,其準確率也已達到了較高的水平。 不過,由于目前沒有可供參考的應用案例,為了讓大模型能夠準確地回答用戶的問題,“識典古籍”研發(fā)團隊付出了不少努力。為了讓大模型在回答問題時采用專業(yè)的參考來源,古籍智能助手采用了檢索增強生成(RAG)技術,即通過檢索不同資料來源,獲得所需上下文,以此增強大模型生成答案的質量。 此外,王宇介紹說,根據用戶意圖如何判斷該使用什么樣的檢索工具,如何優(yōu)化提供上下文的內容,團隊也花了不少精力。比如,從古籍數據庫里檢索古籍資料,為了讓用戶獲得的上下文更加相關,在關鍵詞檢索之外,研發(fā)團隊也開發(fā)了語義檢索,讓智能助手在回答時能參考到文字不一樣但含義相關的相關古籍段落。研發(fā)團隊也有意在答案后加上原文鏈接,在界面上也會提示“回答由人工智能生成,請注意查證”,方便用戶去查證原文并做出自己的判斷。 借助新技術將復雜的事情簡單化,是研發(fā)團隊的方向和目標。 據不完全統(tǒng)計,我國現存古籍約有20萬種,其中有數字化掃描影像的有8萬種,實現文本數字化的僅有3-4萬種左右。由于古籍種類、數量繁雜,保存程度不一,加之從事古籍修復的專業(yè)人員數量不足、資金匱乏等多重原因,古籍資源的挖掘傳承保護工作仍面臨巨大壓力。 記者了解到,目前“識典古籍”除了網頁版,今日頭條產品側還設置了“古籍”頻道。由于公益項目的延展性,在字節(jié)跳動內部,有很多不同業(yè)務板塊的員工參與其中,為此還專門成立了一個古籍保護公益社團。這種開放、協作的氛圍,也是平臺在兩年時間內實現上線并不斷優(yōu)化的基礎。 “古籍智能助手的定位是提升查閱古籍的效率,它代替不了專業(yè)的學術判斷和閱讀積累,但我們希望它能為使用古籍及閱讀工具的人節(jié)約時間、開拓新的思路?!蓖跤畋硎?,因為是一個創(chuàng)新性功能,古籍智能助手目前還有一定的實驗性,但字節(jié)跳動決定將其免費開放給公眾使用,一方面是希望用戶能夠多使用、多反饋,為后續(xù)優(yōu)化提供更多建議,另一方面也是希望通過實踐和應用來打磨出更好的產品。 2022年“識典古籍”平臺剛剛上線時,為自己設定了一個三年目標:未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,屆時將全部免費開放。對于項目團隊來說,距離目標的實現仍有一定的差距。 記者獲悉,除了配套開展多種形式的宣傳倡議活動,下一步,“識典古籍”研發(fā)團隊將有計劃地為古籍智能助手開發(fā)更多的工具。除此之外,該團隊還將繼續(xù)提升AI在古籍整理等領域的應用,希望能夠整理和校對更多的古籍,并將其數字化,促進古籍資源的高效利用,讓平臺在文化傳承中發(fā)揮更大的作用。 |