首頁 | 版面導(dǎo)航 | 標題導(dǎo)航
   第01版:頭版
   第02版:新聞
   第03版:新聞
   第04版:新聞
   第05版:新聞
   第06版:新聞
   第07版:社會工作
   第08版:社會工作
   第09版:新聞
   第10版:新聞
   第11版:新聞
   第12版:公益資訊
   第13版:公益資訊
   第14版:公益資訊
   第15版:益言堂
   第16版:尋找慈善傳統(tǒng)
“心啟航”公益項目啟動 助力偏遠地區(qū)先心病患兒康復(fù)
北京大學(xué)攜字節(jié)跳動推出古籍?dāng)?shù)字化平臺 以公益方式推進古籍修復(fù)和活化
9月大額捐贈一覽:共出現(xiàn)117筆大額捐贈,“9·5”瀘定地震備受關(guān)注

版面目錄

第01版
頭版

第02版
新聞

第03版
新聞

第04版
新聞

第05版
新聞

第06版
新聞

第07版
社會工作

第08版
社會工作

第09版
新聞

第10版
新聞

第11版
新聞

第12版
公益資訊

第13版
公益資訊

第14版
公益資訊

第15版
益言堂

第16版
尋找慈善傳統(tǒng)

新聞內(nèi)容
2022年10月18日 星期二上一期下一期
北京大學(xué)攜字節(jié)跳動推出古籍?dāng)?shù)字化平臺 以公益方式推進古籍修復(fù)和活化

    “識典古籍”網(wǎng)頁截圖

    10月11日,由“北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室”研發(fā)的古籍?dāng)?shù)字化平臺“識典古籍”測試版正式上線。目前,該平臺涵蓋390部經(jīng)典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時將全部免費開放。

    據(jù)了解,上述實驗室系今年3月北京大學(xué)與字節(jié)跳動合作成立,將人工智能技術(shù)應(yīng)用于古籍資源的智能化整理?!白R典古籍”平臺上線,即是雙方合作的最新進展。

    當(dāng)前,中國的古籍?dāng)?shù)字化還處于初級階段,面臨技術(shù)難度高、資金缺口大、人才緊張等難點。相關(guān)資料顯示,現(xiàn)存的20多萬種古籍中,只有八萬種完成影像數(shù)字化掃描,近四萬種完成文本數(shù)字化。據(jù)專家統(tǒng)計,從1949年到2019年,國內(nèi)共修復(fù)整理出版古籍近3.8萬種,要將現(xiàn)存古籍全部修復(fù)整理出來,可能需要300年時間;若利用人工智能技術(shù)輔助修復(fù)整理,大概二三十年就能完成。

    記者了解到,早在2021年6月,字節(jié)跳動與中國文物保護基金會成立古籍保護專項基金,用于國家圖書館等機構(gòu)的古籍修復(fù)、人才培養(yǎng),目前國圖修復(fù)珍貴古籍五十多冊。2021年7月,字節(jié)跳動公益聯(lián)合中國文物保護基金會、國家圖書館發(fā)起“尋找古籍守護人”活動,招募推動古籍活化、助力傳統(tǒng)文化傳承的創(chuàng)作者。

    據(jù)“識典古籍”項目負責(zé)人介紹,上述平臺當(dāng)前主要使用了三種技術(shù),包括文字識別、自動標點和命名實體識別。文字識別技術(shù),是對古籍的影印版文字進行單個切分,再進行文字識別和順序識別。自動標點技術(shù),是通過序列標注的方式對古籍自動進行標點劃分。命名實體識別技術(shù),則是通過序列標注識別文本中的人名、地名、書籍、時間、官職等信息。據(jù)悉,目前行業(yè)內(nèi)OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。

    與其他古籍?dāng)?shù)字化平臺相比,“識典古籍”具有自身的特點,頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉(zhuǎn)換功能,便于專業(yè)研究人員、廣大古籍愛好者使用。同時,“識典古籍”書目將持續(xù)更新,后續(xù)將上線手機移動版。

    抖音集團副總裁李濤表示,此前團隊曾調(diào)研了其他機構(gòu)做的類似項目,發(fā)現(xiàn)大部分項目是出于商業(yè)目的考慮,從公益角度出發(fā)開展的項目比較少,這在一定程度上阻礙了古籍保護工作的快速推進?!耙虼?,我們選擇通過公益的方式開展項目,這也是我們同合作的機構(gòu)及專家一起討論的結(jié)果,大家覺得這樣推動項目開展可能更智能、更開放也更高效?!?/p>

    據(jù)介紹,未來,“識典古籍”將向全社會開放古籍閱讀檢索研究能力,還將實現(xiàn)全自動整理校對,更高效地實現(xiàn)存量古籍全部數(shù)字化。同時,平臺也鼓勵擁有文獻的學(xué)者自行上傳文獻,用戶甚至可參與再創(chuàng)作和再闡釋,助力古籍文化傳承和研究。

    一年多來,字節(jié)跳動在古籍修復(fù)和活化上也有所進展。此前,字節(jié)跳動資助國家圖書館定向修復(fù)的珍貴古籍104冊件,現(xiàn)已完成50多冊件,包括一批稀有的樣式雷圖檔。在活化方面,抖音平臺推出“尋找古籍守護人”計劃,旨在激勵創(chuàng)作者通過音樂、說書、繪畫、復(fù)原美食等形式,普及古籍知識、演繹古籍內(nèi)容,讓古籍鮮活起來。(皮磊)