主人在调教室性调教女仆游戏_日韩欧美高清一区_日本在线视_日日草视频_欧美成人se01短视频在线看_日本网站在线看

首頁 > 實用技巧 > 干貨教程 > 漢語是不是AI研究的優(yōu)勢工具?復(fù)旦教授給出答案

漢語是不是AI研究的優(yōu)勢工具?復(fù)旦教授給出答案

發(fā)布時間:2025-06-14 17:08:35

20世紀(jì)50年代,現(xiàn)代語言學(xué)的重要理論之一——依存語法誕生,其核心思想是通過分析詞與詞之間的依存關(guān)系(如主謂、動賓、修飾等)來揭示句子的結(jié)構(gòu)模式和語義聯(lián)系。

70多年后的今天,它從冷門變成“顯學(xué)”,為人工智能(AI)處理自然語言提供了清晰的理論框架和實踐工具。隨著AI技術(shù)向“認(rèn)知智能”發(fā)展,依存語法與深度學(xué)習(xí)的結(jié)合(如將語言學(xué)先驗知識融入神經(jīng)網(wǎng)絡(luò))成為提升AI語言理解能力的重要方向。

前不久加盟復(fù)旦大學(xué)的國際知名計量語言學(xué)和依存語法研究專家劉海濤,憑借在計量依存語法等領(lǐng)域的研究,連續(xù)11年入選愛思唯爾“中國高被引學(xué)者”榜單。

在“教機(jī)器說人話”的人工智能發(fā)展歷程中,文科能夠助力幾何?漢語是不是AI研究的優(yōu)勢語言?初夏的一個上午,記者走進(jìn)復(fù)旦大學(xué)外文樓5樓辦公室,專訪了身穿紅藍(lán)格子襯衫的劉海濤教授。

作為一個母語為漢語的中國人,我們很愿意聽到對它的贊美。但作為觀察人類語言系統(tǒng)規(guī)律的研究者,可能要更謹(jǐn)慎、客觀地來看待。

周末周刊:您是一位語言學(xué)研究專家,研究內(nèi)容是人類語言中關(guān)于句法的普遍規(guī)律,而這也可能成為開啟人工智能的鑰匙之一。DeepSeek崛起之后,有一種聲音認(rèn)為,漢語在研究人工智能的領(lǐng)域中是一種優(yōu)勢工具,能否站在語言學(xué)家的立場談?wù)勀目捶ǎ?/p>

劉海濤:這個問題好像給我挖了個“坑”。我也注意到這個說法。作為一個母語為漢語的中國人,我們很愿意聽到對它的贊美。但作為觀察人類語言系統(tǒng)規(guī)律的研究者,可能要更謹(jǐn)慎、客觀地來看待。

我查了一下這個說法的來源和根據(jù)。有趣的是,檢索到的很多相關(guān)信息,在很不起眼的地方都標(biāo)注著“內(nèi)容由AI生成”。

他們的主要依據(jù)有三個:一是漢語相比其他拼音文字來說,文字比較獨特。二是漢語是孤立語(特點是詞的形態(tài)不會隨詞的語法功能變化)。三是漢語文本的信息熵大,即表達(dá)同樣內(nèi)容時,采用漢字的文本最短。

從語言科學(xué)的角度來講,語言和文字不能混為一談,字和詞也不是一回事。從類型學(xué)的角度來講,漢語也不是唯一的孤立語。作為孤立語言來講,它們既有優(yōu)點也有缺點,和其他類型的語言一樣。

能不能揚(yáng)長避短,充分利用這些漢語的優(yōu)勢構(gòu)造出一個更好的我們所希望的人工智能,可能是更值得關(guān)注的。以我目前對于大模型的粗淺了解來看,目前廣泛采用的大數(shù)據(jù)+深度學(xué)習(xí)的AI技術(shù)還難以充分利用以上三個特點。

而且,根據(jù)團(tuán)隊這些年來基于幾十種語言真實語料進(jìn)行的語言規(guī)律的發(fā)現(xiàn)和研究,我們看到漢語與人類其他語言之間的共性是多于個性的。因為人類語言的普遍性是由人的生物意義的普遍性來決定的。

不過,在漢語與人類其他語言的比較過程中,我們確實發(fā)現(xiàn)了漢語的一個特殊之處,這也是我們在這個方向堅持研究的驅(qū)動力之一。

哈德森開玩笑說:你把這個搞清楚了,肯定就名揚(yáng)全球了。我說我不是很想名揚(yáng)全球,但這個事情確實值得去搞清楚。

周末周刊:您所說的漢語的特殊之處是什么?

劉海濤:這可能要從依存語法中的一些基本概念說起。依存語法是建立在依存關(guān)系基礎(chǔ)上的一個現(xiàn)代語法理論。這個理論的一個核心想法是,句子中的詞不是孤立的,它和這個句子中的其他詞是有關(guān)系的,我們把這種關(guān)系叫作詞之間的依存關(guān)系。

比如,在“我吃了一個紅蘋果”這個句子中,“我”和“吃”之間有一個主語關(guān)系,“吃”和“蘋果”之間有一個賓語關(guān)系。通過這樣一些關(guān)系,我們就能把一個句子連成一個整體。

這種聯(lián)系對于我們理解和生成語言的意義何在呢?依存語法的奠基人、法國語言學(xué)家泰尼埃講過這樣一句話:“造句就是在一群不定型的詞之間建立起一個整體,成為一個整體的各種依存關(guān)系,從而賦予這一堆不定型的詞以生命;反之,理解一個句子,就是要找出連接句子中各個不同詞之間的所有依存關(guān)系。”

顯然,人的語感單憑一個句子是形成不了的,而是需要許許多多的句子。計算機(jī)也是如此。為了發(fā)現(xiàn)人類使用語言的句法規(guī)律,我們需要千千萬萬個經(jīng)過句法分析的句子。對一種語言中大量真實話語進(jìn)行依存語法標(biāo)注后的數(shù)據(jù),就形成了句法樹庫。樹庫不僅是發(fā)現(xiàn)句法規(guī)律的重要資源,也是機(jī)器學(xué)習(xí)人類語言知識的寶貴源泉,而樹庫標(biāo)注是人類語言知識外化的過程。

樹庫的重要性也可從普遍依存關(guān)系(Universal Dependencies)項目的發(fā)展看出,該項目可能是目前人工智能領(lǐng)域為數(shù)不多的需要語言學(xué)家參與的項目。截至2025年5月,該項目已有179種語言的319個可供人工智能領(lǐng)域使用的依存句法標(biāo)注語料庫(樹庫)。

有了樹庫,就可以對人類語言進(jìn)行多層次多角度的分析研究,這種數(shù)據(jù)驅(qū)動的方法所發(fā)現(xiàn)的語言的概率性規(guī)律,有益于構(gòu)建可解釋的AI,因為大語言模型AI的本質(zhì)差不多就是“建模自然語言的概率分布”。在我們研究的幾十種語言樹庫里,小的大概有兩三萬詞,大的有幾百萬詞,如此不帶感情地把人類的各種語言都抽象出來,就可以形成人類語言的趨勢、規(guī)律和模式。

這種“抽象”,可以讓我們更清晰地看到一種語言的“依存距離”。依存距離指句子中兩個有句法關(guān)系的詞之間的線性距離,其大小取決于間隔詞的數(shù)量。上面這個例句中,動詞 “吃”和賓語“蘋果”之間間隔了“了”“一”“個”以及“紅”這4個詞,因此,它們之間的依存距離是4。

依存距離看起來簡單,但實際上,涉及很多不簡單的東西。比如,我們在說一句話的時候,說出來的詞,怎么排序呢?如果語義密切相關(guān)的詞相隔太遠(yuǎn),這個詞就很難找到和它語義直接相關(guān)的那個詞,所以兩個有關(guān)系的詞一旦在句子中距離較大,比如超過四五個詞,不僅你自己記不住,聽話的人也難以理解。因此,人在說話時,由于受人類記憶容量的約束,會遵循一種“依存距離最小化”的規(guī)律。

所謂依存距離最小化就是指,在造一個句子的時候,我們把句法或語義上相關(guān)的詞盡可能地靠得近一點,從而使它們之間的“依存距離”盡可能短。

大概在20多年前,我用20種語言的依存樹庫,發(fā)現(xiàn)了“依存距離最小化”可能是人類語言的一種普遍規(guī)律。有趣的是,在這20種語言中,漢語的依存距離最大。

當(dāng)我把這個結(jié)果告訴同樣是依存語法研究的專家、英國的哈德森(Hudson)教授時,他很激動。在我寫的《依存語法的理論與實踐》一書的序言中,他這樣寫道:“劉海濤的研究發(fā)現(xiàn)不同語言之間的依存距離是有明顯差異的,這是一個極為重要的發(fā)現(xiàn),應(yīng)當(dāng)激發(fā)更多的后續(xù)研究。為什么兩種語言的工作記憶容量會如此不同?是不是因為漢語詞語更容易記憶,所以以此可以激活更多的詞語,或者因為說中國話的人有更大的工作記憶容量?”

后來哈德森開玩笑說:你把這個搞清楚了,肯定就名揚(yáng)全球了。我說我不是很想名揚(yáng)全球,但這個事情確實值得去搞清楚。

一系列后續(xù)研究表明,哈德森的這些問題不好回答,目前可以肯定的是,漢語的依存距離無論換何種語料都是大于英語的,盡管我們也發(fā)現(xiàn)了一些影響依存距離的因素,如漢語的虛詞會增加依存距離等,但要回答“講漢語的人是不是工作記憶就大”這類涉及語言會影響認(rèn)知結(jié)構(gòu)的重大問題,還需要更多學(xué)科的人來合作探究。

這個例子說明,有時候,我們從一個小切口入手,能夠引出一些意想不到的東西,而這些東西可能比你原先想要研究的東西更重要。這可能也是科學(xué)研究的樂趣之一。

數(shù)據(jù)與智能的關(guān)系對于傳統(tǒng)語言學(xué)而言,是非常陌生的一個話題。事實上,正是這種陌生使主流語言學(xué)與這個時代漸行漸遠(yuǎn)。

周末周刊:在您看來,人工智能中的“語言學(xué)元素”約占多少?語言學(xué)中的“AI元素”又是如何產(chǎn)生的?

劉海濤:毫無疑問,人工智能是一個涉及多種學(xué)科的交叉學(xué)科。在一本名為《大數(shù)據(jù)入門》的書中,提到了有助于構(gòu)建AI的學(xué)科,其中包括計算機(jī)、數(shù)學(xué)、醫(yī)學(xué)、心理學(xué)、工程和語言學(xué)。

應(yīng)該說,在目前的數(shù)基智能中,在這幾個學(xué)科中,起主要作用的是計算機(jī)、工程和數(shù)學(xué)。有一些學(xué)科,比如語言學(xué),更多的是一種不提似乎說不過去的東西,是繞不開的。因為語言不僅是智能的窗口,也是這次數(shù)智革命的引爆點和人工智能破解人類軟件系統(tǒng)的切入點。

但傳統(tǒng)意義的語言學(xué)對數(shù)基智能的價值和意義很小,因為數(shù)據(jù)與智能的關(guān)系對于傳統(tǒng)語言學(xué)而言,是非常陌生的一個話題。事實上,正是這種陌生使主流語言學(xué)與這個時代漸行漸遠(yuǎn),也就有了“解雇一個語言學(xué)家,系統(tǒng)性能會更好一些”的說法。當(dāng)然,也有諸如“每當(dāng)你雇傭一位受過良好訓(xùn)練的語言學(xué)家時,你的樹庫就會更好一些”等更積極的說法。

換言之,人工智能一定是需要語言學(xué)的,但需要的可能不是脫離人類日常語言的語言學(xué),而是能從大量日常語言材料中發(fā)現(xiàn)語言系統(tǒng)運(yùn)作的統(tǒng)計規(guī)律的語言學(xué),因為語言是一個由人驅(qū)動的概率系統(tǒng)。

總的說來,數(shù)據(jù)、概率、統(tǒng)計、系統(tǒng)、規(guī)律等可能是數(shù)智時代需要的“AI元素”。這樣一來,語言學(xué)家需要盡快在自己的研究中引入這些“元素”。與其他語言學(xué)理論語法相比,依存語法從一開始就比較重視真實的語言、人們在日常生活中使用的語言。這可能也是它能夠在數(shù)智時代煥發(fā)青春的一個主要原因,因為人工智能要面對的是人類使用的語言,而不是語言研究者們?yōu)榱蓑炞C自己的假說或理論造出來的各種句子。

我關(guān)于“依存距離最小化”研究的文章,由于所采用的數(shù)據(jù)驅(qū)動的方法與當(dāng)時認(rèn)知科學(xué)習(xí)慣的方法有很大不同,因此發(fā)表之路很艱難,最終發(fā)表在2008年的《Journal of Cognitive Science(認(rèn)知科學(xué)雜志)》上,如今已成為該刊被引用最多的文章。這說明,AI需要語言學(xué),但需要的是與時俱進(jìn)的語言學(xué),需要的是能反映人類語言系統(tǒng)真實運(yùn)作規(guī)律的語言學(xué)。

干貨教程更多>>

消失的縣城手機(jī)一條街 羽衣甘藍(lán)沒想到自己因奶茶火了 批發(fā)價猛漲4倍! 帶上一盒死蟋蟀,00后女子到上海衣食住行全靠白嫖,樣樣找茬賴賬求免單 雄鹿裁掉利拉德!4年1.07億簽下特納!字母哥表達(dá)不滿 孫女中考744分被奶奶狂親 18歲高中生當(dāng)上CEO 給母校捐了10萬元 陳冠希現(xiàn)身溫網(wǎng)現(xiàn)場,為王欣瑜助威,網(wǎng)友:這是追星還是捧新人? 南京地鐵新規(guī)正式施行,車廂內(nèi)喝水不再罰款 高招會人滿為患,幾所大學(xué)卻無人問津,網(wǎng)友:沒600分不好意思問 楊冪工作室緊急換話題,炒作白襯衫造型,這時知道啥是正常審美了 《家有兒女》小雨變“暴雨”,近照曝光:被指撞臉賈冰和劉歡,“不太能認(rèn)出來” 20年前的高考成績可查!多地開放往屆高考成績查詢功能 河南27歲\"賣菜西施\"走紅:父母嚴(yán)重智力殘缺 15歲輟學(xué)打工 科技股重挫拖累大盤,道指逆勢收漲,特斯拉跌超5% 小米汽車辟謠提前交付:謹(jǐn)防詐騙 《以法之名》全村排隊與洪亮合影是張譯親身經(jīng)歷,怪不得演這么好 套現(xiàn)超50億元,貝索斯年內(nèi)首次拋售亞馬遜股票 祝賀!王欣瑜晉級溫網(wǎng)女單第二輪 貓眼就誤放周杰倫演唱會回流票致歉 皇馬1球戰(zhàn)勝尤文圖斯晉級世俱杯八強(qiáng) 官宣:楊瀚森正式與開拓者完成簽約 網(wǎng)紅李福貴自曝19歲結(jié)婚一年后分開 胡一天近2年沒進(jìn)組被質(zhì)疑退圈,本人發(fā)工作照回應(yīng),工作室公布7月行程依舊無拍戲安排 “古早”萬能充電器仍在熱賣!商家:每天賣很多,可充老人機(jī)、相機(jī)電池 話題 | 雄鹿裁利拉德引特納就能留住字母哥? 宋佳獲白玉蘭獎視后,高興壞了,為慶祝喝酒喝高了! 鄭欽文回應(yīng)溫網(wǎng)出局:注意力很難集中,高溫不是輸球理由 和劉亦菲、童瑤搭檔沒紅,她靠自己火出圈了 保時捷女銷冠又成銷冠:半年賣近百臺 本人:有望打破紀(jì)錄 陳赫回應(yīng)鹿晗暴瘦:不要擔(dān)心,目前狀態(tài)極佳每天運(yùn)動
主站蜘蛛池模板: 国产精品视频网 | 91免费在线看 | 欧美日韩亚洲成人 | 成人免费福利 | 黄色小视频网 | 国产日产久久高清欧美一区 | 欧美一区二区视频在线 | 日韩精品视频免费观看 | 一级毛片视频 | 日韩在线观看av | 成人在线免费电影 | 国产永久免费 | 青青久久av| 欧美色综合天天久久综合精品 | 国产综合亚洲精品一区二 | 三级黄色网址 | 亚洲日本va中文字幕久久 | 国产精品不卡一区二区三区 | 亚洲欧洲成人av每日更新 | 国产不卡在线视频 | 亚洲一区二区免费视频 | 经典三级在线 | 亚洲免费网站 | 九九久久精品 | 丁香婷婷综合网 | 国产在线精品视频 | 色婷婷六月 | 日韩一级片一区二区 | 99国产精品电影 | 日本免费网 | 久久久久久91| 国产麻豆乱码精品一区二区三区 | 成人国产精品一区二区免费麻豆 | 一二区视频 | 日韩在线免费视频 | 色综合色综合网色综合 | 日韩精品久久久久久 | 一区二区三区四区在线播放 | 搞黄视频在线看 | 久久精品久久综合 | 色婷婷综合久久久久中文一区二区 |