Cambridge Quantum 推出全球首個量子自然語言處理工具包和資料庫

英國劍橋2021年10月14日 /美通社/ — Cambridge Quantum(「CQ」)今天宣佈發佈全球首個量子自然語言處理 (QNLP) 的工具包及資料庫 。工具包被稱為「lambeq」,根據已故的數學家和語言學家 Joachim Lambek 命名。

lambeq 是世界上首個支援 QNLP 將句子轉為量子電路的軟件工具包。它旨在加速實用、現實世界的 QNLP 應用程式的開發, 例如自動化對話、文本挖掘、語言翻譯、文本到語音、語言生成及生物資訊學。

lambeq 已在完全開放原始碼的基礎上發佈,以造福世界的量子運算社群和快速增長的量子運算研究員、開發員和用戶生態系統。lambeq 與全球領先且增長最快的量子軟件開發平台 TKET 保持無縫合作,而該平台也完全使用開放原始碼。此措舉為 QNLP 開發員提供最廣泛的量子電腦存取權限。

lambeq 的構思、設計及工程制定全賴由首席科學家 Bob Coecke 領導的 CQ 牛津量子運算研究團隊,並由資深科學家 Dimitrios Kartsaklis 博士擔任平台的首席架構師。此外,lambeq 以及更廣泛的 QNLP,都是為期十多年的研究項目成果。

Coecke 說:「我們的團隊一直參與基礎工作,探討如何運用量子電腦解決人工智能中一些最棘手的問題。這項工作最初由我、Steve Clark (CQ 的現任人工智能主) 等人率先進行。自然語言處理 (NLP) 是這些研究的核心。當幾個月前公佈 CQ 在實際量子電腦上實現全球首個 QNLP 的詳情,以及我們在 2019 年 12 月初步披露基礎原則後,lambeq 的發佈就自然順理成章。

Coecke 補充說:「在過去一年發表的眾多論文中,我們不但提供量子電腦如何增強 NLP 的詳細資訊,還證明 QNLP 是『量子原生』,意思是複合結構管理語言在數學上其實與管理量子系統相同。此功能最終可將令世界遠離目前依賴不透明和近似的蠻力技巧的人工智能範式。」

lambeq 可推動和自動化 CQ 科學家早前所描述的成分分佈 (DisCo) 型 NLP 實驗的設計和部署。這表示從語法/文法表(將文字的結構編碼)轉移至(經典)張量網絡或使用 TKET 實施的量子電路,準備對機器學習任務(如文字分類)進行優化。lambeq 採用模組設計,以便用戶可在模型中交換組件,並在架構設計中具備靈活性。

lambeq 消除專於人工智能和人機互動從業員和研究員的入行壁壘,而這可能是量子技術最重要的應用之一。TKET 現已得數以十萬計的全球用戶為基礎。對於尋求參與 QNLP 應用(人工智能最重要的市場之一)的量子運算社群來說,lambeq 有潛力成為最重要的工具包。最近的一個明顯重點是,QNLP 也將適用於基因組學和蛋白質組學中出現的符號序列分析。

Merck Group 作為 lambeq 的啟動合作夥伴和早期採用者,最近發表了一篇關於 QNLP 的研究論文,以作為慕尼黑技術大學創新計劃量子企業家實驗室項目的一部分。

Merck 資訊科技醫護創新孵化器 (IT Healthcare Innovation Incubator) 及 Quantum Computing Interest Group 聯合創辦人 Thomas Ehmer 說:「使用量子運算的獨特功能進行基本突破,是我們在 Merck 進行研究的重要部分。我們最近與慕尼黑技術大學的研究員在 QNLP 上披露的項目已證實,使用 QNLP 技術的句子進行二元分類任務,即使在現階段亦可在此階段獲得與現有經典方法相當的效果。很明顯,在這些技術可落實商業應用之前,我們將需要推進關於量子運算的基礎設施。最重要的是,我們可以看到 QNLP 運用的方法為可以解釋的人工智能開闢道路,從而實現更準確、更可靠的智能分析,而這點在醫學上尤為重要。

Kartsaklis 說:「QNLP 有很多有趣的理論工作,但理論與實踐之間通常存在一定距離。透過 lambeq,我們讓研究員有機會在目前完全未探索到的 QNLP 實驗方面獲得第一手體驗。這是實現量子硬件上實用、現實世界的 NLP 應用成為現實的關鍵一步。」

lambeq 已在 GitHub 上作為常規 Python 資料庫發佈,並可在此獲得:https://github.com/CQCL/lambeq。 迄今為止,lambeq 所產生的量子電路已在 IBM 量子電腦和 Honeywell Quantum Solutions 的 H 系列裝置上執行與實施。

工具包已被上載到 arxiv 的技術報告介紹,並載於此處:https://arxiv.org/abs/2110.04236。更易存取的網誌文章載於此處:https://medium.com/cambridge-quantum-computing/quantum-natural-language-processing-ii-6b6a44b319b2。技術查詢可電郵至 lambeq-support@cambridgequantum.com

近年來,NLP 的應用已遍及全球各個行業,從客戶服務、消費者技術、醫護和廣告上都一應俱全。根據行業分析師,預計全球 NLP 市場在 2028 年將價值 1,272.6 億美元,複合年增長率接近 30%[1]

關於 Cambridge Quantum

CQ 成立於 2014 年,得到了一些世界領先的量子運算公司的支援,是量子軟件及量子演算法的全球領導者,能幫助客戶充分利用最快速發展的量子運算硬件。CQ 在歐洲、美國和日本均設有辦事處。2021 年 6 月 8 日,CQ 宣佈與 Honeywell Quantum Solutions 合併,預計將於 2021 年第四季度完成合併。

如欲了解更多資訊,請瀏覽 CQ 網站 http://www.cambridgequantum.com and on LinkedIn。在 GitHub 上存取 TKET、Python 編碼和實用程式的開放源碼。

[1]  https://www.fortunebusinessinsights.com/industry-reports/natural-language-processing-nlp-market-101933