仿鼠腦內嗅—海馬—前額葉信息傳遞回路的空間導航方法_《生物醫學工程學雜志》

作者：

廖詣深 ,  于乃功

1. 北京工業大學信息學部計算智能與智能系統重點實驗室（北京 100124）;

關鍵詞：

位置細胞動作神經元內嗅—海馬前額葉空間導航

DOI：

10.7507/1001-5515.202303047

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

生理學研究發現，大鼠進行空間定位依賴內嗅—海馬CA3結構中的網格細胞與位置細胞，而內嗅—海馬結構與前額葉皮層之間的動態聯系是導航的關鍵。基于此，本文提出一種仿鼠腦內嗅—海馬—前額葉信息傳遞回路的空間導航方法，旨在為移動機器人賦予強大的空間導航能力。在海馬CA3—前額葉空間導航模型的基礎上，本文構建以海馬CA1區位置細胞為基本單元的動態自組織模型優化導航路徑。隨后通過海馬CA3區位置細胞與前額葉皮層動作神經元將優化后的路徑回饋至脈沖神經網絡，提高模型收斂速度的同時還有助于建立導航習慣的長期記憶。為驗證方法的有效性，本文分別設計了二維仿真實驗和三維仿真平臺的機器人實驗。實驗結果表明：本文方法不僅能夠在導航效率、收斂速度等方面超越其他算法，而且對動態變化的導航任務具有較好的適應性。同時，本文方法還能夠很好地應用在移動機器人平臺上。

引用本文： 廖詣深, 于乃功. 仿鼠腦內嗅—海馬—前額葉信息傳遞回路的空間導航方法. 生物醫學工程學雜志, 2024, 41(1): 80-89. doi: 10.7507/1001-5515.202303047 復制

0 引言

環境認知與導航是各類高等哺乳動物特有的一種能力^[1]。對于自主移動式機器人來說，具備像高等哺乳動物一樣的智能行為是在復雜未知的環境中快速而準確地實現面向目標導航的必要條件。導航包含定位與決策兩個部分^[2]。定位是確定自身在環境中的位置，而決策則代表如何正確地指導機器人從當前位置運動至目標點。大鼠作為哺乳動物的一員，也擁有著卓越的導航能力。生理學研究表明，內嗅—海馬結構是大鼠實現定位的關鍵腦區^[3]，其內部存在多種對空間位置有著特異性放電作用的神經元細胞（空間細胞），例如：位置細胞^[4]、網格細胞^[5]、邊界細胞^[6]、頭朝向細胞^[7]等。其中，自運動信息被認為是輸入至內嗅皮層網格細胞結構^[8]，并通過神經網絡投射至海馬CA3區的位置細胞群，從而實現對自運動信息的路徑積分^[9]。隨后，海馬CA1區位置細胞接收CA3區位置細胞所投射的位置信息，實現對空間位置集合的存儲與記憶^[10]。由于位置細胞是定位的主要神經元，其放電活動并不能預測未來行為的方向，而決策是導航過程中必不可少的組成部分，因此可以推斷在大鼠腦結構中必定存在承擔決策任務的相關腦區。研究表明，前額葉皮層是大腦產生命令和運動控制的關鍵腦區^[11]，且內嗅—海馬結構與前額葉皮層之間的動態聯系是決定未來行為的關鍵因素^[12]。

近年來，基于仿生認知機制的空間導航方法的研究成為熱點，主要包括兩個研究方向：① 仿生環境認知地圖構建與導航。該研究方向旨在構建仿鼠腦運行機制的精確環境認知地圖，隨后基于認知地圖進行路徑規劃與導航^[13-15]。而基于地圖的路徑規劃與導航方法較為工程化，因而缺乏仿生性。② 基于仿生認知機制的空間認知與導航習慣養成。該研究方向旨在構建導航模型指導機器人對空間環境進行探索，并隨著機器人的探索逐漸獲得對應環境的導航能力。2004年，Oudeyer等^[16]提出一種智能自適應好奇心學習理論，使機器人在沒有先驗知識的環境中不斷探索，逐漸完成對環境的認知。隨后在2018年和2021年，張曉平等^[17]和阮曉鋼等^[18]構建了基于好奇心學習理論的環境認知模型，并在此基礎上實現移動機器人的路徑規劃。而仿鼠腦認知機制的導航習慣養成相關研究工作可以追溯到2009年，Kulvicius等^[19]利用簡單的前饋神經網絡構建海馬位置細胞到動作神經元之間的連接關系，并使用Q-learning算法實現面向目標的導航。2013年，Frémaux等^[20]使用脈沖神經網絡作為位置細胞到動作神經元之間的連接結構，引入STDP學習規則調整網絡的連接權值，提升了導航模型發現目標區域的速度。隨后在2017年和2021年，Zannone團隊^[21-22]將乙酰膽堿和多巴胺的順序神經調節機制加入STDP學習規則（Sn-Plast模型），使智能體能夠有效地導航到不斷變化的獎勵位置，增強了模型的適應能力。但上述方法都容易陷入局部最優，導致輸出的路徑并不是當前導航任務的最優路徑。

基于上述研究事實，本文提出一種仿鼠腦內嗅—海馬—前額葉信息傳遞回路的空間導航方法，旨在為移動機器人賦予強大的定位與決策能力。本文的主要貢獻如下：① 構建以海馬CA1區的位置細胞為基本單元的動態自組織模型，能夠根據環境信息優化海馬CA3—前額葉脈沖神經網絡模型輸出的導航路徑，從而提高導航效率；② 通過優化后的導航路徑得出動作神經元和海馬CA3位置細胞群的理論放電率，并以此為監督信號調整脈沖神經網絡的連接權值，實現了將優化后的導航路徑及時回饋至脈沖神經網絡，提高模型收斂速度的同時還有助于建立導航習慣的長期記憶。

1 模型的建立

1.1 模型的整體結構

本節對仿鼠腦內嗅—海馬—前額葉信息傳遞回路的空間導航方法的整體結構進行詳細說明。隨著機器人在環境中探索，自運動信息首先被輸入至網格細胞模型，隨后通過神經網絡連接將空間信息投射至海馬CA3區位置細胞模型，實現路徑積分功能^[23]。機器人探索過程中，使用聯合學習規則Sn-Plast調節海馬CA3區位置細胞到前額葉皮層動作神經元之間脈沖神經網絡的權值大小^[22]。待探索至目標點時，海馬CA1區位置細胞通過動態自組織對形成的導航路徑進行優化。由于導航行為需要動作神經元的放電率為指導，而動作神經元的放電率由脈沖神經元的權值和海馬CA3區位置細胞群的放電率共同決定，故利用優化后的導航路徑計算出動作神經元和海馬CA3區位置細胞群的理論放電率序列，并以此為監督信號調整脈沖神經網絡的連接權值。導航方法的整體運行機制如圖1所示。

圖1 導航方法的整體運行機制示意圖 Figure1. The overall operating mechanism of navigation method

圖選項

環境	算法	導航路徑平均長度/m	發現目標區域后收斂的概率	首次發現目標所需的平均探索次數	完成導航習慣養成所需的平均探索次數
1	Q-learning	16.59	84.2%	9.4	11.2
	SARSA	19.56	67.6%	10.7	16.5
	IAC	17.44	85.8%	11.9	17.3
	Sn-Plast	18.97	73.3%	6.6	13.8
	Sn-Plast + PO	13.02	73.3%	6.6	13.8
	Sn-Plast + PO + PF	12.48	96.1%	6.4	6.7
2	Q-learning	11.87	79.9%	8.5	9.3
	SARSA	12.62	73.5%	9.8	12.4
	IAC	11.14	81.3%	7.7	8.9
	Sn-Plast	12.90	80.7%	6.8	12.9
	Sn-Plast + PO	7.73	80.7%	6.8	12.9
	Sn-Plast + PO + PF	7.52	97.8%	7.0	7.1
3	Q-learning	16.28	76.2%	9.7	14.2
	SARSA	17.55	71.5%	9.3	22.8
	IAC	17.13	89.1%	8.5	16.1
	Sn-Plast	18.93	78.4%	7.9	20.7
	Sn-Plast + PO	11.40	78.4%	7.9	20.7
	Sn-Plast + PO + PF	11.16	97.3%	7.9	8.4
4	Q-learning	18.51	85.7%	9.7	14.1
	SARSA	19.38	70.2%	11.6	20.9
	IAC	18.96	91.5%	8.1	9.6
	Sn-Plast	19.73	74.8%	6.2	17.4
	Sn-Plast + PO	14.06	74.8%	6.2	17.4
	Sn-Plast + PO + PF	13.70	98.2%	5.9	6.1

1.	Banino A, Barry C, Uria B, et al. Vector-based navigation using grid-like representations in artificial agents. Nature, 2018, 557(7705): 429-433.
2.	Wu Q, Gong X, Xu K, et al. Towards target-driven visual navigation in indoor scenes via generative imitation learning. IEEE Robot Autom Lett, 2020, 6(1): 175-182.
3.	Ormond J, O’Keefe J. Hippocampal place cells have goal-oriented vector fields during navigation. Nature, 2022, 607(7920): 741-746.
4.	O’Keefe J, Dostrovsky J. The hippocampus as a spatial map. Preliminary evidence from unit activity in the freely-moving rat. Brain Res, 1971, 34(1): 171-175.
5.	Hafting T, Fyhn M, Molden S, et al. Microstructure of a spatial map in the entorhinal cortex. Nature, 2005, 436(7052): 801-806.
6.	Solstad T, Boccara C N, Kropff E, et al. Representation of geometric borders in the entorhinal cortex. Science, 2008, 322(5909): 1865-1868.
7.	Taube J S, Muller R U, Ranck J B. Head-direction cells recorded from the postsubiculum in freely moving rats. II. Effects of environmental manipulations. J Neurosci, 1990, 10(2): 436-447.
8.	Aziz A, Sreeharsha P S S, Natesh R, et al. An integrated deep learning‐based model of spatial cells that combines self‐motion with sensory information. Hippocampus, 2022, 32(10): 716-730.
9.	Monteiro J, Pedro A, Silva A J. A Gray Code model for the encoding of grid cells in the Entorhinal Cortex. Neural Comput Appl, 2022, 34(3): 2287-2306.
10.	Li T, Arleo A, Sheynikhovich D. Modeling place cells and grid cells in multi-compartment environments: Entorhinal–hippocampal loop as a multisensory integration circuit. Neur Netw, 2020, 121: 37-51.
11.	Patai E Z, Javadi A H, Ozubko J D, et al. Hippocampal and retrosplenial goal distance coding after long-term consolidation of a real-world environment. Cereb Cortex, 2019, 29(6): 2748-2758.
12.	Javadi A H, Emo B, Howard L R, et al. Hippocampal and prefrontal processing of network topology to simulate the future. Nat Commun, 2017, 8(1): 1-11.
13.	Yu N, Zhai Y, Yuan Y, et al. A bionic robot navigation algorithm based on cognitive mechanism of hippocampus. IEEE Trans Autom Sci Eng, 2019, 16(4): 1640-1652.
14.	Zou Q, Cong M, Liu D, et al. Robotic episodic cognitive learning inspired by hippocampal spatial cells. IEEE Robot Autom Lett, 2020, 5(4): 5573-5580.
15.	Liu D, Lyu Z, Zou Q, et al. Robotic navigation based on experiences and predictive map inspired by spatial cognition. IEEE ASME Trans Mechatron, 2022, 27(6): 4316-4326.
16.	Oudeyer P Y, Kaplan F. Intelligent adaptive curiosity: A source of self-development// Procedings of the International Workshop on Epigenetic Robotics. Lund: Lund University Cognitive Studies, 2004: 127-130.
17.	張曉平, 阮曉鋼, 肖堯, 等. 基于內發動機機制的移動機器人自主路徑規劃方法. 控制與決策, 2018, 33(9): 1605-1611.
18.	阮曉鋼, 張家輝, 黃靜, 等. 一種結合內在動機理論的移動機器人環境認知模型. 控制與決策, 2021, 36(9): 2211-2217.
19.	Kulvicius T, Tamosiunaite M, Ainge J, et al. Odor supported place cell model and goal navigation in rodents. J Comput Neurosci, 2008, 25(3): 481-500.
20.	Frémaux N, Sprekeler H, Gerstner W. Reinforcement learning using a continuous time actor-critic framework with spiking neurons. PLoS Comput Biol, 2013, 9(4): e1003024.
21.	Brzosko Z, Zannone S, Schultz W, et al. Sequential neuromodulation of Hebbian plasticity offers mechanism for effective reward-based navigation. Elife, 2017, 6: e27756.
22.	Ang G W Y, Tang C S, Hay Y A, et al. The functional role of sequentially neuromodulated synaptic plasticity in behavioural learning. PLoS Comput Biol, 2021, 17(6): e1009017.
23.	于乃功, 廖詣深. 基于鼠腦內嗅—海馬認知機制的移動機器人空間定位模型. 生物醫學工程學雜志, 2022, 39(2): 217-227.
24.	Bjerknes T L, Moser E I, Moser M B. Representation of geometric borders in the developing rat. Neuron, 2014, 82(1): 71-78.
25.	Adam S, Busoniu L, Babuska R. Experience replay for real-time reinforcement learning control. IEEE Trans Syst Man Cybern, 2011, 42(2): 201-212.

《生物醫學工程學雜志》

仿鼠腦內嗅—海馬—前額葉信息傳遞回路的空間導航方法

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

0 引言

1 模型的建立

1.1 模型的整體結構

1.2 導航路徑優化方法

1.3 導航路徑回饋

1.4 動態導航過程

2 實驗驗證

2.1 實驗說明與參數設定

2.2 二維仿真實驗

2.2.1 導航習慣養成實驗

2.2.2 對比實驗與消融實驗

2.2.3 動態導航實驗

2.3 機器人平臺三維仿真實驗

3 結論

0 引言

1 模型的建立

1.1 模型的整體結構

1.2 導航路徑優化方法

1.3 導航路徑回饋

1.4 動態導航過程

2 實驗驗證

2.1 實驗說明與參數設定

2.2 二維仿真實驗

2.2.1 導航習慣養成實驗

2.2.2 對比實驗與消融實驗

2.2.3 動態導航實驗

2.3 機器人平臺三維仿真實驗

3 結論

上一篇

下一篇

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料