የHebbian ትምህርት እና Hopfield ኔትወርኮች፡ ከTransformers በላይ ሁሌም ብልህ የነበረው አርክቴክቸር
ባለፉት አሥር ዓመታት transformers እና የattention ዘዴዎቻቸው የAI ዓለምን ሙሉ በሙሉ ተቆጣጥረዋቸዋል። ከGPT እስከ BERT፣ ከVision Transformers ድረስ፣ "attention is all you need" የሚለው መፈክር ስለ machine learning የምናስበው መንገድ እጅግ ቀይሮታል። ውሂብን ከአንዱ ውክልና ወደ ሌላኛው የሚቀይሩ translator ሥርዓቶች፣ encoder-decoder ቅርጾቻቸው፣ ከቋንቋ ሂደት እስከ ምስል ፈጠራ ድረስ ለሁሉ ነገር አጥንት ሆኑ። አብዮታዊ ነበሩ። ኃይለኞች ነበሩ።
አሁን ግን፣ ግድግዳ ላይ ደርሰዋል።
ቀልዱ ደግሞ፣ መፍትሔው ከ1982 ጀምሮ ነበር። ያ ዓመት ጆን Hopfield ባሳተመው ጽሑፍ, Proceedings of the National Academy of Sciences ውስጥ, transformers ፈጽሞ ሊያሳኩት ያልቻሉትን ባህርይ የያዘ recurrent neural network አስተዋወቀ፡ ኃይልን በመቀነስ (energy minimization) ወደ ዘለቄታዊ ሁኔታ መድረስ ዋስትና ያለው መዋቅር። Hopfield ኔትወርክ ቅጦችን ከመማሩም ሻገር፤ ቅጦቹን እንደ ፊዚካዊ attractor ባለ ኃይል ገጽ (energy landscape) ላይ አከማቸ, ጫጫታ ካለበት ወይም ሙሉ ካልሆነ ግቤት እንኳ ሊፈልሳቸው የሚችል ሁኔታ ፈጠረ።
የAI ማኅበረሰብ አሁን ለፊዚክስ እና ለነርቭ ሳይንስ ማኅበረሰቦች ከረዥም ዓመታት ጀምሮ ይታወቅ የነበረውን ነገር ጀምሮ ይረዳል፡ ኃይል ላይ የተመሠረተ፣ ትስስር የሚፈጥር (associative) አካሄድ ለነርቭ ስሌት, ታሪካዊ ጥቅስ ብቻ አይደለም, transformer ዘመን ሙሉ በሙሉ ሳይረዳው ላይ የተሠራበት መሠረታዊ ፓራዲም ነው።
የTransformer ጣሪያ
Transformers የሚሠሩት ከሁሉ ዓረፍተ ዕቃ አካላት ጋር ግንኙነት self-attention ሂደት ውስጥ አንድ ጊዜ አስልተው ነው። ለቋንቋ ድንቅ ነው። ለግልፅ ቅደም ተከተላዊ ቅጦች ላሏቸው ውሂቦች ደግሞ እጅግ ብቁ ነው። ነገር ግን ዓለም ሀቁ, ሮቦቲክስ፣ ቁርን ዑደቶች፣ ሴንሰር ቁጥጥር ሥርዓቶች፣ edge computing, ቶሎ ተጠናቅቆ የሚጠበቀዋቸው ቅደም ተከተሎች ሆኖ ሕዋሳቱን አይደለም የሚያዘጋጀው።
የtransformer አርክቴክቸር ብዛትን ያስቀድማል፡ ብዙ ስሌት፣ ብዙ ማህደረ ትውስታ፣ ብዙ ኃይል። Self-attention ከቅደም ተከተሉ ርዝማኔ ጋር ካሬ (quadratic) ሆኖ ይጨምራል። Feed-forward ሽፋኖቹ ቀጥ ብሎ ቢጨምሩም ከፍ ያለ ሸቀጣ ሸቀጥ ያካትታሉ። Transformer ላይ የተሠራ ሥርዓት በጎተራ ውስጥ የሚዘዋወር ሮቦት ወይም ማምረቻ ክንድ የሚቆጣጠር ኤሌክትሮኒክ ዑደት ሲያዘዝ፣ ያ ሁሉ ግምት ይፈርሳል።
የtranslator ፓራዲምም የራሱ ደካማ ጎን አለው፡ ብልህነትን ቀድሞ ዕቅድ ውስጥ ባሉ ወኪሎቻዊ ውክልናዎች መካከል ቅያሬ ችግር ብቻ አድርጎ ይወስዳል። ግቤቱን ኮድ አድርግ። ውጤቱን ፍታ። ነገር ግን ዕውነተኛ ብልህነት ሲቀይር ብቻ አያበቃም, ያስታውሳል፣ ያቆራኛል፣ ግቤቱ የተቆራረጠ ወይም ሁለት ዐበይት ትርጉም ቢሰጥም ዘለቄታዊ ወደ ሆነ ትርጓሜ ይወርዳል።
ይህን ችግሮቻቸውን quantization፣ distillation፣ pruning፣ እና ሌሎች በርካታ ምቹ ዘዴዎቻቸው እንፍታ ብለናል። የ2025 Edge AI ጥናቶች embedded ሃርድዌር ላይ deep learning ማሰማራት "ጥብቅ ሆኖ ባለ ማህደረ ትውስታ፣ ስሌት እና ኃይል ሁኔታዎች የተወሰነ ሆኖ ቀጥሏል" ሲሉ ያረጋግጣሉ። ነገር ግን ከመሠረቱ ያልሆነ አርክቴክቸር ማስተካከያ ቤዛውን ያዘገያዋል እንጂ አያስቀረውም። የምንፈልገው ማህደረ ትውስታን፣ ዘለቄታን፣ እና ኃይል ቆጣቢነትን ቀዳሚ ቦታ ሰጥቶ የሠራ አርክቴክቸር ነው, ኋለ ላይ ያሰበ ሳይሆን።
Hopfield Neural Network ሲቀርብ
Hopfield ኔትወርክ፣ ነጠላ ሽፋን ኒዩሮኖቹ ያሉት recurrent neural network ሲሆን፣ እያንዳንዱ ኒዩሮን ከራሱ ጋር ካልሆነ ከሌሎቹ ሁሉ ጋር የተያያዘ ነው። ኔትወርኩ ሙሉ ቀጥ ያልሆነ ግራፍ (complete undirected graph) ይፈጥራል, እያንዳንዱ ጥንድ ኒዩሮን ሲሜትሪካዊ ግንኙነት ክብደት ያካፍለዋሉ፣ ማለትም ከኒዩሮን i ወደ j ያለው ጥንካሬ ከj ወደ i ካለው ጋር ፍጹም እኩል ነው። ራስ-ርክክቦች የሉም (wᵢᵢ = 0)። ሽፋናዊ ተዋረድ የለም። ቅደም ተከተላዊ ሂደት አለ ማለትም አይደለም። ይልቁንም፣ ሙሉ ኔትወርኩ ጊዜ እያለፈ ዘለቄታዊ ሚዛን ሁኔታ ወደሚፈጠርበት የሚሸጋገር ነጠላ የተያያዘ ዳይናሚካዊ ሥርዓት ሆኖ ይሠራል።
ሙሉ በሙሉ የተያያዙ ኒዩሮኖቻቸው ያለው Hopfield ኔትወርክ። እያንዳንዱ ቋጠሮ ሲሜትሪካዊ ክብደት (wᵢⱼ = wⱼᵢ) ይዞ ወደ ሌሎቹ ሁሉ ቋጠሮዎቻቸው ይሻገራል, ሙሉ ቀጥ ያልሆነ ግራፍ ይፈጥራል። ራስ-ርክክቦቻቸው የሉም።
የዚህ አርክቴክቸር ውበት የኃይል ተግባሩ (energy function) ላይ ነው። Hopfield ኔትወርኩ ተዛማጅ Lyapunov ኃይል ተግባር እንዳለው ያስረዳ፡
E = −½ Σᵢ Σⱼ wᵢⱼ sᵢ sⱼ − Σᵢ θᵢ sᵢ
ይህ ኃይል፣ እያንዳንዱ ኒዩሮን ሲዘምን፣ ዘወትር ይቀንሳል (ወይም ቋሚ ይሆናል)። ኔትወርኩ ሁሌ ወደ ሚዛን ይደርሳል, ሳያቋርጥ ፍሰቱን አያጣም፣ ወደ ጎን አይጋልም፣ ማለቂያ ከሌለው ስሌት አዙሪት ውስጥ አይወድቅም። ይረጋጋል። Bruck በ1990 ይህ መረጋጋት ጠቃሚ ከሆነ ግራፍ ቁራጮቻቸው ጋር ግንኙነት እንዳለው ያስረዳ, ኔትወርኩ ዜናዊ ሁኔታ ሲዘምን ለmax-cut ችግር greedy algorithm ሆኖ ያሠራዋል።
ኔትወርኩ ሲረጋጋ ብልህነቱ የሚኖርበት ቦታ ይኸዉ ነው። የሚከማቹ ቅጦቻቸው የኃይሉ ተግባር አካባቢ ዝቅተኛ ቦታዎቻቸው (local minima) ናቸው, ያ ማለት በኃይሉ ምድር ላይ ያሉ ሸለቆዎቻቸው። ቃኘቱ ወይም ሙሉ ያልሆነ ስሪቱን ወደ ኔትወርኩ ስታቀርብ፣ ዳይናሚካቸው የኔትወርኩን ሁኔታ ቁልቁል ያሸጋሽጉት, ወደ ቅርቡ ሸለቆ፡ ለዚህ ግቤት ምርጡን ቅጥ እስኪደርስ።
የHopfield ኔትወርክ ኃይሉ ምድር። እያንዳንዱ ሸለቆ (አካባቢ ዝቅተኛ) ለሚከማቹ ማህደረ ትውስታ ቅጥ ይዛመዳል። ከማናቸውም የመጀመሪያ ሁኔታ ጀምሮ፣ የኔትወርኩ ዳይናሚካቸው "ቁልቁል ወደ" ሸለቆ ይወርዳሉ, ከፊል ወይም ጫጫታ ካለበት ግቤት ሙሉ ቅጡን ይፈልሳሉ።
ይህ ይዘት-ጠቋሚ ትስስር ማህደረ ትውስታ (content-addressable associative memory) ነው, ከፊሉ ምልክት ብቻ ሆኖ ሙሉ ትዝታዎቻቸውን የሚፈልስ፣ ሕያዋን አዕምሮዎቻቸው ሳይፍጠሩ የሚሠሩትን ነገር ግን transformers ፈጽሞ ስሌት ሳያካሂዱ ሊቀርቡትና ሊቀርቡ የሚሞክሩ ነው።
ከፊዚክስ ጋር ያለው ቁርኝት ጥልቅ ነው። Hopfield ኔትወርክ ሒሳባዊ ቋሚ Ising model ጋር ፍፁም ዕኩል ነው, ስታቲስቲካዊ ሜካኒክስ ውስጥ ማግኔቲዝምን ለመሳፈር ጥቅም ላይ ከሚውለው ቅኝት ጋር። Sherrington-Kirkpatrick spin glass ሞዴሉ፣ 1975 ላይ የወጣው፣ ዘፈቀደ ክብደቶቻቸው ያሉት Hopfield ኔትወርክ ነው። ትመሌ Hopfield ይህን ባህርይ ሆን ብሎ ለምቀቀ, ሽፋነ ኃይሉ ምድሩ እያንዳንዱ ዝቅተኛ ቦታ ጠቃሚ ቅጥ ወደሚሆን።
Hebbian ትምህርት፡ አንድ ላይ የሚቃጠሉ ኒዩሮኖቻቸው አንድ ላይ ይተሳሰራሉ
Hopfield ኔትወርኮቻቸውን ሥራ ላይ የሚያውሉት የትምህርት ሕግ ሥሮቹ ሳይቀr, ወደ Donald Hebb 1949 ዓ.ም. The Organization of Behavior የሚሄዱ ሲሆን ፣ ያ መጽሐፍ አሁን የነርቭ ትምህርት ቲዎሪ መሠረት ተብሎ የሚቆጠርን ሐሳብ አቀረበ።
Hebb ያቀረበው ሐሳብ ቀለል ያለ ቢመስልም ጠልቆ ይሄዳል፡ presynaptic ሴል ተደጋጋሚ እና ቀጣይ ሆኖ postsynaptic ሴልን ለማቃጠል ሲሳተፍ፣ መካከላቸው ያለው synaptic ቁርኝት ይጠናከራል። "አንድ ላይ የሚቃጠሉ ኒዩሮኖቻቸው አንድ ላይ ይተሳሰራሉ", ምንም እንኳ Hebb ራሱ ሴል A ሴል B እንዲቃጠል ሊያደርጉ ያስፈልጋቸዋል እንጂ ብቻ አንድ ጊዜ ቢቃጠሉ አይበቃም ሲል ጥልቅ ትርጉም ሰጥቷል። ይህ ዘመናዊ ናሙና spike-timing-dependent plasticity (STDP) ሆኖ ከዓሥርታት ዓመታት በኋላ ሙከራ ሲደረግ ተረጋገጠ, የAplysia californica ባሕር ዝቅ ላይ Eric Kandel ያካሄዱት ምርምርም ይጠቀሳል።
Hebbian ትምህርት፡ ሁለት የተያያዙ ኒዩሮኖቻቸው ተደጋጋሚ ሆነው አንድ ላይ ሲሠሩ፣ መካከላቸው ያለው synapse ይጠናከራል። "አንድ ላይ የሚቃጠሉ ኒዩሮኖቻቸው አንድ ላይ ይተሳሰራሉ" ሲለው፣ Hopfield ኔትወርኮቻቸው ቅጦቻቸውን እንዴት እንደሚያከማቹ ባዮሎጂካዊ መሠረቱ ይሄ ነው።
Hopfield ኔትወርክ ውስጥ፣ Hebbian ትምህርት እንዲህ ተደርጎ ተቀምጧል፡
wᵤᵥ = (1/N) Σₗ sᵤ(l) · sᵥ(l) ለሁሉ የሚከማቹ ቅጦቻቸው l፣ u ≠ v ሲሆን
ሁለት ኒዩሮኖቻቸው አንድ ቅጥ ውስጥ ተመሳሳይ ሁኔታ ሲኖሯቸው (ሁለቱም +1 ወይም ሁለቱም −1)፣ ውጤታቸው አዎንታዊ ሆኖ excitatory ቁርኝቱን ያጠናከራሉ። ሲለያዩ፣ ውጤቱ አሉታዊ ሆኖ inhibitory ቁርኝት ይፈጥራሉ። ዘለቀ ተፅዕኖ የኃይሉ ምድርን እያንዳንዱ ቅጥ ሸለቆ ሆኖ እንዲፈጠር ቅርጸ-ምስሉን ይቀርፃሉ።
Hebbian ሕጉ አካባቢያዊ ነው (እያንዳንዱ ክብደት ዝማኔ ሁለቱ ኒዩሮኖቻቸው ብቻ ተጠቅሞ ያሠሩ) እና ቀስ ብሎ የሚሠሩ (አዳዲስ ቅጦቻቸውን ድሮዎቻቸውን ዳግም ሳያስተናግዱ ማከማቸት ይቻላል)። ሒሳባዊ ሆኖ Hebbian ትምህርት ግቤቱን ያልተቆጣጠረ principal component analysis (PCA) ሆኖ ያሠራ ሊያሳዩ ይቻላሉ, ኔትወርኩ ከአካባቢው በጣም አስፈላጊ ስታቲስቲካዊ ባህርያቶቻቸውን ተፈጥሮ ወደ ውስጡ ያበቀላሉ።
1997 ዓ.ም.፣ Amos Storkey እያንዳንዱ ኒዩሮን የሚሰጠውን አካባቢያዊ ሜዳ ከሚቆጥር ምሉዕ የትምህርት ሕግ አቀረበ, ይህ ደግሞ ከደምዳሜ Hebbian ትምህርት የሚበልጥ ማከማቻ አቅም ፈጠረ። ይህ ተመሳሳይ አርክቴክቸር ውስጥ ሳይቀሩ የትምህርት አልጎሪዝሙ ምርጫ በጥልቀት ዳፋ እንዳለው ያሳያሉ, ለነርቭ ኔትወርክ ምርምር ሰፊ ትምህርቱ ጋር አሉት።
ለውጡ፡ "Hopfield Networks is All You Need"
2020 ዓ.ም.፣ Johannes Kepler University Linz ሁበርት ራምሳወር የሚመሩ ቡድን ለtransformer አፈጣጠር ታሪክ ማስተጋባት ያህል አርዕስቱ የተቀናጀ ጽሑፍ አሳተሙ፡ "Hopfield Networks is All You Need." አስተዋጽኦዋቸው ብዙዎቻቸው ሲጠረጥሩ የነበረውን ሒሳባዊ ማስረጃ ሰጡ፡ transformers ውስጥ ያለው self-attention ዘዴ ዘመናዊ ቀጣይ Hopfield ኔትወርክ ዝማኔ ሕጉ ፍፁም ዕኩል ነው።
ዘመናዊ Hopfield ኔትወርኮቻቸው እና transformer attention መካከል ያለው ቁርኝት። Transformers ውስጥ ያለው softmax ላይ የተሠሩ attention ዘዴ ሒሳባዊ ቋሚ exponential ኃይሉ ተግባሩ ካለው ቀጣይ Hopfield ኔትወርክ አንድ ዝማኔ ደረጃ ጋር ነው። ምስሉ ከ Ramsauer et al., "Hopfield Networks is All You Need" ላይ ነው።
ይህ ምሳሌ ብቻ አልነበረም። ቡድኑ ዘውዳዊ Hopfield ኃይሉ ተግባርን ወደ ቀጣይ ሁኔታዎቻቸው አስፍቶ exponential ተፅዕኖ ቃሉን ሲጠቀሙ፣ ዘመናዊ ዝማኔ ሕጉ፡
Z = softmax(β · R Wq Wk⊤ Y⊤) Y Wk Wv
ሲሆን ይህ ፍፁም የtransformer attention ቀመር ነው። ዘመናዊ Hopfield ኔትወርክ exponentially ብዙ ቅጦቻቸውን (ከtssociative ቦታው ልኬት ጋር) ማከማቸት ይቻለዋል፣ አንድ ዝማኔ ብቻ ፈልሳቸዋል፣ exponentially ትንሽ ስህተት ሆኖ ፈልሶዋቸዋል።
ጽሑፉ ይህ ዘመናዊ ቅርጸ-ምሳሌ ውስጥ ሦስት ዓይነት ኃይሉ ዝቅተኛ ቦታዎቻቸውን ለዩ፡ (1) ሁሉ ቅጦቻቸውን አማካኝ ሆኖ ዓለምአቀፍ ዘዋሪ ቦታ፣ (2) ንዑስ ቅጦቻቸውን አማካኝ ሆኖ metastable ሁኔታዎቻቸው፣ እና (3) ነጠላ ቅጦቻቸውን የሚያከማቹ ዘዋሪ ቦታዎቻቸው። ዝቅተኛ ሽፋን transformer heads አብዛኛው ዓለምአቀፍ አማካኝ ሁኔታ ይሠሩባቸዋሉ፤ ከፍተኛ ሽፋን heads ደግሞ metastable ሁኔታዎቻቸውን ለመረጃ ሰብሰባ ይጠቀሙ, ይህ transformers ለምን እንደሚሠሩ ጥልቅ ምክንያቱን ይፋ ያደርጋሉ።
ተግባራዊ ዕሴቱ ፈጥኖ ተረጋገጠ፡ ቡድኑ pooling layers፣ GRU/LSTM layers፣ እና ደምዳሜ attention layers ቦታ ሊሠሩ የሚችሉ Hopfield layers drop-in PyTorch ሞዱሎቻቸው ሆነው አወጡ። benchmarks ላይ፣ ዛሬ deep learning ዘዴዎቻቸው ብዙ ጊዜ ሊሳካባቸው ባይችሉም፣ ቅዠ ላለው ሙሉ ሙከራ ምደባ (ናሙና ብዙ መቶ ሺዎቻቸው ያሉ)፣ multiple instance learning ችግሮቻቸው፣ እና UCI ምደባ benchmarks ላይ Hopfield layers state-of-the-art ውጤቶቻቸውን ያስመዘገቡ ሆኑ።
ታኅሳስ 2025 ላይ፣ Masumura እና Taki NeurIPS ጽሑፍ ይበልጥ ቀጠሉ, "adiabatic approximation" ሰምቶ ያለፈ ሲሆን Hopfield-transformer ቁርኝቱ ሕቡዕ ሁኔታዎቻቸውን ያሳያሉ ሲሉ አሳዩ፣ ይህ ጥልቅ transformers የሚቸገሩ rank collapse እና token uniformity ችግሮቻቸውን ለመፍታት ምንም training ደርሶ ሳይጨምሩ ትክክለኛነቱን ያሻሽሉ ነበር።
እያደገ ያለ ስምምነቱ፡ ሌሎቹ ማን ናቸው?
Hopfield ኔትወርኮቻቸው ከtransformers ሻገር ቀጣዩ ፓራዲም ናቸው ሲሉ ይህ ምንም ፈካ ያለ ምናቡ አይደለም። ዋና ዋና ምርምር ተቋማቶቻቸው አጥብቀው እያሳደዱት ሲሆን ማስረጃውም ፈጥኖ ሰፋ ይላሉ። ወደ ተመሳሳይ ዘጋቢ ቁልፍ ድምፆቻቸው እና ጽሑፎቻቸው ቀጥ ናቸው።
IBM Research እና Dmitry Krotov
ጥር 2025፣ IBM Research ከHopfield ዘለቀ ባልደረባ እና Dense Associative Memory አርክቴክቶቻቸው ዋናዎቻቸው ከሆኑ Dmitry Krotov ጋር ሰፊ ቃለ ምልልስ አሳተሙ። Krotov ቀጥ ብሎ ጉዳዩን አቀረበ፡ Hopfield ኔትወርኮቻቸው አሁን ያሉ የAI ሞዴሎቻቸው 90% feedforward አርክቴክቸር ካልሆነ የአዕምሮ ቀጥ ያልሆነ ምላሽ loops ስለሚቀርቡ "ዛሬ ላሉ feedforward ኔትወርኮቻቸው ምቁዋ አማራጭ ናቸው።" Transformers ሁሉ ዕቅፍ-ወደ ብቻ ዕቅፍ ሁኔታ ሲሠሩ ሊሠሩ፣ context windows ሲዳሩ ሲሄዱ ደግሞ ስሌቱ ሽፋናዊ ሆኖ ፈጠን ብሎ ይጨምራሉ ሲሉ ገለፁ። አዕምሮ ደግሞ፣ ለዚህ ቦታ፣ ያለፈ መረጃ ማህደረ ትውስታ ውስጥ ምዕራፍ ሰጥቶ ለማከማቸት recurrent feedback loops ይጠቀማሉ። Hopfield ኔትወርኮቻቸው ደግሞ ይህን ያደርጉ ናቸው።
Krotov Energy Transformer (NeurIPS 2023) ደግሞ ጠቀሰ, IBM Research እና Georgia Tech ትብብር፣ ያ Hopfield ሐሳቦቻቸውን ላሉ transformers ላይ የሚያደርጋቸው ሳይሆን ሙሉ ቅደም ተከተሉ feedforward transformer ክፍሎቻቸውን ነጠላ ትልቁ Associative Memory ሞዴሉ ሊቀይሩ ያደርጋሉ። Energy Transformer ውስጥ ያለው attention ዘዴ ከደምዳሜ attention ፍፁም ለቅቷሉ፡ ከኃይሉ ቅነሳ ዋናዊ ሕጐቻቸው ለምደዷቸዋሉ, feedforward ቅርጽ ላይ ሳይሰፍሩ።
🔗 IBM Research "Searching for brain-inspired AI algorithms" (ጥር 2025)
🔗 Energy Transformer arXiv:2302.07253 (NeurIPS 2023)
Johannes Kepler University - Hochreiter ቡድን
LSTM ሓጥኛ አቅምን Sepp Hochreiter "Hopfield Networks is All You Need" ያሳተሙ ቡድን ይመሩ ነበሩ። Hopfield layers repository ቸው transformer attention layers፣ pooling layers፣ እና recurrent layers ቦታ ሊሠሩ ለሚያስፈልጉ drop-in replacements production-ready PyTorch ሞዱሎቻቸውን ይሰጣሉ። ተጓዳኝ ብሎጋቸው softmax attention ቀመር ዘመናዊ Hopfield ዝማኔ ሕጉ ልዩ ሁኔታ መሆኑን ሒሳባዊ ሁኔታ አሳቆ ያለፋሉ, Hopfield layers ደምዳሜ attention ሊሰጥ የማይቻሉ ተጨማሪ ተግባሮቻቸው ይሰጣሉ ሲሉ፣ static learned prototypes እና ቀጣይ ተለዋዋጭ ትስስር ማህደረ ትውስታ ቅርጸ-ምሳሌዎቻቸውን ይጠቅሳሉ።
🔗 Hopfield Networks is All You Need - ICLR 2021
NeurIPS 2025፡ Hopfield Attention GPT እና Vision Transformers ያሻሽለዋሉ
ወቅቱ ያለ ማስረጃ Masumura እና Taki ታኅሳስ 2025 NeurIPS ጽሑፍ ላይ ነው። Modern Hopfield Attention (MHA), ሙሉ (non-adiabatic) Hopfield dynamics ላይ ያሉ ሕቡዕ ሁኔታዎቻቸውን ጨምሮ, GPT-2 እና LLaMA ቋንቋ ሞዴሎቻቸውን ሁለቱም ሊሆን Vision Transformers ሊሆን አጠቃቀሞቻቸው ሥርዓታዊ ሆኖ ያሻሽለዋሉ ሲሉ አሳዩ። ምሉዕነቱ ተጨማሪ training ደርሶ ሳይጨምሩ ተሳካ። ይበልጥ ወሳኝ ሆኖ፣ MHA rank collapse ችግርን ፈቶ, ጥልቅ transformers ውስጥ attention matrices ሁሉ ምልክቶቻቸው ወደ ተመሳሳይ ወኪሎቻቸው ሲቀርቡ ይዳሩ፣ ዋናዊ ፓቶሎጂ transformer ስኬሉ ያስቸገረው, ሲሉ ፀሐፊዎቻቸው ደምደሙ። "Hopfield ኔትወርኮቻቸውን ተጠቅሞ Transformer አርክቴክቸሮቻቸውን ሥርዓታዊ ቅርጸ-ምሳሌ አዲስ ዕድሎቻቸውን ይከፍታሉ ሲል ተስፋ እናደርጋለን" ሲሉ ፀሐፊዎቻቸው ደምደሙ።
🔗 On the Role of Hidden States of Modern Hopfield Network in Transformer arXiv:2511.20698 (NeurIPS 2025)
Nature Communications፡ ባዮሎጂካዊ ፈቃዳ ያለው Online ትምህርት
ግንቦት 2024፣ Nature Communications Sparse Quantized Hopfield Network ላይ ጽሑፍ አሳተሙ, ሕያዋን አዕምሮዎቻቸው ፍፁም ሁኔታ አካባቢያዊ ትምህርት ሕጐቻቸውን ሲጠቀሙ ዘውዳዊ ሁኔታ ቀጣይ-ቀጣይ ሁኔታ online ትምህርት ሚናዎቻቸውን ሊሠሩ የሚችሉ ሞዴሉ። ይህ transformers ዋናዊ ክፍተቱን ያዘ, ይህ non-local backpropagation እና ልዩ ዳታሴቶቻቸው offline ሥልጠና ናቸው። ጽሑፉ Hopfield ላይ የተሠሩ አርክቴክቸሮቻቸው ሰው-ሠራሽ ነርቭ ኔትወርኮቻቸው እና neuromorphic ሃርድዌር መካከል ተፈጥሮ ፈሳሹን ያደርጋሉ ሲሉ ቆምዋሉ።
🔗 A Sparse Quantized Hopfield Network for Online-Continual Memory Nature Communications (2024)
ትልቅ Foundation ሞዴሎቻቸው ለ Outlier-Efficient Hopfield Layers
2024 ጽሑፍ ትልቅ transformer ሞዴሎቻቸው ውስጥ ያለ ተግባራዊ ችግር ሊፈቱ ቀረቡ፡ ምልክቶቻቸው ሌሎቻቸው ወደ ጠቅሴ ያልሆኑ tokens (ፊቀ-ምልክቶቻቸው፣ ሥርዓተ ነጥቦቻቸው) ሊሰጡ attention ማሟያ ዝንባሌ, "no-op outlier" ችግሩ። ፍቱናቸው outlier-efficient Hopfield ኃይሉ ተግባሩ ሲሆን ይህ tokens ዓይነቱን ለዩ ዜሮ-ኃይሉ ቦታ ሊሸጋሸጋቸው ያደርጋሉ, ጠቃሚ attention ሊቀልሉ ሳይሆን ሊያደርጉ። ዘዴው Softmax₁ attention ልዩ ሁኔታ ሆኖ ያካተቷቸዋሉ, BERT፣ OPT፣ እና Vision Transformers ላይ ሙከራ ሆኑ። ይህ Hopfield ቲዎሪ ዕውነተኛ-ዓለም transformer መሀንዲስ ችግሮቻቸውን ሲፈታ ነው።
🔗 Outlier-Efficient Hopfield Layers for Large Transformer-Based Models (2024)
Transformers እንደ ኃይሉ ቀናዎቻቸው (ጥር 2026)
ቅርቡ ቲዎሪ ጥናቱ፣ ጥር 2026 ላይ አሳተሙ፣ ሙሉ transformer forward pass ፍጥረታዊ ኃይሉ ቅነሳ ሆኖ አስቀምጦታሉ, transformers ሁሉ ሊሠሩ ምክንያቱ ቢሆን ለምን ሆኖ ሊሆን Hopfield ሐሳቡን ሙሉ ሆኖ ያብራሩ ቅርጸ-ምሳሌ ሆኖ ወስዷሉ። ጽሑፉ sparse ዘመናዊ Hopfield ሞዴሎቻቸውን ሙሉ attention ዓይነቶቻቸው ቤተሰብ (softmax፣ sparsemax፣ α-entmax) ጋር ያቆራኛሉ, ሁሉም ናቸው ኃይሉ ላይ የተሠሩ ፈልሳ ዳይናሚካቸው ልዩ ሁኔታዎቻቸው።
🔗 Transformers as Intrinsic Optimizers: Forward Inference through the Energy Principle (ጥር 2026)
Review ጽሑፎቻቸው እና ማኅበረሰብ ምንጮቻቸው
ሰፊ ምርምር ማኅበረሰቡ ወደዚህ ቁርኝቱ ዙሪያ ይሰባሰባሉ፡
- "Energy-Based Learning and the Evolution of Hopfield Networks" (TechRxiv፣ ሚያዚያ 2025) ከHopfield (1982) ጀምሮ Boltzmann Machines አልፎ transformer attention ዘመናዊ Hopfield dynamics ሆኖ ዳግም ሊተረጎሙ ሙሉ ቀስተ-ቀስቱን የሚለ ሰፊ review ነው። → ጽሑፉን ያንብቡ
- "An Energy-Based Perspective on Attention Mechanisms in Transformers" Hopfield ኃይሉ ሐሳቡ ሊሠሩ transformers መረዳቱ "ስኬሉ ብቻ ሆኖ ስሌቱ ሊቀናቸዋቸው ሳይቻሉ ሊሆን ሙሉ ሆኖ ልዩ ሆኖ ወደ ሊሆን ሊቻሉ ተሻሽሎ ሊሆን ሊያደርጉ ሊቻሉ ሊሆን" ሲሉ ቀጥ ሆኖ ሙሉ ቴክኒካዊ ብሎጋቸው ይቆምዋሉ። → ብሎጉን ያንብቡ
- Awesome Modern Hopfield Networks 50+ ጽሑፎቻቸውን ዘርፎቹ ወደ ዘመናዊ Hopfield ኔትወርኮቻቸው ያቃኛሉ GitHub repo ሲሆን፡ asset ምደባ፣ ለውጥ ፈልሳ፣ ፈጠራዊ ሐሳቡ ዳግም ፈጠራ፣ out-of-distribution ፈልሳ፣ immune repertoire ምደባ፣ እና ሌሎቻቸውን ያካትታሉ። → ስብስቡን ይቃኙ
- "Is Hopfield Networks All You Need?" (Analytics India Magazine፣ ታኅሳስ 2024) Hochreiter ቡድን Hopfield ኔትወርኮቻቸው "ዘመናዊ transformer ሞዴሎቻቸው ቀዳሚ ሆኑ" ሲሉ ሳቁዋቸው ተግባራዊ-ቅጦቻቸው ሽፋናቸው። → ጽሑፉን ያንብቡ
- "New Research in Hopfield Networks: A Short Intro" (Medium፣ ሐምሌ 2024) ማከማቻ አቅሙ exponential activation functions ሊሠሩ ከ0.138N ወደ 2^(N/2) ሊጨምሩ ሲሉ ቅርቡ ምርምር ቀለል ያለ ሁኔታ ሉዓ የሚሰጥ overview ነው። → Medium ላይ ያንብቡ
አቅጣጫው ግልጽ ነው። ይህ አንድ ሐሳቤ ሐሳቡ ወይም አንድ ጽሑፍ ምናቡ አይደለም። IBM Research፣ Johannes Kepler University፣ MIT፣ NeurIPS፣ Nature Communications፣ እና ሰፊ machine learning ማኅበረሰቡ ከተለያዩ አቅጣጫዎቻቸው ተመሳሳይ ዘጋቢ ይደርሳሉ፡ Hopfield ኃይሉ ላይ የሰረቡ ትስስር ማህደረ ትውስታ ፓራዲሙ, transformers ሳይረዱ ላይ የሠሩ መሠረቱ ብቻ አይደለም, AI ፈቃዳ transformers ብቻ ሊሳካባቸው ሳይቻሉ ሻቀር ሊሸጋሸጋቸው ቅርጸ-ምሳሌው ነው።
ለምን አሁን ወሳኝ ነው፡ ለመቀየር ያለው ምክንያቱ
ደህንነት-ወሳኝ ሥርዓቶቻቸው ዘለቄታዊ ቁርኝቱ ዋስትና
Transformers ውጤቶቻቸውን ያወጣሉ ግን ዘለቄታ ሒሳባዊ ዋስትና የለም። Hopfield ኔትወርኮቻቸው ዘለቄታዊ ሁኔታዎቻቸው ወደ ዝቅታ monotonic ሁኔታ ሆኖ ኃይሉ ዋስትና ሊሠሩ ሲቆምዋሉ ያቀርባሉ። ሮቦቲክስ፣ ሰው-አልባ ተሽከርካሪዎቻቸው፣ ሕክምና ዕቃዎቻቸው፣ እና ዘላቂነቱ ምርጫ የማይቀር ሥርዓቶቻቸው ሁሉ transformers ሊሰጡ የማይቻሉ መስፈርቱ ነው።
ቀዳሚ አቅሙ ሆኖ ትስስር ማህደረ ትውስታ
Hopfield ኔትወርክ ሁኔታ (1, −1, 1, −1, 1) ኃይሉ ዝቅተኛ ቦታ ሆኖ ሳጡ ሆኖ ቃኝቱ ግቤቱ (1, −1, −1, −1, 1) ሲያቀርቡ ኔትወርኩ ትክክሉ ቅጡ ሲቆምዋሉ ይወርዳሉ። አይተጫን ወይም አያቀናቃኙ, ኃይሉ ምድሩ ቁልቁል ወደ ቅርቡ attractor ይወርዳሉ። ሴንሰሮቻቸው ተሸፍኑ ሮቦቲክስ፣ ጫጫታ ካለው ዳታ embedded ሥርዓቶቻቸው፣ እና ፊሉ ቅጦቻቸው ፈልሳ ሊያስፈልጉ ሁሉ አፕሊኬሽን ለዚህ ሙሉ ቅርጸ-ምሳሌ ዕሴቱ ትልቅ ነው።
ዓለምአቀፍ ማመቻቻ ሞተሩ
Hopfield እና David Tank 1985 ዓ.ም. Hopfield ኔትወርኮቻቸው ተጓዡ ሻጭ ችግሩን ሊፈቱ ሲሉ አሳዩ። ዋጋ ተግባሩ Hopfield ኃይሉ ቅርጸ-ምሳሌ ሁኔታ ሊቀምጡ ሲቻሉ፣ ኔትወርኩ ሚዛን ቦታዎቻቸው ናቸው ፍቱናቸው። ጀምሮ፣ አርክቴክቸሩ job-shop ዕቅደ-ሥራ፣ ሽቦ-አልባ ኔትወርኮቻቸው ቻናሉ ምደባ፣ ምስሉ ዳግም ፈጠራ፣ analog-to-digital ቅያሬ፣ ተንቀሳቃሽ ቀጣና፣ እና combinatorial ማመቻቻ ላይ ሙከራ ሆኑ። 2024 Nature Communications ጽሑፍ ሕያዋን አዕምሮዎቻቸው ሆኑ አካባቢያዊ ሕጐቻቸው ሊሠሩ online-ቀጣይ ማህደረ ትውስታ ትምህርቱ Sparse Quantized Hopfield Network አቀረበ, transformers ዋናዊ ሆኖ ይጎደሏቸዋሉ አቅሙ።
ሶፍትዌር ሳያስፈልጋቸው የሚያስቡ ሃርድዌሮቻቸው
ሲሜትሪካዊ ክብደቱ ቅጩ (wᵢⱼ = wⱼᵢ) ቀጥ ሆኖ analog ኤሌክትሮኒካዊ ዑደቶቻቸው ላይ ሊቀለሰሱ ሲቻሉ, ተቃዋሚ ቁርኝቱ ቅሩብ ሲሜትሪካዊ ነው። Hopfield ኔትወርኮቻቸው nanosecond ዕርምጃዎቻቸው ወደ ASICs ወይም FPGAs ሊሠሩ ሊሠሩ ይቻሏቸዋሉ። Nature 2025 neuromorphic computing ስብስቡ ይህ አቅጣጫ ያረጋግጣሉ፡ ኃይሉ ቆጣቢ analog ሃርድዌሮቻቸው edge ላይ ነርቭ ዳይናሚካቸው ሙቃቅ ሆኖ ሊሠሩ, GPU፣ CPU ወይም ሶፍትዌሩ ቁልፍ ሳይኖሩ content-addressable ማህደረ ትውስታ ጋር።
ሃርድዌሩ ቀጥ ሆኖ ነርቭ ኔትወርኩ ዳይናሚካቸው ሙቃቅ ሆኖ የሚሠሩ neuromorphic እና analog AI chips። Hopfield ኔትወርኮቻቸው ሲሜትሪካዊ፣ ኃይሉ ላይ የሠሩ ቅርጸ-ምሳሌ ተቃዋሚ ዑደቶቻቸው ላይ ቀጥ ሆኖ ሊቀለሰሱ, ደምዳሜ ሶፍትዌሩ ቁልፍ ሳይኖሩ nanosecond ዕርምጃዎቻቸው AI ፈልሳ ሊያስፈቅዱ።
ሁለዳዊ እና ቀጣይ ሁኔታ ሊለዋወጡ
ዘውዳዊ Hopfield ኔትወርኮቻቸው ሁለዳዊ ኒዩሮኖቻቸውን (+1 ወይም −1) ሲጠቀሙ፤ ቀጣይ ዓይነቶቻቸው sigmoidal activation እና differential equations ሊጠቀሙ። ዝማኔዎቻቸው asynchronous ሊሆኑ (አንድ ኒዩሮን አንድ ጊዜ፣ ቁርኝቱ ዋስትና ሊሰጡ) ወይም synchronous ሊሆኑ (ሁሉ አንድ ጊዜ፣ parallelism ሊፈቅዱ)። ተመሳሳይ አርክቴክቸሩ ኪሎባይቶቻቸው RAM ካለ microcontroller ጀምሮ ትልቅ ሆኖ parallel FPGA ሸጋ, አሁን ዘመናዊ Hopfield layers ጋር, GPU-accelerated deep learning pipelines ሊሆሩ ሊቀናቀን ሊቻሉ።
ማከማቻ አቅሙ፡ ቅን ቅጡ ገደቡ
ዘውዳዊ ገደሉ ግልጽ ነው፡ N ኒዩሮን ያለ ኔትወርኩ ምቀቀ ሆኖ ምናምናቴ ሁኔታዎቻቸው ፈልሳ ሳይቀናቅኑ ሊከማቹ 0.138N ቅጦቻቸው። ዕውነተኛ ገደሉ ነው, ግን ቅን ነው። Transformers ሊያቃጠሉ መቼ ሊጀምሩ ሒሳባዊ ዋስቱ ሌለው።
ይልቁንም፣ ዘመናዊ Hopfield ኔትወርኮቻቸው (Krotov & Hopfield፣ 2016፤ Demircigil et al.፣ 2017) ከፍ ያለ-ቅደም ተፅዕኖ ቃሎቻቸው ሊሠሩ exponential ማከማቻ አቅሙ ሊያሳኩ ይቻሏቸዋሉ። ምርምሩ ይህን ወሰን ሊያስፋፉ ቀጥሏሉ፡ sparse እና ቅርጸ-ምሳሌ ያለ Hopfield ኔትወርኮቻቸው፣ ረዥም-ቅደም ተከተሉ Hopfield ማህደረ ትውስታ፣ እና asset ምደባ Hopfield ኔትወርኮቻቸው ሁሉ ፈጥኖ ሰፍሮ ጽሑፎቻቸው ያለ ሕያው የምርምር ቦታዎቻቸው ናቸው።
ተግባራዊ ሥርጭቱ፡ ከPCs ወደ ዑደቶቻቸው
ቀዳሚ ነርቭ ኔትወርኩ ምርምረኞቻቸው ዐቢይ ሐሳቡ ግልጽ ነበሩ፡ አንዴ ሲቀምጡ ሁሉ ቦታ ሊሠሩ ሊቻሉ ቅርጸ-ምሳሌ። Hopfield አርክቴክቸሩ ይህን ሊሳካ ሲቻሉ፡
ኮምፒዩተሩ አፕሊኬሽን ክብደቱ matrix እና ዝማኔ ሕጉ። GPU አያስፈልጉ።
Internet አፕሊኬሽን ተመሳሳይነቱ ፈልሳ፣ ምክሩ፣ እና deduplication ሊሠሩ content-addressable ማህደረ ትውስታ።
ሮቦቲክስ ዕውነተኛ-ጊዜ ቁጥጥሩ ዋስቱ ሊሠሩ ቁርኝቱ ዋስትና። attractor ሆኖ ሊከማቹ ሞተሩ ቅጦቻቸው፣ ጫጫታ ካለ ሴንሰሩ ግቤቱ ፈልሳ ሊቻሉ።
Embedded ሥርዓቶቻቸው ሁለዳዊ Hopfield ኔትወርኮቻቸው ብቻ ኢንቲጀሩ ሒሳቡ ሊሠሩ microcontrollers ላይ ሊሠሩ ይቻሏቸዋሉ።
ኤሌክትሮኒካዊ ዑደቶቻቸው ሲሜትሪካዊ ክብደቶቻቸው ተቃዋሚ ኔትወርኮቻቸው ሊቀለሰሱ ሲቻሉ። ብልህነቱ ቀጥ ሆኖ silicon ውስጥ ሊሠሩ ሊቻሉ።
ወደ ፊቱ አቅጣጫ
transformer ዘመን ድንቅ ቋንቋ ሞቶሮቻቸው ሰጥቷቸዋሉ። ነገር ግን ወሰኑ ሮቦቶቻቸው፣ ሴንሰሮቻቸው፣ actuators ሰዎቻቸው፣ እና ዕውነተኛ-ጊዜ ዕልባቶቻቸው ባሉ ፊዚካዊ ዓለሙ ሸጋ ይሄዳሉ። ያ ወሰን ዘለቄታዊ፣ ቆጣቢ፣ ሊተረጎሙ፣ እና ዳር ላሉ ሃርድዌሮቻቸው ሊሠሩ ሊቻሉ አርክቴክቸሮቻቸውን ይፈልጋሉ, ዕውነቱ ያሉ ዕቃዎቻቸው ናቸው።
2020 transformer attention ዘመናዊ Hopfield ዝማኔ ሕጉ ነው ሒሳባዊ ማስረጃ ብቻ ሒሳባዊ ትኩስ ዜና አልነበረም, ሁልጊዜ Hopfield ኔትወርኮቻቸውን ሲጠቀሙ ሲሉ ሊያሳዩ ሆኑ፣ ዕውነተኛ ተፈጥሯቸውን ሸፍኑ ቅርጸ-ምሳሌ ሸሽፈዋሉ። 2025 NeurIPS ጥናቱ Hopfield ሕቡዕ ሁኔታዎቻቸው transformer rank collapse ሁኔታ ፓቶሎጂዎቻቸውን ሊፈቱ ቀጣዩ ደረጃ ሲሉ ይጠቁሙ፡ Hopfield ሐሳቦቻቸውን transformers ላይ ሊተቁ ሳይሆን ቀጥ ሆኖ Hopfield ፓራዲሙ ላይ ሊሠሩ።
John Hopfield 1982 ዓ.ም. አቅጣጫ ሰጥቷቸዋሉ። Donald Hebb 1949 ዓ.ም. ባዮሎጂካዊ መሠረቱ ጣሉ። ምርምሩ ማኅበረሰቡ አሁን ወደ ዚህ ሲቀርቡ ናቸው።
ጊዜው ሊቀየሩ ደርሷቸዋሉ።
ምንጮቻቸው
- Hopfield, J.J. (1982). "Neural networks and physical systems with emergent collective computational abilities." PNAS, 79(8), 2554–2558.
- Hebb, D.O. (1949). The Organization of Behavior. Wiley.
- Ramsauer, H. et al. (2020). "Hopfield Networks is All You Need." ICLR 2021. arXiv:2008.02217
- Krotov, D. & Hopfield, J.J. (2016). "Dense Associative Memory for Pattern Recognition." NeurIPS.
- Storkey, A. (1997). "Increasing the capacity of a Hopfield network without sacrificing functionality." ICANN.
- Hoover, B., Krotov, D. et al. (2023). "Energy Transformer." NeurIPS 2023. arXiv:2302.07253
- Masumura, T. & Taki, M. (2025). "On the Role of Hidden States of Modern Hopfield Network in Transformer." NeurIPS 2025. arXiv:2511.20698
- Alonso, N. & Krichmar, J. (2024). "A sparse quantized Hopfield network for online-continual memory." Nature Communications, 15, 3722. nature.com
- Hu, J.Y. et al. (2024). "Outlier-Efficient Hopfield Layers for Large Transformer-Based Models." arXiv:2404.03828
- Hu, J.Y. et al. (2026). "Transformers as Intrinsic Optimizers: Forward Inference through the Energy Principle." arXiv:2511.00907
- Hopfield, J.J. & Tank, D.W. (1985). "'Neural' Computation of Decisions in Optimization Problems." Biological Cybernetics, 52, 141–152.
- Bruck, J. (1990). "On the convergence properties of the Hopfield model." Proceedings of the IEEE.
- Krotov, D. (2025). "Searching for brain-inspired AI algorithms." IBM Research Blog. research.ibm.com
- "Energy-Based Learning and the Evolution of Hopfield Networks." TechRxiv, April 2025. techrxiv.org