बाजार निर्माण पर मेरे पिछले लेख हमने पारंपरिक वित्तीय बाजारों में बाजार निर्माण की यांत्रिकी और रणनीतियों का पता लगाया। उन अंतर्दृष्टियों के आधार पर, यह लेख Uniswap V3 के संदर्भ में बुद्धिमान तरलता प्रावधान के लिए एक अभिनव रूपरेखा प्रस्तुत करता है। जैसा कि हमारे पूर्व शोध में बताया गया है, हमारा लक्ष्य विकेंद्रीकृत वित्त ( डीएफआई) में बाजार की गतिशीलता और तरलता प्रबंधन की हमारी समझ का विस्तार करना था, विशेष रूप से इंटेलिजेंट लिक्विडिटी प्रोविजनिंग फ्रेमवर्क के विकास के माध्यम से।
राज्य: राज्य वर्तमान बाजार स्थितियों का प्रतिनिधित्व करते हैं, जिसमें परिसंपत्ति की कीमतें, व्यापार की मात्रा और अन्य प्रासंगिक चर शामिल हैं।
क्रियाएँ: क्रियाएँ तरलता प्रदाता द्वारा लिए गए निर्णयों के अनुरूप होती हैं, जैसे कि तरलता आवंटन को समायोजित करना, पोर्टफोलियो को पुनर्संतुलित करना आदि।
पुरस्कार: पुरस्कार तरलता प्रदाता के उद्देश्य कार्य, प्राथमिकताओं और बाधाओं के आधार पर परिणामों की वांछनीयता को मापते हैं। वांछनीय परिणामों (जैसे, उच्च रिटर्न) के लिए पुरस्कार सकारात्मक हो सकते हैं और अवांछनीय परिणामों (जैसे, उच्च जोखिम या कम प्रदर्शन) के लिए नकारात्मक हो सकते हैं।
उद्देश्य फ़ंक्शन: उद्देश्य फ़ंक्शन तरलता प्रदाता के वांछित परिणाम का प्रतिनिधित्व करता है, जो रिटर्न को अधिकतम करने, जोखिमों को कम करने या दोनों के बीच एक विशिष्ट व्यापार-बंद प्राप्त करने जैसे कारकों का संयोजन हो सकता है। बाधाओं में तरलता आवंटन, पूंजी उपयोग, जोखिम सहनशीलता स्तर, या तरलता प्रदाता द्वारा परिभाषित अन्य प्रतिबंध शामिल हो सकते हैं।
एबीएम में विभिन्न एजेंट प्रकार शामिल हैं, जिनमें से प्रत्येक Uniswap V3 पारिस्थितिकी तंत्र के भीतर एक विशिष्ट भूमिका का प्रतिनिधित्व करता है। दो मुख्य एजेंट तरलता प्रदाता एजेंट और स्वैपर एजेंट हैं, जो क्रमशः तरलता प्रदान करने और टोकन स्वैप करने के लिए यूनिस्वैप पूल के साथ बातचीत करते हैं। इन एजेंटों का व्यवहार agents_policies.py
फ़ाइल में परिभाषित नीतियों द्वारा निर्धारित होता है, यह सुनिश्चित करते हुए कि उनके कार्य वास्तविक दुनिया की रणनीतियों और बाजार स्थितियों के साथ संरेखित हैं।
तरलता प्रदाता एजेंट: यह एजेंट यूनिस्वैप पूल से तरलता जोड़ता और हटाता है। यह नीतियों के एक समूह का पालन करता है जो बाजार की वर्तमान स्थिति और एजेंट की प्राथमिकताओं के आधार पर अपने कार्यों को निर्देशित करता है।
स्वैपर एजेंट: स्वैपर एजेंट मूल्य विसंगतियों और मध्यस्थता के अवसरों का लाभ उठाते हुए, यूनिस्वैप पूल के भीतर टोकन स्वैप करता है। इसका व्यवहार उन नीतियों द्वारा निर्देशित होता है जो लेनदेन शुल्क और फिसलन पर विचार करते हुए ट्रेडों की संभावित लाभप्रदता का आकलन करती हैं।
netlist.py
फ़ाइल ABM के केंद्र में है, यह कॉन्फ़िगर करती है कि एजेंट एक-दूसरे के साथ और Uniswap पूल के साथ कैसे इंटरैक्ट करते हैं। यह एजेंटों, नीतियों और सिमुलेशन वातावरण के बीच संबंधों को परिभाषित करता है।
SimEngine.py
, SimStateBase.py
, और SimStrategyBase.py
मॉड्यूल सिमुलेशन चलाने के लिए मूलभूत तत्व प्रदान करते हैं। SimEngine सिमुलेशन को व्यवस्थित करता है, समय के प्रवाह को प्रबंधित करता है और एजेंट कार्यों के निष्पादन को प्रबंधित करता है। SimStateBase एजेंट होल्डिंग्स, पूल स्थिति और अन्य प्रासंगिक चर पर डेटा संग्रहीत करते हुए, सिमुलेशन की वर्तमान स्थिति को बनाए रखता है। SimStrategyBase व्यापक रणनीतियों को परिभाषित करता है जो पूरे सिमुलेशन में एजेंट के व्यवहार को निर्देशित करता है।
आरएल एजेंट एक कस्टम वातावरण, DiscreteSimpleEnv
में काम करता है, जो डेफी बाजार का अनुकरण करने के लिए यूनिस्वैप मॉडल और एजेंट-आधारित मॉडल के साथ इंटरफेस करता है। यह वातावरण यूनिस्वैप पूल के साथ एजेंट की बातचीत को सुविधाजनक बनाता है, जिससे उसे तरलता जोड़ने और हटाने की अनुमति मिलती है, और उसके कार्यों के परिणामों का निरीक्षण होता है। आरएल एजेंट Uniswap V3 में वास्तविक दुनिया की तरलता प्रावधान का अनुकरण करने के लिए Uniswap मॉडल और ABM के साथ इंटरैक्ट करता है। यह एबीएम में परिभाषित नीतियों और सिमुलेशन कॉन्फ़िगरेशन के साथ, यथार्थवादी इंटरैक्शन सुनिश्चित करते हुए, तरलता जोड़ने या हटाने वाली कार्रवाइयों को चुनता है।
राज्य स्थान: पर्यावरण के राज्य स्थान में वर्तमान मूल्य, तरलता और शुल्क वृद्धि जैसे विभिन्न बाजार संकेतक शामिल हैं। इन मापदंडों को सामान्यीकृत किया जाता है और प्रत्येक समय-चरण पर एजेंट को प्रदान किया जाता है।
एक्शन स्पेस: एजेंट के एक्शन स्पेस में यूनिस्वैप पूल में तरलता जोड़ने के लिए मूल्य सीमा का प्रतिनिधित्व करने वाले निरंतर मूल्य शामिल होते हैं। इन क्रियाओं को Uniswap पूल के साथ बातचीत में परिवर्तित किया जाता है, जिससे पर्यावरण की स्थिति प्रभावित होती है।
रिवॉर्ड फ़ंक्शन: आरएल एजेंट को प्रशिक्षित करने के लिए रिवॉर्ड फ़ंक्शन महत्वपूर्ण है। यह शुल्क आय, अस्थायी हानि, पोर्टफोलियो मूल्य और संभावित दंड को ध्यान में रखता है, एजेंट की सीखने की प्रक्रिया को निर्देशित करने के लिए एक स्केलर इनाम संकेत प्रदान करता है।
आरएल एजेंट Uniswap V3 में वास्तविक दुनिया की तरलता प्रावधान का अनुकरण करने के लिए Uniswap मॉडल और एजेंट-आधारित मॉडल का लाभ उठाता है। यह DiscreteSimpleEnv
के माध्यम से Uniswap पूल के साथ इंटरैक्ट करता है, ऐसी क्रियाएं करता है जिसके परिणामस्वरूप तरलता जुड़ती या हटती है। एजेंट की नीतियों और सिमुलेशन कॉन्फ़िगरेशन को एबीएम घटक में परिभाषित किया गया है, जो एक यथार्थवादी और सुसंगत गतिशील वातावरण सुनिश्चित करता है।
एजेंट को प्रशिक्षित करें और उसका मूल्यांकन करें: एजेंट को एपिसोड की एक श्रृंखला में प्रशिक्षित किया जाता है, प्रत्येक एपिसोड एक अलग बाजार परिदृश्य (अलग पूल) का प्रतिनिधित्व करता है। तरलता प्रावधान से जुड़े जोखिमों को कम करते हुए रिटर्न को अधिकतम करने की क्षमता के आधार पर एजेंट के प्रदर्शन का मूल्यांकन किया जाता है। इंटेलिजेंट लिक्विडिटी प्रोविजनिंग फ्रेमवर्क की प्रभावशीलता का आकलन सुदृढीकरण शिक्षण (आरएल) एजेंट के प्रदर्शन के मूल्यांकन के माध्यम से किया जाता है।
पर्यावरण सेटअप: आरएल एजेंट का मूल्यांकन करने के लिए, हमने एक विशेष मूल्यांकन वातावरण, DiscreteSimpleEnvEval
स्थापित किया है, जो आधार वातावरण, DiscreteSimpleEnv
का विस्तार करता है। यह वातावरण एजेंट नीतियों के मूल्यांकन के लिए तैयार किया गया है।
बेसलाइन एजेंट: हमारे मूल्यांकन सेटअप में, हम आरएल एजेंट के प्रदर्शन की तुलना बेसलाइन एजेंट के प्रदर्शन से करते हैं। बेसलाइन एजेंट की कार्रवाइयां एक बेसलाइन नीति द्वारा निर्धारित की जाती हैं जो तरलता पूल की वर्तमान स्थिति पर निर्भर करती है। इस एजेंट का लक्ष्य आरएल एजेंट के प्रदर्शन के मूल्यांकन के लिए एक संदर्भ बिंदु प्रदान करना है।
प्रशिक्षण
मूल्यांकन
पूल सिंक्रोनाइज़ेशन: वर्तमान में, फ्रेमवर्क पूल के वास्तविक समय सिंक्रोनाइज़ेशन को पूरी तरह से कैप्चर नहीं करता है, जिससे वास्तविक Uniswap V3 डायनेमिक्स के मॉडलिंग में विसंगतियाँ हो सकती हैं। भविष्य के काम में बेहतर पूल सिंक्रनाइज़ेशन के लिए तंत्र को शामिल करने, यथार्थवाद को बढ़ाने के लिए संभावित रूप से टिक/पोजीशन डेटा या घटनाओं का उपयोग करने पर ध्यान केंद्रित करना चाहिए।
अनुभवहीन एजेंट नीतियां: वर्तमान ढांचे में नियोजित एजेंट नीतियां अपेक्षाकृत सरल और अनुभवहीन हैं। अधिक सटीक सिमुलेशन प्राप्त करने के लिए, भविष्य के पुनरावृत्तियों का लक्ष्य अधिक व्यापक एजेंट नीतियों को परिभाषित करना होना चाहिए। ये नीतियां विभिन्न प्रकार के यूनिस्वैप एजेंटों को मॉडल कर सकती हैं, जैसे शोर व्यापारी, सूचित व्यापारी, खुदरा तरलता प्रदाता और संस्थागत तरलता प्रदाता। वैकल्पिक रूप से, ऐतिहासिक पूल डेटा पर प्रशिक्षित सांख्यिकीय मॉडल अधिक यथार्थवादी व्यवहार के लिए एजेंट नीतियों को सूचित कर सकते हैं।
विरल अवलोकन स्थान: एजेंटों को प्रदान किए गए अवलोकन स्थान में पूल की स्थिति के बारे में व्यापक जानकारी का अभाव है। निर्णय लेने की क्षमताओं में सुधार करने के लिए, भविष्य के संवर्द्धन में टिक और स्थिति डेटा के साथ-साथ इंजीनियर विशेषताएं शामिल होनी चाहिए जो एजेंटों को पूल की स्थिति की अधिक व्यापक समझ प्रदान करती हैं।
सीमित कार्य स्थान: निश्चित तरलता मात्रा और प्रतिबंधित मूल्य सीमा सीमाओं के साथ, एजेंटों के लिए कार्य स्थान वर्तमान में सीमित है। तरलता प्रावधान में अधिक लचीलेपन की अनुमति देने के लिए एक्शन स्पेस का विस्तार करना, साथ ही प्रति चरण कई स्थितियों पर विचार करना, सिमुलेशन की निष्ठा को बढ़ा सकता है।
सिंक किए गए पूल: Uniswap V3 वातावरण में अधिक यथार्थवादी गतिशीलता बनाने के लिए, संभवतः टिक/स्थिति डेटा या घटनाओं का उपयोग करके, पूल को सिंक्रनाइज़ करने के लिए तंत्र लागू करें।
हाइपरपैरामीटर ट्यूनिंग: अभिनेता/आलोचक नेटवर्क आर्किटेक्चर, अल्फा, बीटा, ताऊ, बैच आकार, चरण, एपिसोड, स्केलिंग पैरामीटर (पुरस्कार, क्रियाएं, अवलोकन स्थान)
व्यापक एजेंट नीतियां: अधिक परिष्कृत विश्लेषणात्मक नीतियों को परिभाषित करें जो विभिन्न यूनिस्वैप एजेंटों को सटीक रूप से मॉडल करती हैं या एजेंट व्यवहार को सूचित करने के लिए ऐतिहासिक पूल डेटा पर प्रशिक्षित सांख्यिकीय मॉडल का उपयोग करती हैं।
जानकारीपूर्ण अवलोकन स्थान: टिक और स्थिति डेटा और इंजीनियर सुविधाओं को शामिल करके अवलोकन स्थान को बढ़ाएं जो एजेंटों को पूल की स्थिति का व्यापक दृश्य प्रदान करते हैं।
बेहतर इनाम फ़ंक्शन: एक बेहतर इनाम फ़ंक्शन विकसित करें जो कारकों की एक विस्तृत श्रृंखला को ध्यान में रखता है, जिससे अधिक प्रभावी एजेंट प्रशिक्षण प्राप्त होता है।
एकाधिक पद: प्रत्येक समय-चरण पर एक निश्चित बजट के साथ एक पद के बजाय, एक अधिक व्यापक तंत्र लागू करें जिसमें एजेंट को सिमुलेशन की शुरुआत में एक बार बजट आवंटित किया जाता है और फिर बाद के चरणों में इस बजट का इष्टतम उपयोग करना सीखता है।
बेसलाइन नीतियां: आरएल एजेंट के प्रदर्शन का मूल्यांकन करने के लिए अधिक व्यापक बेसलाइन नीतियां परिभाषित करें
हाइपरपैरामीटर ट्यूनिंग: बेहतर प्रशिक्षण प्रदर्शन के लिए सुदृढीकरण शिक्षण एजेंट के हाइपरपैरामीटर को और अधिक परिष्कृत और अनुकूलित करें।
अन्य आरएल एजेंटों के साथ प्रयोग: यह निर्धारित करने के लिए कि क्या वे विशिष्ट परिदृश्यों में लाभ प्रदान करते हैं, वैकल्पिक आरएल एजेंट मॉडल, जैसे प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (पीपीओ) या सॉफ्ट एक्टर-क्रिटिक (एसएसी) का पता लगाएं।
मल्टी-एजेंट आरएल (एमएआरएल): मल्टी-एजेंट सुदृढीकरण सीखने की तकनीकों के अनुप्रयोग की जांच करें, जो कई तरलता प्रदाताओं और स्वैपर्स के बीच मॉडलिंग इंटरैक्शन के लिए फायदेमंद हो सकता है।
ऑनलाइन शिक्षण: ऑनलाइन शिक्षण रणनीतियों को लागू करें जो एजेंटों को वास्तविक समय में बदलती बाजार स्थितियों के अनुकूल होने की अनुमति देती हैं, और अधिक गतिशील और अनुकूली तरलता प्रावधान समाधान प्रदान करती हैं।