মার্কেট মেকিং আমরা প্রথাগত আর্থিক বাজারে বাজার তৈরির মেকানিক্স এবং কৌশলগুলি অন্বেষণ করেছি। সেই অন্তর্দৃষ্টিগুলির উপর ভিত্তি করে, এই নিবন্ধটি Uniswap V3 এর প্রেক্ষাপটে বুদ্ধিমান তারল্য বিধানের জন্য একটি উদ্ভাবনী কাঠামোর পরিচয় দেয়। আমাদের পূর্ববর্তী গবেষণায় উল্লিখিত হিসাবে, আমাদের লক্ষ্য ছিল বিকেন্দ্রীভূত অর্থায়নে ( DeFi) বাজারের গতিশীলতা এবং তারল্য ব্যবস্থাপনা সম্পর্কে আমাদের বোঝার প্রসারিত করা, বিশেষত ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্কের বিকাশের মাধ্যমে।
রাজ্য: রাজ্যগুলি সম্পদের দাম, ট্রেডিং ভলিউম এবং অন্যান্য প্রাসঙ্গিক ভেরিয়েবল সহ বর্তমান বাজারের অবস্থার প্রতিনিধিত্ব করে।
ক্রিয়া: ক্রিয়াগুলি তারল্য প্রদানকারীর দ্বারা নেওয়া সিদ্ধান্তগুলির সাথে সামঞ্জস্যপূর্ণ, যেমন তারল্য বরাদ্দ সামঞ্জস্য করা, পোর্টফোলিওগুলির ভারসাম্য বজায় রাখা ইত্যাদি।
পুরষ্কার: পুরষ্কারগুলি তারল্য প্রদানকারীর উদ্দেশ্যমূলক ফাংশন, পছন্দ এবং সীমাবদ্ধতার উপর ভিত্তি করে ফলাফলের আকাঙ্খিততাকে পরিমাপ করে। পুরষ্কারগুলি পছন্দসই ফলাফলের জন্য ইতিবাচক হতে পারে (যেমন, উচ্চ রিটার্ন) এবং অবাঞ্ছিত ফলাফলের জন্য নেতিবাচক হতে পারে (যেমন, উচ্চ ঝুঁকি বা নিম্ন কর্মক্ষমতা)।
উদ্দেশ্য ফাংশন: উদ্দেশ্য ফাংশন তারল্য প্রদানকারীর কাঙ্খিত ফলাফলের প্রতিনিধিত্ব করে, যা রিটার্ন সর্বাধিক করা, ঝুঁকি হ্রাস করা বা উভয়ের মধ্যে একটি নির্দিষ্ট ট্রেড-অফ অর্জনের মতো কারণগুলির সংমিশ্রণ হতে পারে। সীমাবদ্ধতার মধ্যে তারল্য বরাদ্দ, মূলধন ব্যবহার, ঝুঁকি সহনশীলতার মাত্রা বা তারল্য প্রদানকারী দ্বারা সংজ্ঞায়িত অন্যান্য সীমাবদ্ধতা অন্তর্ভুক্ত থাকতে পারে।
ABM-এ বিভিন্ন ধরনের এজেন্ট রয়েছে, প্রত্যেকটি Uniswap V3 ইকোসিস্টেমের মধ্যে একটি নির্দিষ্ট ভূমিকার প্রতিনিধিত্ব করে। দুটি প্রধান এজেন্ট হল লিকুইডিটি প্রোভাইডার এজেন্ট এবং সোয়াপার এজেন্ট, যা যথাক্রমে লিকুইডিটি প্রদান এবং টোকেন অদলবদল করতে ইউনিসঅ্যাপ পুলের সাথে যোগাযোগ করে। এই এজেন্টদের আচরণ agents_policies.py
ফাইলে সংজ্ঞায়িত নীতির দ্বারা নির্দেশিত হয়, নিশ্চিত করে যে তাদের ক্রিয়াগুলি বাস্তব-বিশ্বের কৌশল এবং বাজারের অবস্থার সাথে সামঞ্জস্যপূর্ণ।
লিকুইডিটি প্রোভাইডার এজেন্ট: এই এজেন্ট Uniswap পুল থেকে তারল্য যোগ করে এবং সরিয়ে দেয়। এটি নীতির একটি সেট অনুসরণ করে যা বাজারের বর্তমান অবস্থা এবং এজেন্টের পছন্দের উপর ভিত্তি করে তার ক্রিয়াকলাপ নির্দেশ করে।
সোয়াপার এজেন্ট: সোয়াপার এজেন্ট দামের অসঙ্গতি এবং সালিশের সুযোগের সুবিধা নিয়ে ইউনিসোয়াপ পুলের মধ্যে টোকেন অদলবদল করে। লেনদেন ফি এবং স্লিপেজ বিবেচনা করে, এর আচরণ এমন নীতি দ্বারা পরিচালিত হয় যা ব্যবসার সম্ভাব্য লাভের মূল্যায়ন করে।
netlist.py
ফাইলটি ABM-এর কেন্দ্রবিন্দু, এজেন্টরা একে অপরের সাথে এবং Uniswap পুলের সাথে কীভাবে যোগাযোগ করে তা কনফিগার করে। এটি এজেন্ট, নীতি এবং সিমুলেশন পরিবেশের মধ্যে সম্পর্ক সংজ্ঞায়িত করে।
SimEngine.py
, SimStateBase.py
, এবং SimStrategyBase.py
মডিউলগুলি সিমুলেশন চালানোর জন্য মৌলিক উপাদান প্রদান করে। SimEngine সিমুলেশন অর্কেস্ট্রেট করে, সময়ের প্রবাহ পরিচালনা করে এবং এজেন্টের ক্রিয়া সম্পাদন করে। SimStateBase সিমুলেশনের বর্তমান অবস্থা বজায় রাখে, এজেন্ট হোল্ডিং, পুল স্টেট এবং অন্যান্য প্রাসঙ্গিক ভেরিয়েবলের ডেটা সংরক্ষণ করে। SimStrategyBase অত্যধিক কৌশলগুলিকে সংজ্ঞায়িত করে যা সিমুলেশন জুড়ে এজেন্টের আচরণকে নির্দেশ করে।
RL এজেন্ট একটি কাস্টম পরিবেশে কাজ করে, DiscreteSimpleEnv
, যা DeFi বাজারকে অনুকরণ করতে Uniswap মডেল এবং এজেন্ট-ভিত্তিক মডেলের সাথে ইন্টারফেস করে। এই পরিবেশটি Uniswap পুলের সাথে এজেন্টের মিথস্ক্রিয়াকে সহজতর করে, এটি তরলতা যোগ করতে এবং অপসারণ করতে এবং এর কর্মের পরিণতি পর্যবেক্ষণ করতে দেয়। RL এজেন্ট Uniswap V3-এ বাস্তব-বিশ্বের তারল্য বিধান অনুকরণ করতে Uniswap মডেল এবং ABM-এর সাথে যোগাযোগ করে। এটি এমন ক্রিয়াগুলি বেছে নেয় যার ফলে তরলতা যোগ বা অপসারণ হয়, নীতি এবং সিমুলেশন কনফিগারেশন ABM-এ সংজ্ঞায়িত করে, বাস্তবসম্মত মিথস্ক্রিয়া নিশ্চিত করে।
স্টেট স্পেস: পরিবেশের স্টেট স্পেস বিভিন্ন বাজার সূচক যেমন বর্তমান মূল্য, তারল্য এবং ফি বৃদ্ধি অন্তর্ভুক্ত করে। এই প্যারামিটারগুলি স্বাভাবিক করা হয় এবং প্রতিটি টাইমস্টেপে এজেন্টকে প্রদান করা হয়।
অ্যাকশন স্পেস: এজেন্টের অ্যাকশন স্পেস অবিচ্ছিন্ন মান নিয়ে গঠিত যা একটি ইউনিসঅ্যাপ পুলে তারল্য যোগ করার জন্য মূল্যের সীমার প্রতিনিধিত্ব করে। এই ক্রিয়াগুলি পরিবেশের অবস্থাকে প্রভাবিত করে, Uniswap পুলের সাথে মিথস্ক্রিয়ায় অনুবাদ করা হয়।
পুরস্কার ফাংশন: পুরস্কার ফাংশন RL এজেন্ট প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ. এটি ফি আয়, অস্থায়ী ক্ষতি, পোর্টফোলিও মান এবং সম্ভাব্য জরিমানা বিবেচনা করে, এজেন্টের শেখার প্রক্রিয়াকে গাইড করার জন্য একটি স্কেলার পুরষ্কার সংকেত প্রদান করে।
RL এজেন্ট Uniswap V3-এ বাস্তব-বিশ্বের তারল্য বিধান অনুকরণ করতে Uniswap মডেল এবং এজেন্ট-ভিত্তিক মডেলের সুবিধা দেয়। এটি DiscreteSimpleEnv
এর মাধ্যমে Uniswap পুলের সাথে ইন্টারঅ্যাক্ট করে, ক্রিয়া সম্পাদন করে যার ফলে তারল্য যোগ বা অপসারণ হয়। এজেন্টের নীতি এবং সিমুলেশন কনফিগারেশন ABM উপাদানে সংজ্ঞায়িত করা হয়েছে, একটি বাস্তবসম্মত এবং সুসংগত গতিশীল পরিবেশ নিশ্চিত করে।
ট্রেন এবং মূল্যায়ন এজেন্ট: এজেন্টকে কয়েকটি পর্বে প্রশিক্ষিত করা হয়, প্রতিটি একটি ভিন্ন বাজারের দৃশ্যের প্রতিনিধিত্ব করে (ভিন্ন পুল)। এজেন্টের কর্মক্ষমতা মূল্যায়ন করা হয় তারল্য বিধানের সাথে যুক্ত ঝুঁকি কমানোর সাথে সাথে সর্বোচ্চ আয় বাড়ানোর ক্ষমতার উপর ভিত্তি করে। ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্কের কার্যকারিতা রিইনফোর্সমেন্ট লার্নিং (RL) এজেন্টের কর্মক্ষমতা মূল্যায়নের মাধ্যমে মূল্যায়ন করা হয়।
এনভায়রনমেন্ট সেটআপ: RL এজেন্টের মূল্যায়ন করার জন্য, আমরা একটি বিশেষ মূল্যায়ন পরিবেশ, DiscreteSimpleEnvEval
সেট আপ করি, যা বেস পরিবেশকে প্রসারিত করে, DiscreteSimpleEnv
। এই পরিবেশটি এজেন্ট নীতির মূল্যায়নের জন্য তৈরি করা হয়েছে।
বেসলাইন এজেন্ট: আমাদের মূল্যায়ন সেটআপে, আমরা একটি বেসলাইন এজেন্টের সাথে আরএল এজেন্টের কর্মক্ষমতা তুলনা করি। বেসলাইন এজেন্টের ক্রিয়াগুলি একটি বেসলাইন নীতি দ্বারা নির্ধারিত হয় যা তারল্য পুলের বর্তমান অবস্থার উপর নির্ভর করে। এই এজেন্টের লক্ষ্য হল RL এজেন্টের কর্মক্ষমতা মূল্যায়নের জন্য একটি রেফারেন্স পয়েন্ট প্রদান করা।
প্রশিক্ষণ
মূল্যায়ন
পুল সিঙ্ক্রোনাইজেশন: বর্তমানে, ফ্রেমওয়ার্ক পুলের রিয়েল-টাইম সিঙ্ক্রোনাইজেশনকে পুরোপুরি ক্যাপচার করে না, যা বাস্তব Uniswap V3 ডায়নামিক্সের মডেলিংয়ে অসঙ্গতি সৃষ্টি করতে পারে। ভবিষ্যত কাজের আরও ভাল পুল সিঙ্ক্রোনাইজেশনের জন্য মেকানিজম অন্তর্ভুক্ত করার উপর ফোকাস করা উচিত, সম্ভাব্যভাবে টিক/পজিশন ডেটা বা ইভেন্টগুলি বাস্তববাদকে উন্নত করার জন্য ব্যবহার করা।
সাদামাটা এজেন্ট নীতি: বর্তমান কাঠামোতে নিযুক্ত এজেন্ট নীতিগুলি তুলনামূলকভাবে সহজ এবং সরল। আরও সঠিক সিমুলেশন অর্জনের জন্য, ভবিষ্যতের পুনরাবৃত্তির লক্ষ্য হওয়া উচিত আরও ব্যাপক এজেন্ট নীতিগুলি সংজ্ঞায়িত করা। এই নীতিগুলি বিভিন্ন ধরণের Uniswap এজেন্টের মডেল হতে পারে, যেমন নয়েজ ট্রেডার, অবহিত ব্যবসায়ী, খুচরা তারল্য প্রদানকারী এবং প্রাতিষ্ঠানিক তারল্য প্রদানকারী। বিকল্পভাবে, ঐতিহাসিক পুল ডেটাতে প্রশিক্ষিত পরিসংখ্যান মডেলগুলি আরও বাস্তবসম্মত আচরণের জন্য এজেন্ট নীতিগুলিকে অবহিত করতে পারে।
স্পার্স অবজারভেশন স্পেস: এজেন্টদের দেওয়া পর্যবেক্ষণের জায়গাটিতে পুলের অবস্থা সম্পর্কে ব্যাপক তথ্যের অভাব রয়েছে। সিদ্ধান্ত গ্রহণের ক্ষমতা উন্নত করতে, ভবিষ্যতের উন্নতিতে টিক এবং অবস্থানের ডেটা অন্তর্ভুক্ত করা উচিত, সাথে ইঞ্জিনিয়ারড বৈশিষ্ট্যগুলি যা এজেন্টদের পুলের অবস্থা সম্পর্কে আরও ব্যাপক বোঝার প্রস্তাব দেয়।
সীমিত অ্যাকশন স্পেস: এজেন্টদের জন্য অ্যাকশন স্পেস বর্তমানে সীমাবদ্ধ, নির্দিষ্ট তারল্য পরিমাণ এবং সীমিত মূল্যের সীমার সাথে। তারল্য বিধানে আরও নমনীয়তার জন্য অ্যাকশন স্পেস প্রসারিত করা, সেইসাথে প্রতি ধাপে একাধিক অবস্থান বিবেচনা করা, সিমুলেশনের বিশ্বস্ততাকে উন্নত করতে পারে।
সিঙ্ক করা পুল: ইউনিসওয়াপ V3 পরিবেশে আরও বাস্তবসম্মত গতিশীলতা তৈরি করতে, সম্ভবত টিক/পজিশন ডেটা বা ইভেন্টগুলি ব্যবহার করে পুলগুলিকে সিঙ্ক্রোনাইজ করার পদ্ধতি প্রয়োগ করুন।
হাইপারপ্যারামিটার টিউনিং: অভিনেতা/সমালোচক নেটওয়ার্ক আর্কিটেকচার, আলফা, বিটা, টাউ, ব্যাচের আকার, পদক্ষেপ, পর্ব, স্কেলিং প্যারামিটার (পুরস্কার, ক্রিয়া, পর্যবেক্ষণ স্থান)
বিস্তৃত এজেন্ট নীতি: আরও পরিশীলিত বিশ্লেষণাত্মক নীতিগুলি সংজ্ঞায়িত করুন যা সঠিকভাবে বিভিন্ন Uniswap এজেন্টকে মডেল করে বা এজেন্ট আচরণ জানাতে ঐতিহাসিক পুল ডেটাতে প্রশিক্ষিত পরিসংখ্যানগত মডেলগুলি ব্যবহার করে৷
তথ্যপূর্ণ পর্যবেক্ষণ স্থান: টিক এবং অবস্থানের ডেটা এবং প্রকৌশলী বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে পর্যবেক্ষণের স্থানকে উন্নত করুন যা এজেন্টদের পুলের অবস্থার একটি বিস্তৃত দৃশ্য প্রদান করে।
উন্নত পুরষ্কার ফাংশন: একটি উন্নত পুরষ্কার ফাংশন বিকাশ করুন যা বিস্তৃত কারণগুলির জন্য দায়ী, যা আরও কার্যকর এজেন্ট প্রশিক্ষণের দিকে পরিচালিত করে।
একাধিক অবস্থান: প্রতিটি টাইমস্টেপে একটি নির্দিষ্ট বাজেটের সাথে একটি অবস্থানের পরিবর্তে, একটি আরও ব্যাপক পদ্ধতি প্রয়োগ করুন যাতে এজেন্টকে সিমুলেশনের শুরুতে একবার একটি বাজেট বরাদ্দ করা হয় এবং তারপরে পরবর্তী ধাপে এই বাজেটটি সর্বোত্তমভাবে ব্যবহার করতে শেখে।
বেসলাইন পলিসি: আরএল এজেন্টের কর্মক্ষমতা মূল্যায়ন করতে আরও ব্যাপক বেসলাইন নীতি নির্ধারণ করুন
হাইপারপ্যারামিটার টিউনিং: আরও ভাল প্রশিক্ষণ কর্মক্ষমতার জন্য রিইনফোর্সমেন্ট লার্নিং এজেন্টের হাইপারপ্যারামিটারগুলিকে আরও পরিমার্জিত এবং অপ্টিমাইজ করুন।
অন্যান্য RL এজেন্টদের সাথে পরীক্ষা: বিকল্প RL এজেন্ট মডেলগুলি অন্বেষণ করুন, যেমন প্রক্সিমাল পলিসি অপ্টিমাইজেশান (PPO) বা সফট অ্যাক্টর-ক্রিটিক (SAC), তারা নির্দিষ্ট পরিস্থিতিতে সুবিধাগুলি অফার করে কিনা তা নির্ধারণ করতে৷
মাল্টি-এজেন্ট RL (MARL): মাল্টি-এজেন্ট শক্তিবৃদ্ধি শেখার কৌশলগুলির প্রয়োগের তদন্ত করুন, যা একাধিক তরলতা প্রদানকারী এবং সোয়াপারদের মধ্যে মিথস্ক্রিয়া মডেলিংয়ের জন্য উপকারী হতে পারে।
অনলাইন লার্নিং: অনলাইন লার্নিং কৌশলগুলি বাস্তবায়ন করুন যা এজেন্টদের রিয়েল টাইমে বাজারের পরিবর্তিত অবস্থার সাথে খাপ খাইয়ে নিতে দেয়, আরও গতিশীল এবং অভিযোজিত তারল্য বিধানের সমাধান প্রদান করে।