این تعهد به هیچ شاخه ای در این مخزن تعلق ندارد و ممکن است متعلق به یک چنگال خارج از مخزن باشد.
نام در حال استفاده است
یک برچسب از قبل با نام شعبه موجود وجود دارد. بسیاری از دستورات دستگاه گوارش قبول هر دو نام تگ و شاخه, بنابراین ایجاد این شاخه ممکن است رفتار غیر منتظره باعث. شما حاصل کنید که شما می خواهید برای ایجاد این شاخه?
- محلی
- فضاهای کد
استفاده از دستگاه گوارش و یا پرداخت با اس وی ان با استفاده از نشانی وب.
سریع با مشتری رسمی ما کار کنید. بیشتر بدانید.
ورود به سیستم لازم است
لطفا برای استفاده از کدهای فضایی وارد سیستم شوید.
راهاندازی دسکتاپ گیتهاب
اگر چیزی اتفاق می افتد, دانلود دسکتاپ گیتهاب و دوباره امتحان کنید.
راهاندازی دسکتاپ گیتهاب
اگر چیزی اتفاق می افتد, دانلود دسکتاپ گیتهاب و دوباره امتحان کنید.
راه اندازی کد
اگر چیزی اتفاق می افتد, دانلود کد و دوباره امتحان کنید.
راه اندازی کد ویژوال استودیو
فضای کد شما یک بار باز می شود.
یک مشکل تهیه فضای کد خود را وجود دارد, لطفا دوباره امتحان کنید.
جدیدترین تعهد
گیت استاتس
پروندهها
بارگیری جدیدترین اطلاعات متعهد شکست خورد.
README. md
فهرست مطالب
داده های استفاده شده از گوگل ترندز بارگیری می شوند. مفهوم این پروژه از تحقیقات توبیاس پرایس, هلن سوزانا خندق, و اچ.یوجین استنلی, "کمی رفتار تجاری در بازارهای مالی با استفاده از روند گوگل". در این تحقیق مشخص شد که حجم جستجو برای کلمات خاص (مالی) با قیمت سهام میانگین قیمت سهام صنعتی داو جونز مرتبط است و در بیشتر موارد می تواند افت بازار را پیش بینی کند. هدف از این پروژه ترکیب این تحقیق با یادگیری ماشین است.
دو الگوریتم یادگیری ماشین برای این پروژه مورد بررسی قرار گرفته است: ایکس جی بوست و امالپکلاسیفایر. به طور واضح عملکرد بهتر از ایکس جی بوست. بهترین بازده سالانه که ایکس جی بوست کردم 44.2 درصد است. برعکس بهترین مدل ام ال پی کلاسیفایر بین سال های 2008 تا کنون 91.3 درصد بوده است. سهم بزرگی در این بازده سالانه بسیار زیاد ویروس کرونا بود. به دلیل کروناویروس بازار سهام سقوط کرد که می تواند منبع اصلی سود این الگوریتم ها باشد.
بر روی داده های تست بسیار خوب عمل کرد. این الگوریتم در تشخیص اینکه پیش بینی تغییرات کوچک در بازار بین خرابی ها غیرممکن است بسیار قوی بود. بدین ترتیب, در بیشتر قسمت ها, استراتژی خرید و نگهداری را در اختیار داشت, اما در هنگام سقوط بازار سهام (مانند کرونا) یا تغییرات کمی بزرگتر, عملکرد خوبی داشت. همانطور که در شکل 8 مشاهده می شود.
شکل 8. مقایسه میانگین به علاوه و منهای 1 انحراف استاندارد 10.000 شبیه سازی تصادفی, الگوریتم طبقه بندی و یک استراتژی خرید و نگه دارید.
ایکس جی بوست بود بینش ندارد, که ام ال پی بود. این تلاش برای پیش بینی تغییرات کوچک, که در نهایت شکست خورده در. با این حال, ایکس جی بوست هنوز هم قادر به پیش بینی سقوط بازار سهام ناشی از کوروناویروس بود. این دلیل که چرا ایکس جی بوست هنوز هم چنین بازده سالانه بزرگ بود (44.2%).
شکل 9. مقایسه میانگین به علاوه و منهای 1 انحراف استاندارد 10.000 شبیه سازی تصادفی, الگوریتم طبقه بندی, الگوریتم ایکس جی بوست و یک استراتژی خرید و نگه دارید.
دو مجموعه داده برای این پروژه مورد نیاز بود; روند گوگل داده های روزانه برای یک کلمه کلیدی خاص و قیمت سهام داده های روزانه برای یک صدای تیک تیک خاص. برای جمع اوری اطلاعات روزانه گوگل ترند باید تمام افزایشهای 6 ماهه و 5 ساله و 2004 را در بازه زمانی 2004-2020 دانلود کنید. همه این داده ها سرانجام به جای اینکه فقط در بازه زمانی مربوطه خود نسبت به یکدیگر تنظیم شوند. برای دریافت داده های روزانه قیمت سهام برای یک تیکر خاص که می خواهید پیش بینی کنید باید از وب سایتی مانند یاهو فاینانس بارگیری کنید که می توانید داده های تاریخی هر تیکر را بارگیری کنید.
برای اثبات اینکه در واقع بین داده های روند گوگل (به عنوان مثال 'بدهی') و قیمت سهام (به عنوان مثال میانگین صنعتی داو جونز) همبستگی وجود دارد. من قیمت سهام دی جیا را با شاخص های قله در حجم جستجو برای "بازار سهام"ترسیم کردم. همانطور که می بینید, قبل از سقوط عمده بازار سهام, معمولا برخی از قله مشاهده می شود وجود دارد. همچنین برخی از قله در وسط یک تصادف وجود دارد, اما قله قبل از تصادف کاملا نشان دهنده هستند.
شکل 1. نموداری که قیمت سهام جیا با نقاط قرمز رسم می شود و اوج حجم جستجو برای "بازار سهام" مشاهده شده است. از این نمودار می توان مشاهده کرد که حرکت نامنظم در حجم جستجو قبل از سقوط عمده سهام است.
پس از همه تنظیمات از داده ها در نهایت دریافت داده های نسبی روزانه, که نسبت به یکدیگر است, داده های بصری به نظر می رسد به شرح زیر:
شکل 2. نموداری که داده های روزانه تنظیم شده را تجسم می کند.
همه داده ها بر روی گوگل روند نسبی است (0-100) به یکدیگر در یک بازه زمانی و شما فقط می توانید داده های روزانه در افزایش 6 ماه, داده های هفتگی در افزایش 5 ساله, و تنها داده های ماهانه برای کل بازه زمانی در دسترس فراهم. بنابراین به جمع تمام داده های مورد نیاز برای این پروژه کاملا یک چالش بود و به دلیل این محدودیت ها به طور کامل دقیق نیست, اما, روش من استفاده می شود تنها روش برای گرفتن داده های روزانه بیش از کل بازه زمانی در دسترس (که بسیار مهم است برای این پروژه).
برای دریافت تمام داده ها نسبت به یکدیگر, به جای تنها در 6 ماه افزایش, من تا به حال به ادغام بر اساس داده های هفتگی. با این حال, داده های هفتگی تنها در دسترس است 5-سال افزایش, بنابراین من تا به حال به ادغام این 5-سال افزایش بر اساس داده های ماهانه, که در دسترس است برای بازه زمانی مورد نیاز برای این پروژه. برای ادغام تمام 6 ماه و 5 سال افزایش, من درصد تغییر هر نقطه داده ها در افزایش مربوطه خود را محاسبه. سپس از دادههای تناوبی بالاتر به ازای هر افزایش یک نقطه داده گرفتم و روزهای از دست رفته را با اعمال درصد تغییر به نقطه داده شده محاسبه کردم.
یک مثال از عبارت جستجو ' بدهی '('بدهی' بهترین عبارت جستجو برای پیش بینی تغییر بازار با توجه به تحقیقات قبلا ذکر شد) در بازه زمانی 2007-2009:
شکل 3. نموداری که داده های نسبی روزانه تعدیل نشده تجسم می یابد. خطوط عمودی سیاه لبه های افزایش 6 ماهه را نشان می دهد.
شکل 4. نموداری که داده های نسبی روزانه تنظیم شده تجسم می یابد. نمودار داده های هفتگی واقعی را بسیار بهتر دنبال می کند.
شکل 5. داده های هفتگی واقعی.
برای دریافت نتایج بهتر, داده های خام تا به حال به ویژگی های مهندسی. ویژگی های مورد استفاده عبارتند از:
- یک ویژگی که نقطه داده امروز با میانگین متحرک ساده روز گذشته کم می شود. این است که توسط پژوهش این پروژه بر اساس الهام;
- دلتا (تفاوت) بین دو مقدار با روز ن در بین;
- درصد تغییر بین دو مقدار با ن روز در بین;
- یک میانگین متحرک ساده;
- میانگین متحرک نمایی;
- باندهای بالا و پایین بولینگر.
به دنبال محاسبه این ویژگی ها همه 3 تا 10 روز جابجا می شوند. این به این دلیل است که داده های گوگل سه روز پس از این واقعیت در دسترس است و هدف ممکن است با داده های منتقل شده بیشتر ارتباط خوبی داشته باشد. سپس 272 ویژگی وجود دارد. در تمرین و پیش بینی جهت میانگین صنعتی داو جونز از 50 همبستگی برتر (با هدف با توجه به ضریب همبستگی پیرسون) استفاده شده است.
دلتای متوسط متحرک ساده
شکل 6. هنگامی که این ویژگی فرار می شود, قیمت نزدیک زیر. این یک شاخص خوب برای الگوریتم یادگیری ماشین است. همچنین می توان دید که درصد قیمت نزدیک به طور سست از خط ویژگی پیروی می کند.
شکل 7. هنگامی که میانگین متحرک ساده 20 روزه از باند بالایی بولینگر عبور می کند, قیمت نزدیک بی ثبات تر می شود. درصد تغییر سهام نیز به راحتی از باند بولینگر پایین تر پیروی می کند.