Cherokee همه انتشارات کاربر را عنوان می کند. استفاده از ویژگی های ناشناخته گوگل برای یافتن چیزهای پنهان

16.06.2019 اهن

مطمئناً بیش از یک بار در مورد موتور جستجوی شگفت انگیزی مانند گوگل شنیده اید. فکر می کنم زمانی که می خواهید چیزی بدانید مجبور شده اید بیش از یک بار از آن استفاده کنید. اما آیا آنچه را که می خواستید پیدا کردید؟ اگر به همان اندازه من در گوگل جستجو کنید، فکر می کنم این مقاله برای شما مفید خواهد بود زیرا برای سریعتر و کارآمدتر کردن جستجوی شما طراحی شده است. پس بیایید با کمی تاریخ شروع کنیم...

گوگل مخدوش کلمه انگلیسی "googol" است که توسط میلتون سیروتا، برادرزاده ریاضیدان آمریکایی ادوارد کایزر، برای نشان دادن عددی متشکل از یک و صد صفر ابداع شده است. اکنون نام گوگل رهبر موتورهای جستجوی اینترنتی است که توسط شرکت گوگل توسعه یافته است.

گوگل بیش از 70 درصد از بازار جهانی را در اختیار دارد، به این معنی که از هر ده نفر در وب، هفت نفر برای جستجوی اطلاعات در اینترنت به صفحه آن مراجعه می کنند. اکنون روزانه حدود 50 میلیون درخواست جستجو ثبت می کند و بیش از 8 میلیارد صفحه وب را فهرست می کند. گوگل می تواند اطلاعات را به 101 زبان پیدا کند. گوگل در پایان آگوست 2004 متشکل از 132 هزار دستگاه بود که در نقاط مختلف جهان قرار داشتند.

گوگل از یک تکنیک تجزیه و تحلیل متن هوشمند استفاده می کند که به شما امکان می دهد صفحات مهم و در عین حال مرتبط را برای درخواست خود جستجو کنید. برای این کار، گوگل نه تنها صفحه ای را که با پرس و جو منطبق است، بلکه صفحاتی را که به آن پیوند می دهند، تجزیه و تحلیل می کند تا ارزش این صفحه را برای اهداف درخواست شما تعیین کند. علاوه بر این، گوگل صفحاتی را ترجیح می دهد که کلمات کلیدی که وارد می کنید نزدیک به یکدیگر باشند.

رابط Google حاوی یک زبان پرس و جو نسبتاً پیچیده است که به شما امکان می دهد دامنه جستجو را به دامنه های فردی، زبان ها، انواع فایل ها و غیره محدود کنید. استفاده از برخی از اپراتورهای این زبان به شما این امکان را می دهد که روند یافتن اطلاعات لازم را انعطاف پذیرتر کنید و دقیق. بیایید برخی از آنها را در نظر بگیریم.

منطقی "AND" (AND):
به‌طور پیش‌فرض، هنگام نوشتن کلمات پرس‌وجو که با فاصله از هم جدا شده‌اند، Google به دنبال اسنادی می‌گردد که حاوی همه کلمات جستجو هستند. این مربوط به عملگر AND است. آن ها یک فاصله معادل عملگر AND است.

برای مثال:
گربه سگ طوطی گورخر
گربه و سگ و طوطی و گورخر
(هر دو پرس و جو یکسان هستند)

منطقی "OR" (OR):
با استفاده از عملگر OR نوشته شده است. توجه داشته باشید که عملگر OR باید با حروف بزرگ نوشته شود. نسبتاً اخیراً امکان نوشتن یک "OR" منطقی به شکل یک نوار عمودی (|)، شبیه به نحوه انجام آن در Yandex فراهم شد. برای جستجوی چندین گزینه برای اطلاعات مورد نیاز استفاده می شود.

برای مثال:
داششوند مو بلند یا مو صاف
داششوند، مو بلند | مو صاف
(هر دو پرس و جو یکسان هستند)

به یاد داشته باشید که جستجوهای گوگل به حروف کوچک و بزرگ حساس نیستند! آن ها جستارهای گرینلند و گرینلند دقیقاً یکسان خواهند بود.

اپراتور پلاس (+):
شرایطی وجود دارد که شما باید به اجبار کلمه ای را در متن وارد کنید که ممکن است انواع املایی داشته باشد. برای این کار از عملگر "+" قبل از کلمه مورد نیاز استفاده کنید. فرض کنید اگر یک درخواست برای Home Alone I داشته باشیم، نتیجه پرس و جو اطلاعات غیرضروری در مورد "Home Alone II"، "Home Alone III" و بسیار کمی در مورد "Home Alone I" خواهد بود. اگر پرس و جوی از فرم Home Alone +I داشته باشیم، نتیجه فقط اطلاعاتی در مورد فیلم «تنها در خانه من» خواهد بود.

برای مثال:
روزنامه + سپیده دم
معادله برنولی + ریاضی

کلمات را از پرس و جو حذف کنید. منطقی "NOT" (-):
همانطور که می دانید در هنگام جمع آوری درخواست اغلب با زباله های اطلاعاتی مواجه می شود. برای حذف آن، از عملگرهای استثنا استاندارد استفاده می شود - منطقی "NOT". در گوگل، چنین اپراتور با علامت منفی نشان داده می شود. با استفاده از این عملگر، می توانید صفحاتی را که حاوی کلمات خاصی در متن هستند از نتایج جستجو حذف کنید. مانند عملگر "+" قبل از کلمه ای که باید حذف شود استفاده می شود.

برای مثال:
جرثقیل چاه پرنده
ارواح مرده - یک رمان

جستجوی عبارت دقیق (""):
جستجوی عبارت دقیق در عمل یا برای جستجوی متن یک اثر خاص، یا برای جستجوی محصولات یا شرکت‌های خاصی که نام یا بخشی از توضیحات در آنها عبارتی است که به طور مداوم تکرار می‌شود، مورد نیاز است. برای مقابله با چنین کاری با کمک Google، باید پرس و جو را در علامت نقل قول قرار دهید (منظور از علامت های نقل قول دوگانه است که به عنوان مثال برای برجسته کردن گفتار مستقیم استفاده می شود).

برای مثال:
اثر "دان آرام"
"بیرون سرد بود، اگرچه این مانع از اجرای برنامه ریزی شده توسط بوریس نشد."

به هر حال، گوگل به شما اجازه می دهد تا بیش از 32 کلمه را در رشته پرس و جو وارد کنید!

کوتاه کردن کلمه (*):
گاهی اوقات لازم است اطلاعاتی در مورد ترکیب کلماتی که در آن یک یا چند کلمه ناشناخته هستند جستجو کنید. برای این منظور به جای کلمات ناشناخته از عملگر "*" استفاده می شود. آن ها "*" - هر کلمه یا گروهی از کلمات.

برای مثال:
استاد و *
لئوناردو * وینچی

بیانیه حافظه پنهان:
موتور جستجو نسخه ای از متن را که توسط عنکبوت جستجو نمایه شده است در یک فروشگاه خاص در قالبی به نام کش ذخیره می کند. اگر صفحه اصلی در دسترس نباشد (به عنوان مثال، سروری که در آن ذخیره شده است خراب است) می توان نسخه کش شده یک صفحه را بازیابی کرد. صفحه ذخیره شده در حافظه پنهان همانطور که در پایگاه داده موتور جستجو ذخیره می شود نشان داده می شود و با کتیبه ای در بالای صفحه همراه است که نشان می دهد صفحه ذخیره شده است. همچنین حاوی اطلاعاتی درباره زمان ایجاد نسخه کش شده است. در صفحه از کش، کلمات کلیدی پرس و جو برجسته می شوند و برای راحتی کاربر، هر کلمه با رنگ خاص خود برجسته می شود. می‌توانید درخواستی ایجاد کنید که بلافاصله یک نسخه کش شده از صفحه را با یک آدرس خاص صادر می‌کند: cache: page_address، جایی که به جای «page_address» آدرس صفحه ذخیره‌شده در حافظه پنهان است. اگر می خواهید اطلاعاتی را در صفحه ذخیره شده پیدا کنید، باید بعد از آدرس صفحه، با فاصله از هم، درخواستی برای این اطلاعات بنویسید.

برای مثال:
کش: www.bsd.com
کش: مسابقات www.knights.ru

باید به خاطر داشت که نباید بین ":" و آدرس صفحه فاصله وجود داشته باشد!

نوع فایل parator:
همانطور که می دانید گوگل نه تنها صفحات html را ایندکس می کند. برای مثال اگر نیاز به یافتن اطلاعاتی در یک نوع فایل به غیر از html دارید، می توانید از عملگر filetype استفاده کنید که به شما امکان می دهد اطلاعات را در یک نوع فایل خاص (html، pdf، doc، rtf ...) جستجو کنید. .

برای مثال:
مشخصات html نوع فایل:pdf
نوع فایل ترکیبات: rtf

اپراتور اطلاعات:
اپراتور اطلاعات به شما امکان می دهد اطلاعاتی را که گوگل در مورد این صفحه می داند مشاهده کنید.

برای مثال:
اطلاعات: www.wiches.ru
اطلاعات: www.food.healthy.com

اپراتور سایت:
این اپراتور جستجو را به یک دامنه یا سایت خاص محدود می کند. یعنی اگر درخواستی بدهید: سایت هوش بازاریابی: www.acfor-tc.ru، نتایج از صفحات حاوی کلمات "بازاریابی" و "هوشمندی" در سایت "acfor-tc.ru" به دست می آید. و نه در سایر بخش های اینترنت.

برای مثال:
سایت موسیقی: www.music.su
سایت کتاب: en

اپراتور پیوند:
این اپراتور به شما امکان می دهد تمام صفحاتی را که به صفحه ای که در آن درخواست ارسال شده لینک می دهند، مشاهده کنید. به عنوان مثال، یک query link:www.google.com صفحاتی را که پیوندهایی به google.com دارند برمی گرداند.

برای مثال:
لینک: www.ozone.com
لینک دوستان: www.happylife.ru

عملگر allintitle:
اگر پرس و جو با عملگر allintitle شروع شود، که به عنوان "همه چیز در عنوان" ترجمه می شود، گوگل متن هایی را که در آنها تمام کلمات پرس و جو در عناوین موجود است (داخل تگ TITLE در HTML) برمی گرداند.

برای مثال:
allintitle: نرم افزار رایگان
allintitle: دانلود آلبوم موسیقی

عملگر عنوان:
صفحاتی را نشان می دهد که فقط کلمه بلافاصله بعد از عبارت عنوان در عنوان وجود دارد و همه کلمات جستجوی دیگر می توانند در هر جایی از متن باشند. قرار دادن عملگر intitle قبل از هر کلمه پرس و جو معادل استفاده از عملگر allintitle است.

برای مثال:
عنوان برنامه: دانلود
intitle: رایگان عنوان: دانلود نرم افزار

اپراتور allinurl:
اگر پرس و جو با اپراتور allinurl شروع شود، جستجو به اسنادی محدود می شود که در آنها تمام کلمات پرس و جو فقط در آدرس صفحه، یعنی در آدرس اینترنتی موجود است.

برای مثال:
بازی های allinurl:eng
allinurl:books fantasy

اپراتور inurl:
کلمه ای که مستقیماً در مجاورت اپراتور inurl قرار دارد فقط در آدرس صفحه اینترنت یافت می شود و بقیه کلمات در هر جایی از چنین صفحه ای یافت می شوند.

برای مثال:
inurl: دانلود کتاب
inurl: کرک بازی ها

اپراتور مرتبط:
این عملگر صفحاتی را توصیف می کند که شبیه یک صفحه خاص هستند. به عنوان مثال، query related:www.google.com صفحاتی با موضوعات مشابه را به گوگل باز می گرداند.

برای مثال:
مرتبط: www.ozone.com
مرتبط: www.nnm.ru

تعریف بیانیه:
این عملگر به عنوان نوعی فرهنگ لغت توضیحی عمل می کند که به شما امکان می دهد به سرعت تعریف کلمه ای که بعد از عملگر وارد می شود را دریافت کنید.

برای مثال:
تعریف کنید: کانگورو
تعریف: مادربرد

عملگر جستجوی مترادف (~):
اگر می‌خواهید متن‌هایی را بیابید که نه تنها حاوی کلمات کلیدی، بلکه مترادف‌های آن‌ها نیز هستند، می‌توانید قبل از کلمه‌ای که می‌خواهید مترادف آن را پیدا کنید، از عملگر "~" استفاده کنید.

برای مثال:
انواع دگرگونی ها
~ شی گرایی

عملگر برد (..):
برای کسانی که باید با اعداد کار کنند، گوگل امکان جستجوی محدوده بین اعداد را فراهم کرده است. برای یافتن تمام صفحات حاوی اعداد در یک محدوده خاص "از - تا"، لازم است دو نقطه (..) بین این مقادیر شدید، یعنی عملگر محدوده قرار دهید.

برای مثال:
خرید کتاب 100 دلار.. 150 دلار
جمعیت 1913..1935

در اینجا تمام اپراتورهای زبان پرس و جو در Google وجود دارد. من امیدوارم که آنها به نحوی پیدا کردن اطلاعات مورد نیاز را برای شما آسان تر کنند. در هر صورت من خیلی از آنها استفاده می کنم و به جرات می توانم بگویم که هنگام استفاده از آنها زمان بسیار کمتری را برای جستجو صرف می کنم تا بدون آنها.

موفق باشید! و باشد که نیرو با شما باشد.

برچسب‌ها: جستجو، اپراتورها، گوگل

موتور جستجوی گوگل (www.google.com) گزینه های جستجوی زیادی را ارائه می دهد. همه این ویژگی ها یک ابزار جستجوی ارزشمند برای اولین کاربر اینترنت و در عین حال یک سلاح حتی قوی تر برای تهاجم و تخریب در دستان افرادی با نیات شیطانی، از جمله نه تنها هکرها، بلکه مجرمان غیر رایانه ای هستند. و حتی تروریست ها.
(9475 بازدید در 1 هفته)

دنیس باترانکوف
denisNOSPAMixi.ru

توجه:این مقاله راهنمای عمل نیست. این مقاله برای شما مدیران وب سرور نوشته شده است تا احساس کاذب امنیت خود را از دست بدهید و در نهایت موذیانه بودن این روش کسب اطلاعات را درک کرده و به حفاظت از سایت خود بپردازید.

معرفی

مثلا من 1670 صفحه در 0.14 ثانیه پیدا کردم!

2. بیایید یک خط دیگر را وارد کنیم، برای مثال:

inurl:"auth_user_file.txt"

کمی کمتر، اما این برای دانلود رایگان و حدس زدن رمزهای عبور (با استفاده از همان John The Ripper) کافی است. در زیر چند مثال دیگر می زنم.

بنابراین، باید بدانید که موتور جستجوی گوگل از اکثر سایت های اینترنتی بازدید کرده و اطلاعات موجود در آنها را در حافظه پنهان ذخیره کرده است. این اطلاعات ذخیره شده در حافظه پنهان به شما این امکان را می دهد که بدون اتصال مستقیم به سایت، اطلاعاتی را در مورد سایت و محتوای سایت به دست آورید، فقط به اطلاعاتی که در داخل گوگل ذخیره می شود، دقت کنید. علاوه بر این، اگر اطلاعات موجود در سایت دیگر در دسترس نباشد، ممکن است اطلاعات موجود در حافظه پنهان همچنان حفظ شود. تنها چیزی که برای این روش نیاز است دانستن چند کلمه کلیدی گوگل است. این تکنیک Google Hacking نام دارد.

برای اولین بار، اطلاعات مربوط به هک گوگل 3 سال پیش در لیست پستی Bugtruck ظاهر شد. در سال 2001 این موضوع توسط یک دانشجوی فرانسوی مطرح شد. اینجا پیوندی به این نامه است http://www.cotse.com/mailing-lists/bugtraq/2001/Nov/0129.html. اولین نمونه از این درخواست ها را ارائه می دهد:

1) فهرست /admin
2) فهرست رمز عبور /
3) فهرست /mail
4) فهرست / +banques +filetype:xls (برای فرانسه...)
5) فهرست / +passwd
6) Index of/password.txt

این موضوع اخیراً در بخش انگلیسی خواندنی اینترنت سروصدای زیادی به پا کرد: پس از مقاله ای از جانی لانگ که در 7 می 2004 منتشر شد. برای مطالعه کامل تر در مورد هک گوگل، به شما توصیه می کنم به سایت این نویسنده http://johnny.ihackstuff.com مراجعه کنید. در این مقاله فقط می خواهم شما را به روز کنم.

چه کسی می تواند از آن استفاده کند:
- روزنامه نگاران، جاسوسان و همه افرادی که دوست دارند بینی خود را در تجارت دیگران فرو کنند، می توانند از این برای جستجوی شواهد مخرب استفاده کنند.
- هکرها به دنبال اهداف مناسب برای هک هستند.

گوگل چگونه کار می کند

برای ادامه گفتگو، اجازه دهید برخی از کلمات کلیدی مورد استفاده در جستجوهای گوگل را به شما یادآوری کنم.

با استفاده از علامت + جستجو کنید

گوگل از نظر خود کلمات بی اهمیت را از جستجو حذف می کند. به عنوان مثال، کلمات پرسشی، حرف اضافه و مقالات در زبان انگلیسی: برای مثال are, of, where. در زبان روسی، به نظر می رسد گوگل همه کلمات را مهم می داند. اگر کلمه از جستجو حذف شود، گوگل در مورد آن می نویسد. برای اینکه گوگل شروع به جستجوی صفحاتی با این کلمات کند، باید علامت + را قبل از آنها بدون فاصله قبل از کلمه اضافه کنید. برای مثال:

آس + پایه

جستجو با علامت -

اگر گوگل تعداد زیادی صفحه پیدا کرد که لازم است صفحاتی با موضوعات خاص حذف شوند، می توانید گوگل را مجبور کنید فقط صفحاتی را جستجو کند که حاوی کلمات خاصی نیستند. برای این کار باید این کلمات را با قرار دادن علامتی در مقابل هر کدام - بدون فاصله قبل از کلمه - مشخص کنید. برای مثال:

ماهیگیری - ودکا

با علامت ~ جستجو کنید

ممکن است بخواهید نه تنها کلمه مشخص شده، بلکه مترادف های آن را نیز جستجو کنید. برای انجام این کار، قبل از کلمه با علامت ~ قرار دهید.

پیدا کردن یک عبارت دقیق با استفاده از دو نقل قول

گوگل در هر صفحه همه تکرار کلماتی را که در رشته کوئری نوشته اید جستجو می کند و به موقعیت نسبی کلمات اهمیتی نمی دهد، نکته اصلی این است که همه کلمات مشخص شده همزمان در صفحه باشند ( این عمل پیش فرض است). برای یافتن عبارت دقیق، باید آن را در گیومه قرار دهید. برای مثال:

"پایه کتاب"

برای داشتن حداقل یکی از کلمات مشخص شده، باید عملیات منطقی را به صراحت مشخص کنید: OR. برای مثال:

ایمنی کتاب یا حفاظت

علاوه بر این، می توانید از علامت * در رشته جستجو برای نشان دادن هر کلمه و استفاده کنید. برای نشان دادن هر شخصیت

یافتن کلمات با عملگرهای اضافی

عملگرهای جستجویی وجود دارند که در رشته جستجو با فرمت مشخص شده اند:

عملگر:search_term

فضاهای کنار کولون نیازی نیست. اگر بعد از دو نقطه فاصله وارد کنید، یک پیغام خطا مشاهده می کنید و قبل از آن، گوگل از آنها به عنوان یک رشته جستجوی معمولی استفاده می کند.
گروه‌هایی از اپراتورهای جستجوی اضافی وجود دارد: زبان‌ها - نشان می‌دهد که به کدام زبان می‌خواهید نتیجه را ببینید، تاریخ - محدود کردن نتایج برای سه، شش یا 12 ماه گذشته، موارد - نشان می‌دهد در کجای سند باید جستجو کنید. رشته: همه جا، در عنوان، در URL، دامنه ها - سایت مشخص شده را جستجو کنید یا برعکس آن را از جستجو حذف کنید، جستجوی ایمن - سایت های حاوی نوع مشخص شده از اطلاعات را مسدود کنید و آنها را از صفحات نتایج جستجو حذف کنید.
با این حال، برخی از اپراتورها به پارامتر اضافی نیاز ندارند، به عنوان مثال، پرس و جو " حافظه پنهان: www.google.com" را می توان به عنوان یک رشته جستجوی کامل نامید، و برخی از کلمات کلیدی، برعکس، به یک کلمه جستجو نیاز دارند، برای مثال " سایت:www.google.com کمکبا توجه به موضوع ما، اجازه دهید به عملگرهای زیر نگاه کنیم:

اپراتور	شرح	به یک پارامتر اضافی نیاز دارد؟
	فقط برای سایت مشخص شده در search_term جستجو کنید
	فقط در اسناد با نوع search_term جستجو کنید


	صفحات حاوی search_term در عنوان را پیدا کنید
	صفحاتی را که حاوی تمام کلمات search_term در عنوان هستند پیدا کنید
	صفحات حاوی کلمه search_term را در آدرس خود پیدا کنید
	صفحاتی را پیدا کنید که حاوی تمام کلمات search_term در آدرس آنها هستند

اپراتور سایت:جستجو را فقط در سایت مشخص شده محدود می کند و می توانید نه تنها نام دامنه، بلکه آدرس IP را نیز مشخص کنید. برای مثال وارد کنید:

اپراتور نوع فایل:جستجوها را به فایل هایی از نوع خاصی محدود می کند. برای مثال:

از تاریخ این مقاله، گوگل می تواند در 13 فرمت فایل مختلف جستجو کند:

فرمت سند قابل حمل Adobe (pdf)
Adobe PostScript (ps)
لوتوس 1-2-3 (wk1، wk2، wk3، wk4، wk5، wki، wks، wku)
Lotus Word Pro (lwp)
مک رایت (mw)
مایکروسافت اکسل (xls)
پاورپوینت مایکروسافت (ppt)
Microsoft Word (doc)
Microsoft Works (wks، wps، wdb)
مایکروسافت رایت (wri)
فرمت متن غنی (rtf)
Shockwave Flash (swf)
متن (ans, txt)

اپراتور ارتباط دادن:تمام صفحاتی که به صفحه مشخص شده اشاره دارند را نشان می دهد.
همیشه باید جالب باشد که ببینید چند مکان در اینترنت در مورد شما می شناسند. ما سعی می کنیم:

اپراتور حافظه پنهان:نسخه ذخیره شده Google از سایت را همانطور که در آخرین بازدید Google از صفحه به نظر می رسید نشان می دهد. ما هر سایتی که مرتباً در حال تغییر است را می گیریم و نگاه می کنیم:

اپراتور عنوان:کلمه مشخص شده را در عنوان صفحه جستجو می کند. اپراتور allintitle:یک پسوند است - همه چند کلمه مشخص شده در عنوان صفحه را جستجو می کند. مقایسه کنید:

عنوان: پرواز به مریخ
intitle:flight intitle:on intitle:mars
allintitle: پرواز به مریخ

اپراتور inurl:باعث می شود گوگل تمام صفحات حاوی رشته مشخص شده را در URL نشان دهد. allinurl: همه کلمات را در یک URL جستجو می کند. برای مثال:

allinurl:acid_stat_alerts.php

این دستور به ویژه برای کسانی که SNORT ندارند مفید است - حداقل آنها می توانند ببینند که چگونه در یک سیستم واقعی کار می کند.

روش های هک گوگل

بنابراین، متوجه شدیم که با استفاده از ترکیبی از عملگرها و کلمات کلیدی فوق، هر کسی می تواند اطلاعات لازم را جمع آوری کرده و آسیب پذیری ها را جستجو کند. این تکنیک ها اغلب به عنوان هک گوگل شناخته می شوند.

نقشه سایت

برای مشاهده تمامی لینک هایی که گوگل در سایت پیدا کرده است، می توانید از بیانیه سایت: استفاده کنید. معمولاً صفحاتی که به صورت پویا توسط اسکریپت ها ایجاد می شوند با استفاده از پارامترها ایندکس نمی شوند، بنابراین برخی از سایت ها از فیلترهای ISAPI استفاده می کنند تا لینک ها در فرم نباشند. /article.asp?num=10&dst=5، اما با اسلید /article/abc/num/10/dst/5. این کار برای اطمینان از اینکه سایت به طور کلی توسط موتورهای جستجو ایندکس می شود انجام می شود.

بیایید تلاش کنیم:

سایت: www.whitehouse.gov Whitehouse

گوگل فکر می کند که هر صفحه در یک سایت حاوی کلمه Whitehouse است. این همان چیزی است که ما برای دریافت تمام صفحات استفاده می کنیم.
یک نسخه ساده شده نیز وجود دارد:

سایت:whitehouse.gov

و بهترین بخش این است که رفقای whitehouse.gov حتی نمی‌دانستند که ما ساختار سایت آنها را بررسی کرده‌ایم و حتی به صفحات ذخیره‌شده‌ای که گوگل برای خودش دانلود کرده بود نگاهی انداختیم. از این می توان برای مطالعه ساختار سایت ها و مشاهده مطالب بدون توجه فعلا استفاده کرد.

لیست کردن فایل ها در فهرست ها

سرورهای وب می توانند لیست فهرست های سرور را به جای صفحات HTML معمولی نمایش دهند. این کار معمولا برای وادار کردن کاربران به انتخاب و دانلود فایل های خاص انجام می شود. با این حال، در بسیاری از موارد، مدیران قصد ندارند محتویات یک فهرست را نشان دهند. این به دلیل پیکربندی نادرست سرور یا عدم وجود صفحه اصلی در فهرست است. در نتیجه، هکر این شانس را دارد که چیز جالبی را در فهرست پیدا کند و از آن برای اهداف خود استفاده کند. برای یافتن تمامی چنین صفحاتی کافی است توجه داشته باشید که همگی دارای عبارت: index of در عنوان خود هستند. اما از آنجایی که فهرست کلمات فقط چنین صفحاتی را شامل نمی شود، باید پرس و جو را اصلاح کنیم و کلمات کلیدی موجود در خود صفحه را در نظر بگیریم، بنابراین پرس و جوهایی مانند:

intitle:index.of دایرکتوری والد
intitle:index.of name size

از آنجایی که بیشتر فهرست‌های دایرکتوری عمدی هستند، ممکن است در اولین بار برای یافتن فهرست‌های نابجا با مشکل مواجه شوید. اما حداقل می‌توانید از لیست‌ها برای تعیین نسخه سرور وب استفاده کنید، همانطور که در زیر توضیح داده شده است.

دریافت نسخه وب سرور

دانستن نسخه سرور وب همیشه قبل از شروع هر حمله هکری مفید است. مجدداً به لطف Google امکان دریافت این اطلاعات بدون اتصال به سرور وجود دارد. اگر به فهرست فهرست دایرکتوری دقت کنید، می بینید که نام سرور وب و نسخه آن در آنجا نمایش داده می شود.

Apache1.3.29 - سرور ProXad در پورت 80 trf296.free.fr

یک مدیر با تجربه می تواند این اطلاعات را تغییر دهد، اما، به عنوان یک قاعده، درست است. بنابراین، برای دریافت این اطلاعات، کافی است یک درخواست ارسال کنید:

intitle:index.of server.at

برای به دست آوردن اطلاعات برای یک سرور خاص، درخواست را اصلاح می کنیم:

intitle:index.of server.at site:ibm.com

یا برعکس، ما به دنبال سرورهایی هستیم که بر روی یک نسخه خاص از سرور اجرا می شوند:

intitle:index.of Apache/2.0.40 Server at

این تکنیک می تواند توسط یک هکر برای یافتن قربانی استفاده شود. برای مثال، اگر او یک اکسپلویت برای نسخه خاصی از وب سرور داشته باشد، می تواند آن را پیدا کند و اکسپلویت موجود را امتحان کند.

همچنین می توانید نسخه سرور را با مشاهده صفحاتی که به طور پیش فرض در هنگام نصب نسخه جدید وب سرور نصب شده اند، دریافت کنید. به عنوان مثال، برای دیدن صفحه آزمایشی Apache 1.2.6، فقط تایپ کنید

intitle:Test.Page.for.Apache it.worked!

علاوه بر این، برخی از سیستم عامل ها بلافاصله سرور وب را در هنگام نصب نصب و راه اندازی می کنند. با این حال، برخی از کاربران حتی از این موضوع آگاه نیستند. به طور طبیعی، اگر می بینید که شخصی صفحه پیش فرض را حذف نکرده است، منطقی است که فرض کنیم کامپیوتر اصلاً تحت هیچ گونه پیکربندی قرار نگرفته است و احتمالاً در برابر حملات آسیب پذیر است.

به دنبال صفحات IIS 5.0 بگردید

allintitle:به Windows 2000 Internet Services خوش آمدید

در مورد IIS، می توانید نه تنها نسخه سرور، بلکه نسخه ویندوز و سرویس پک را نیز تعیین کنید.

راه دیگر برای تعیین نسخه WEB سرور، جستجوی راهنماها (صفحات راهنما) و نمونه هایی است که به طور پیش فرض بر روی سایت نصب شوند. هکرها راه های زیادی برای استفاده از این مؤلفه ها برای دسترسی ممتاز به سایت پیدا کرده اند. به همین دلیل است که باید این قطعات را در سایت تولید حذف کنید. ناگفته نماند که با وجود این قطعات می توانید اطلاعاتی در مورد نوع سرور و نسخه آن به دست آورید. به عنوان مثال، بیایید راهنمای آپاچی را پیدا کنیم:

inurl:دستی ماژول های دستورالعمل آپاچی

استفاده از گوگل به عنوان اسکنر CGI.

اسکنر CGI یا WEB scanner ابزاری برای جستجوی اسکریپت ها و برنامه های آسیب پذیر در سرور قربانی است. این ابزارها باید بدانند که به دنبال چه چیزی بگردند، برای این کار آنها یک لیست کامل از فایل های آسیب پذیر دارند، به عنوان مثال:

/cgi-bin/cgiemail/uargg.txt
/random_banner/index.cgi
/random_banner/index.cgi
/cgi-bin/mailview.cgi
/cgi-bin/maillist.cgi
/cgi-bin/userreg.cgi

/iissamples/ISSamples/SQLQHit.asp
/SiteServer/admin/findvserver.asp
/scripts/cphost.dll
/cgi-bin/finger.cgi

ما می‌توانیم هر یک از این فایل‌ها را با استفاده از Google، با استفاده از کلمات index of یا inurl علاوه بر نام فایل در نوار جستجو پیدا کنیم: می‌توانیم سایت‌هایی را با اسکریپت‌های آسیب‌پذیر پیدا کنیم، برای مثال:

allinurl:/random_banner/index.cgi

با دانش بیشتر، یک هکر می‌تواند از آسیب‌پذیری اسکریپت سوء استفاده کند و از این آسیب‌پذیری استفاده کند تا اسکریپت را مجبور کند تا هر فایل ذخیره شده در سرور را ارائه کند. به عنوان مثال یک فایل رمز عبور.

چگونه از خود در برابر هک شدن از طریق گوگل محافظت کنیم؟

1. داده های مهم را در سرور وب آپلود نکنید.

حتی اگر داده‌ها را به‌طور موقت پست کرده‌اید، می‌توانید آن‌ها را فراموش کنید وگرنه شخصی زمان خواهد داشت که این داده‌ها را قبل از پاک کردن پیدا کند و بگیرد. انجامش نده راه های بسیار دیگری برای انتقال داده ها وجود دارد که از آن ها در برابر سرقت محافظت می کند.

2. سایت خود را بررسی کنید.

از روش های توصیف شده برای تحقیق در مورد سایت خود استفاده کنید. سایت خود را به صورت دوره ای برای یافتن روش های جدیدی که در سایت http://johnny.ihackstuff.com ظاهر می شود بررسی کنید. به یاد داشته باشید که اگر می خواهید اقدامات خود را خودکار کنید، باید مجوز ویژه ای از Google دریافت کنید. اگر با دقت بخوانید http://www.google.com/terms_of_service.html، سپس عبارت را مشاهده خواهید کرد: شما نمی توانید درخواست های خودکار از هر نوع را بدون مجوز صریح از قبل از Google به سیستم Google ارسال کنید.

3. ممکن است نیازی به Google برای ایندکس کردن سایت یا بخشی از آن نداشته باشید.

گوگل به شما این امکان را می دهد که لینک سایت خود یا بخشی از آن را از پایگاه داده خود حذف کنید و همچنین صفحات را از کش حذف کنید. علاوه بر این، می توانید جستجوی تصاویر در سایت خود را ممنوع کنید، نمایش قطعات کوتاه صفحات در نتایج جستجو را ممنوع کنید.همه گزینه های حذف یک سایت در صفحه توضیح داده شده است. http://www.google.com/remove.html. برای انجام این کار، باید تأیید کنید که واقعاً مالک این سایت هستید یا برچسب هایی را در صفحه یا

4. از robots.txt استفاده کنید

مشخص است که موتورهای جستجو به فایل robots.txt در ریشه سایت نگاه می کنند و قسمت هایی را که با کلمه مشخص شده اند ایندکس نمی کنند. غیر مجاز. می توانید از این برای جلوگیری از ایندکس شدن بخشی از سایت استفاده کنید. به عنوان مثال، برای جلوگیری از ایندکس کردن کل سایت، یک فایل robots.txt حاوی دو خط ایجاد کنید:

عامل کاربر: *
غیر مجاز:/

چه اتفاقی دیگر می افتد

برای اینکه زندگی به نظر شما عسل نباشد، در پایان می گویم که سایت هایی هستند که افرادی را دنبال می کنند که با استفاده از روش های بالا به دنبال حفره هایی در اسکریپت ها و سرورهای وب می گردند. نمونه ای از چنین صفحه ای است

ضمیمه.

کمی شیرین. یکی از موارد زیر را خودتان امتحان کنید:

1. #mysql dump نوع فایل: sql - جستجوی داده‌های پایگاه داده mySQL
2. گزارش خلاصه آسیب پذیری میزبان - به شما نشان می دهد که سایر افراد چه آسیب پذیری هایی پیدا کرده اند
3. phpMyAdmin در حال اجرا بر روی inurl:main.php - این باعث می شود کنترل از طریق پنل phpmyadmin بسته شود.
4. برای توزیع محرمانه نیست
5. درخواست جزئیات کنترل متغیرهای سرور درخت
6. دویدن در حالت کودک
7. این گزارش توسط WebLog ایجاد شده است
8. intitle:index.of cgiirc.config
9. filetype:conf inurl:firewall -intitle:cvs - شاید کسی به فایل های پیکربندی فایروال نیاز داشته باشد؟ :)
10. intitle:index.of finances.xls - hmm....
11. عنوان: فهرست چت های dbconvert.exe - گزارش های چت icq
12. intext: تجزیه و تحلیل ترافیک Tobias Oetiker
13. عنوان: آمار استفاده برای ایجاد شده توسط Webalizer
14. عنوان:آمار آمارهای پیشرفته وب
15. intitle:index.of ws_ftp.ini - پیکربندی ws ftp
16. inurl:ipsec.secrets دارای اسرار مشترک است - کلید مخفی - پیدا کردن خوب
17. inurl:main.php به phpMyAdmin خوش آمدید
18. inurl:server-info اطلاعات سرور آپاچی
19. سایت: نمرات مدیریت edu
20. ORA-00921: پایان غیرمنتظره دستور SQL - مسیرها را دریافت کنید
21. عنوان: index.of trillian.ini
22. عنوان: فهرست pwd.db
23. عنوان: index.of people.lst
24. intitle:index.of master.passwd
25.inurl:passlist.txt
26. عنوان: فهرست mysql_history
27. intitle:index of intext:globals.inc
28. عنوان:index.of administrators.pwd
29. عنوان: Index.of etc shadow
30. intitle:index.of secring.pgp
31. inurl:config.php dbuname dbpass
32. inurl:perform filetype:ini

"هک کردن mit گوگل"

مرکز آموزشی "Informzashchita" http://www.itsecurity.ru - یک مرکز تخصصی پیشرو در زمینه آموزش امنیت اطلاعات (مجوز کمیته آموزش مسکو شماره 015470، اعتبارنامه دولتی شماره 004251). تنها مرکز مجاز آموزش سیستم های امنیت اینترنت و Clearswift در روسیه و کشورهای CIS. مرکز آموزشی مجاز مایکروسافت (تخصص امنیتی). برنامه های آموزشی با کمیسیون فنی دولتی روسیه، FSB (FAPSI) هماهنگ می شود. گواهینامه های آموزشی و اسناد دولتی در مورد آموزش پیشرفته.

SoftKey یک سرویس منحصر به فرد برای خریداران، توسعه دهندگان، فروشندگان و شرکای وابسته است. علاوه بر این، این یکی از بهترین فروشگاه‌های نرم‌افزار آنلاین در روسیه، اوکراین، قزاقستان است که طیف گسترده‌ای، روش‌های پرداخت فراوان، پردازش سریع (اغلب فوری) سفارش، پیگیری فرآیند انجام سفارش در بخش شخصی، تخفیف‌های مختلف را به مشتریان ارائه می‌دهد. از فروشگاه و تولید کنندگان ON.

دریافت اطلاعات خصوصی همیشه به معنای هک نیست - گاهی اوقات در حوزه عمومی منتشر می شود. دانستن تنظیمات گوگل و کمی هوشمندی به شما امکان می دهد چیزهای جالب زیادی پیدا کنید - از شماره کارت اعتباری گرفته تا اسناد FBI.

هشدار

تمام اطلاعات فقط برای مقاصد اطلاعاتی ارائه شده است. نه ویراستاران و نه نویسنده مسئول هیچ گونه آسیب احتمالی ناشی از مطالب این مقاله نیستند.

امروزه همه چیز به اینترنت متصل است و به محدودیت دسترسی اهمیت چندانی نمی دهد. بنابراین، بسیاری از داده های خصوصی طعمه موتورهای جستجو می شوند. ربات‌های عنکبوتی دیگر محدود به صفحات وب نیستند، بلکه تمام محتوای موجود در وب را فهرست‌بندی می‌کنند و دائماً اطلاعات محرمانه را به پایگاه داده‌های خود اضافه می‌کنند. یادگیری این اسرار آسان است - فقط باید بدانید که چگونه در مورد آنها سوال کنید.

در حال جستجو برای فایل ها

در دستان توانا، Google به سرعت هر چیزی را که در وب بد است، مانند اطلاعات شخصی و فایل‌هایی برای استفاده رسمی پیدا می‌کند. آنها اغلب مانند یک کلید زیر فرش پنهان می شوند: هیچ محدودیت دسترسی واقعی وجود ندارد، داده ها فقط در پشت سایت قرار دارند، جایی که لینک ها به آن منتهی نمی شوند. رابط وب استاندارد Google فقط تنظیمات اولیه جستجوی پیشرفته را ارائه می دهد، اما حتی اینها نیز کافی خواهند بود.

دو عملگر وجود دارد که می‌توانید برای محدود کردن جستجوهای Google به فایل‌هایی از نوع خاصی استفاده کنید: filetype و ext. اولی فرمتی را تنظیم می کند که موتور جستجو توسط سرفصل فایل تعیین می کند، دومی - پسوند فایل را بدون توجه به محتوای داخلی آن تعیین می کند. هنگام جستجو در هر دو مورد، باید فقط پسوند را مشخص کنید. در ابتدا، اپراتور ext برای استفاده در مواردی که هیچ ویژگی فرمت خاصی برای فایل وجود نداشت (به عنوان مثال، برای جستجوی فایل های پیکربندی ini و cfg، که هر چیزی می تواند در داخل آنها باشد) راحت بود. اکنون الگوریتم های گوگل تغییر کرده اند و هیچ تفاوت قابل مشاهده ای بین اپراتورها وجود ندارد - نتایج در اکثر موارد یکسان است.

فیلتر کردن خروجی

به‌طور پیش‌فرض، گوگل کلمات و به‌طور کلی نویسه‌های وارد شده در همه فایل‌های صفحات فهرست‌شده را جستجو می‌کند. می‌توانید دامنه جستجو را با دامنه سطح بالا، یک سایت خاص یا مکان دنباله مورد نظر در خود فایل‌ها محدود کنید. برای دو گزینه اول از عبارت site و به دنبال آن نام دامنه یا سایت انتخاب شده استفاده می شود. در مورد سوم، مجموعه کاملی از اپراتورها به شما امکان می دهد اطلاعات را در زمینه های خدمات و ابرداده جستجو کنید. به عنوان مثال، allinurl موارد مشخص شده را در بدنه خود پیوندها، allinanchor - در متن ارائه شده با برچسب پیدا می کند. ، allintitle - در سرصفحه های صفحه، allintext - در بدنه صفحات.

برای هر اپراتور یک نسخه سبکتر با نام کوتاهتر (بدون پیشوند all) وجود دارد. تفاوت این است که allinurl پیوندها را با همه کلمات پیدا می کند، در حالی که inurl فقط با اولین آنها پیوندها را پیدا می کند. کلمات دوم و بعدی از پرس و جو می توانند در هر نقطه از صفحات وب ظاهر شوند. عملگر inurl نیز از نظر معنی - سایت با مشابه دیگر متفاوت است. اولین مورد همچنین به شما امکان می دهد هر دنباله ای از کاراکترها را در پیوند به سند مورد نظر پیدا کنید (به عنوان مثال /cgi-bin/) که به طور گسترده برای یافتن مؤلفه هایی با آسیب پذیری های شناخته شده استفاده می شود.

بیایید آن را در عمل امتحان کنیم. فیلتر allintext را انتخاب می‌کنیم و درخواست فهرستی از شماره‌های کارت اعتباری و کدهای راستی‌آزمایی را برمی‌گردانیم، که تنها پس از دو سال منقضی می‌شوند (یا زمانی که صاحبان آنها از غذا دادن به همه افراد در یک ردیف خسته شوند).

Allintext: تاریخ انقضا شماره کارت /2017 cvv

وقتی در اخبار می خوانید که یک هکر جوان "به سرورهای" پنتاگون یا ناسا هک کرده و اطلاعات طبقه بندی شده را می دزدد، در بیشتر موارد دقیقاً این تکنیک ابتدایی استفاده از گوگل است. فرض کنید ما به لیستی از کارمندان ناسا و اطلاعات تماس آنها علاقه مند هستیم. مطمئناً چنین لیستی به صورت الکترونیکی است. برای راحتی و یا به دلیل یک نادیده گرفتن، می تواند در وب سایت خود سازمان نیز قرار گیرد. منطقی است که در این مورد هیچ اشاره ای به آن وجود نخواهد داشت، زیرا برای استفاده داخلی در نظر گرفته شده است. چه کلماتی می تواند در چنین فایلی باشد؟ حداقل - فیلد "آدرس". آزمایش همه این فرضیات آسان است.

inurl:nasa.gov نوع فایل:xlsx "آدرس"

ما از بوروکراسی استفاده می کنیم

چنین یافته هایی یک چیز کوچک دلپذیر است. جذب واقعاً قوی از دانش دقیق تر از اپراتورهای وب مستر گوگل، خود وب و ساختار چیزی که به دنبال آن هستید ناشی می شود. با دانستن جزئیات، می‌توانید به راحتی خروجی را فیلتر کنید و ویژگی‌های فایل‌های مورد نیاز خود را برای به دست آوردن داده‌های واقعا ارزشمند در بقیه اصلاح کنید. خنده دار است که بوروکراسی اینجا به کمک می آید. فرمول‌بندی‌های معمولی را تولید می‌کند که جستجوی اطلاعات محرمانه‌ای که به‌طور تصادفی در وب منتشر شده است را راحت می‌کند.

به عنوان مثال، مهر بیانیه توزیع، که در دفتر وزارت دفاع ایالات متحده اجباری است، به معنای محدودیت های استاندارد در توزیع یک سند است. حرف A نشانه انتشار عمومی است که در آن هیچ چیز مخفی وجود ندارد. B - فقط برای استفاده داخلی در نظر گرفته شده است، C - کاملاً محرمانه، و غیره تا F. به طور جداگانه، حرف X وجود دارد که اطلاعات بسیار ارزشمندی را نشان می دهد که نشان دهنده یک راز دولتی در بالاترین سطح است. اجازه دهید کسانی که قرار است این کار را در حین انجام وظیفه انجام دهند به دنبال چنین اسنادی بگردند و ما خود را به پرونده هایی با حرف C محدود می کنیم. طبق DoDI 5230.24، چنین علامت گذاری به اسنادی اختصاص داده می شود که حاوی شرح فناوری های حیاتی هستند که تحت کنترل صادرات هستند. شما می توانید چنین اطلاعاتی را که به دقت محافظت شده اند را در سایت هایی در دامنه سطح بالای .mil که به ارتش ایالات متحده اختصاص داده شده است بیابید.

"بیانیه توزیع C" inurl:navy.mil

بسیار راحت است که فقط سایت های وزارت دفاع ایالات متحده و سازمان های قراردادی آن در دامنه .mil جمع آوری شوند. نتایج جستجوی محدود به دامنه فوق العاده تمیز هستند و عناوین خود صحبت می کنند. جستجوی اسرار روسیه از این طریق عملاً بی فایده است: هرج و مرج در دامنه های .ru و .rf حاکم است و نام بسیاری از سیستم های تسلیحاتی مانند گیاه شناسی (PP "Kiparis"، اسلحه های خودکششی "Acacia") یا حتی به نظر می رسد. افسانه (TOS "Pinocchio").

با بررسی دقیق هر سندی از یک سایت در دامنه .mil، می توانید نشانگرهای دیگری را برای اصلاح جستجوی خود مشاهده کنید. به عنوان مثال، اشاره به محدودیت های صادرات "Sec 2751"، که برای جستجوی اطلاعات فنی جالب نیز راحت است. هر از گاهی از سایت های رسمی حذف می شود، جایی که زمانی ظاهر می شد، بنابراین اگر نمی توانید پیوند جالبی را در نتایج جستجو دنبال کنید، از کش گوگل (اپراتور کش) یا وب سایت بایگانی اینترنت استفاده کنید.

به ابرها صعود می کنیم

علاوه بر اسنادی که به‌طور تصادفی از طبقه‌بندی خارج شده‌اند از ادارات دولتی، پیوندهایی به فایل‌های شخصی از Dropbox و سایر سرویس‌های ذخیره‌سازی داده که پیوندهای «خصوصی» به داده‌های منتشر شده عمومی ایجاد می‌کنند، گهگاه در حافظه پنهان Google ظاهر می‌شوند. حتی با خدمات جایگزین و خودساخته بدتر است. به عنوان مثال، کوئری زیر داده‌های تمامی کلاینت‌های Verizon را پیدا می‌کند که یک سرور FTP را نصب کرده و به طور فعال از یک روتر در روتر خود استفاده می‌کنند.

Allinurl:ftp://verizon.net

در حال حاضر بیش از چهل هزار نفر از این افراد باهوش وجود دارند و در بهار 2015 مرتبه بزرگی بیشتری وجود داشت. به جای Verizon.net، می‌توانید نام هر ارائه‌دهنده معروفی را جایگزین کنید، و هر چه معروف‌تر باشد، اندازه‌گیری بزرگ‌تر می‌شود. از طریق سرور FTP داخلی، می توانید فایل ها را در یک درایو خارجی متصل به روتر مشاهده کنید. معمولاً این یک NAS برای کار از راه دور، یک ابر شخصی یا نوعی دانلود فایل همتا به همتا است. تمام محتوای چنین رسانه هایی توسط گوگل و سایر موتورهای جستجو ایندکس می شود، بنابراین می توانید از طریق یک لینک مستقیم به فایل های ذخیره شده در درایوهای خارجی دسترسی داشته باشید.

مشاهده تنظیمات

قبل از انتقال عمده به ابرها، سرورهای FTP ساده، که فاقد آسیب‌پذیری بودند، به‌عنوان ذخیره‌سازی راه دور اداره می‌شدند. بسیاری از آنها هنوز هم مربوط به امروز هستند. به عنوان مثال، برنامه محبوب WS_FTP Professional داده های پیکربندی، حساب های کاربری و رمزهای عبور را در فایل ws_ftp.ini ذخیره می کند. یافتن و خواندن آن آسان است زیرا تمام ورودی ها در متن ساده ذخیره می شوند و رمزهای عبور با استفاده از الگوریتم Triple DES پس از حداقل مبهم سازی رمزگذاری می شوند. در اکثر نسخه ها، صرفاً دور انداختن بایت اول کافی است.

رمزگشایی چنین رمزهای عبور با استفاده از ابزار WS_FTP Password Decryptor یا یک سرویس وب رایگان آسان است.

وقتی صحبت از هک کردن یک سایت دلخواه می شود، معمولاً به معنای دریافت رمز عبور از لاگ ها و پشتیبان گیری از CMS یا فایل های پیکربندی برنامه تجارت الکترونیک است. اگر ساختار معمولی آنها را بدانید، می توانید به راحتی کلمات کلیدی را مشخص کنید. خطوطی مانند خطوط موجود در ws_ftp.ini بسیار رایج هستند. به عنوان مثال، دروپال و پرستاشاپ همیشه یک شناسه کاربری (UID) و یک رمز عبور مربوطه (pwd) دارند و تمام اطلاعات در فایل هایی با پسوند .inc ذخیره می شوند. می توانید آنها را به این صورت جستجو کنید:

"pwd=" "UID=" ext:inc

ما رمزهای عبور را از DBMS فاش می کنیم

در فایل های پیکربندی سرورهای SQL، نام کاربری و آدرس ایمیل به صورت متن شفاف ذخیره می شود و به جای رمز عبور، هش MD5 آنها ثبت می شود. رمزگشایی آنها، به طور دقیق، غیرممکن است، اما شما می توانید در بین جفت های رمز عبور شناخته شده هش پیدا کنید.

تاکنون DBMS هایی وجود دارند که حتی از هش رمز عبور نیز استفاده نمی کنند. فایل های پیکربندی هر یک از آنها را می توان به سادگی در مرورگر مشاهده کرد.

Intext:DB_PASSWORD نوع فایل: env

با ظهور سرورهای ویندوز، جای فایل های پیکربندی تا حدی توسط رجیستری گرفته شد. شما می توانید در شاخه های آن دقیقاً به همین روش و با استفاده از reg به عنوان نوع فایل جستجو کنید. به عنوان مثال، مانند این:

نوع فایل:reg HKEY_CURRENT_USER "Password"=

بدیهیات را فراموش نکنید

گاهی اوقات می توان با کمک داده هایی که به طور تصادفی توسط گوگل باز شده و به دست می آید، به اطلاعات طبقه بندی شده دست یافت. گزینه ایده آل یافتن لیستی از رمزهای عبور در برخی از قالب های رایج است. فقط افراد ناامید می توانند اطلاعات حساب را در یک فایل متنی، یک سند Word یا یک صفحه گسترده اکسل ذخیره کنند، اما همیشه تعداد کافی از آنها وجود دارد.

نوع فایل:xls inurl:password

از یک سو ابزارهای زیادی برای جلوگیری از چنین حوادثی وجود دارد. باید حقوق دسترسی کافی در htaccess را مشخص کنید، CMS را وصله کنید، از اسکریپت های چپ استفاده نکنید و سوراخ های دیگر را ببندید. همچنین فایلی با فهرست حذف robots.txt وجود دارد که موتورهای جستجو را از فهرست کردن فایل ها و دایرکتوری های مشخص شده در آن منع می کند. از طرف دیگر، اگر ساختار robots.txt در برخی از سرورها با ساختار استاندارد متفاوت باشد، بلافاصله مشخص می شود که آنها سعی دارند چه چیزی را روی آن پنهان کنند.

فهرست دایرکتوری‌ها و فایل‌ها در هر سایتی با نمایه استاندارد نوشته قبل از آن قرار می‌گیرد. از آنجایی که برای اهداف خدماتی باید در عنوان ظاهر شود، منطقی است که جستجوی آن را به عملگر intitle محدود کنیم. چیزهای جالبی را می توان در دایرکتوری های /admin/، /personal/، /etc/ و حتی /secret/ پیدا کرد.

به روز رسانی ها را دنبال کنید

ارتباط در اینجا بسیار مهم است: آسیب پذیری های قدیمی بسیار آهسته بسته می شوند، اما گوگل و نتایج جستجوی آن دائما در حال تغییر هستند. حتی بین فیلتر «ثانیه آخر» (&tbs=qdr:s در انتهای url درخواست) و فیلتر «زمان واقعی» (&tbs=qdr:1) تفاوت وجود دارد.

فاصله زمانی آخرین تاریخ به‌روزرسانی فایل از Google نیز به طور ضمنی نشان داده شده است. از طریق رابط گرافیکی وب، می توانید یکی از دوره های معمول (ساعت، روز، هفته و غیره) را انتخاب کنید یا محدوده تاریخ را تعیین کنید، اما این روش برای اتوماسیون مناسب نیست.

از ظاهر نوار آدرس، تنها می توان راهی برای محدود کردن خروجی نتایج با استفاده از ساختار &tbs=qdr: حدس زد. حرف y بعد از آن حد یک سال را مشخص می کند (&tbs=qdr:y)، m نتایج ماه گذشته، w برای هفته، d برای روز گذشته، h برای ساعت آخر، n برای دقیقه، و برای یک ثانیه به من بدهید. جدیدترین نتایجی که به تازگی در اختیار Google قرار گرفته است با استفاده از فیلتر &tbs=qdr:1 پیدا شده است.

اگر نیاز به نوشتن یک اسکریپت پیچیده دارید، دانستن اینکه محدوده تاریخ در گوگل با فرمت Julian از طریق عملگر daterange تنظیم شده است مفید خواهد بود. به عنوان مثال، به این ترتیب می‌توانید فهرستی از اسناد PDF را با کلمه محرمانه که بین ۱ ژانویه تا ۱ ژوئیه ۲۰۱۵ آپلود شده است، پیدا کنید.

نوع فایل محرمانه: pdf daterange: 2457024-2457205

محدوده در قالب تاریخ جولیان بدون اعشار مشخص شده است. ترجمه دستی آنها از تقویم میلادی ناخوشایند است. استفاده از مبدل تاریخ آسانتر است.

هدف گذاری و دوباره فیلتر کردن

علاوه بر مشخص کردن اپراتورهای اضافی در جست‌وجو، می‌توان آنها را مستقیماً در متن پیوند ارسال کرد. برای مثال، ویژگی filetype:pdf با ساختار as_filetype=pdf مطابقت دارد. بنابراین، تنظیم هر گونه توضیح راحت است. بیایید بگوییم که خروجی نتایج فقط از جمهوری هندوراس با افزودن ساختار cr=countryHN به URL جستجو تنظیم می شود، اما فقط از شهر Bobruisk - gcs=Bobruisk . برای یک لیست کامل از بخش توسعه دهندگان را ببینید.

ابزارهای اتوماسیون گوگل برای آسان‌تر کردن زندگی طراحی شده‌اند، اما اغلب به دردسر می‌افزایند. به عنوان مثال، شهر یک کاربر توسط IP کاربر از طریق WHOIS تعیین می شود. بر اساس این اطلاعات، گوگل نه تنها بار بین سرورها را متعادل می کند، بلکه نتایج جستجو را نیز تغییر می دهد. بسته به منطقه، برای یک پرس و جو، نتایج متفاوتی به صفحه اول می رسد و ممکن است برخی از آنها کاملاً پنهان شوند. احساس کنید که یک جهان وطن هستید و جستجوی اطلاعات از هر کشوری به کد دو حرفی آن بعد از دستورالعمل gl=country کمک می کند. به عنوان مثال، کد هلند NL است، در حالی که واتیکان و کره شمالی کد خود را در گوگل ندارند.

اغلب نتایج جستجو حتی پس از استفاده از چند فیلتر پیشرفته، پر از آب می شوند. در این حالت، به راحتی می توان پرس و جو را با افزودن چند کلمه استثنا به آن (هر یک از آنها با علامت منهای) اصلاح کرد. به عنوان مثال، بانکداری، نام ها و آموزش اغلب با کلمه Personal استفاده می شود. بنابراین، نتایج جستجوی تمیزتر نه یک نمونه کتاب درسی از یک پرس و جو، بلکه یک نمونه تصفیه شده را نشان می دهد:

عنوان:"شاخص /شخصی/" -نام ها -آموزش -بانکداری

آخرین نمونه

یک هکر پیشرفته با این واقعیت متمایز می شود که همه چیزهایی را که نیاز دارد به تنهایی برای خود فراهم می کند. به عنوان مثال، VPN یک چیز راحت است، اما گران است یا موقت و با محدودیت. ثبت نام برای خودتان به تنهایی بسیار گران است. خوب است که اشتراک های گروهی وجود دارد و با کمک گوگل می توانید به راحتی عضو یک گروه شوید. برای انجام این کار، فقط فایل پیکربندی Cisco VPN را پیدا کنید که دارای پسوند PCF نسبتاً غیر استاندارد و یک مسیر قابل تشخیص است: Program Files\Cisco Systems\VPN Client\Profiles. یک درخواست، و شما، برای مثال، به کارکنان دوستانه دانشگاه بن بپیوندید.

نوع فایل: pcf vpn OR Group

اطلاعات

گوگل فایل های پیکربندی را با رمزهای عبور پیدا می کند، اما بسیاری از آنها رمزگذاری شده یا با هش جایگزین شده اند. اگر رشته هایی با طول ثابت مشاهده کردید، بلافاصله به دنبال یک سرویس رمزگشایی باشید.

رمزهای عبور به صورت رمزگذاری شده ذخیره می شوند، اما موریس ماسارد قبلاً برنامه ای برای رمزگشایی آنها نوشته است و آن را به صورت رایگان از طریق thecampusgeeks.com ارائه می دهد.

با کمک گوگل صدها نوع مختلف حمله و تست نفوذ انجام می شود. گزینه های زیادی وجود دارد که بر برنامه های محبوب، فرمت های اصلی پایگاه داده، آسیب پذیری های متعدد PHP، ابرها و غیره تأثیر می گذارد. دانستن اینکه دقیقاً به دنبال چه چیزی هستید، به دست آوردن اطلاعات مورد نیاز (مخصوصاً اطلاعاتی که قصد عمومی کردن آن را نداشتید) بسیار آسان تر می کند. نه تنها Shodan ایده های جالب را تغذیه می کند، بلکه هر پایگاه داده ای از منابع شبکه فهرست شده را ارائه می دهد!

و امروز در مورد موتور جستجوی دیگری که توسط نفوذگران / هکرها استفاده می شود - گوگل، به طور دقیق تر در مورد ویژگی های پنهان گوگل، به شما خواهم گفت.

google dorks چیست؟

Google Dork یا Google Dork Queries (GDQ) مجموعه ای از پرس و جوها برای شناسایی بدترین حفره های امنیتی است. همه چیزهایی که به درستی از ربات های جستجو پنهان نشده است.

برای اختصار، چنین درخواست‌هایی را Google dorks یا به سادگی dorks می‌نامند، مانند آن دسته از مدیرانی که منابع آنها با استفاده از GDQ هک شده است.

اپراتورهای گوگل

برای شروع، می خواهم لیست کوچکی از دستورات مفید گوگل را ارائه دهم. در میان تمام دستورات جستجوی پیشرفته گوگل، ما عمدتاً به این چهار مورد علاقه داریم:

سایت - جستجو برای یک سایت خاص؛
inurl - نشان می دهد که کلمات جستجو باید بخشی از آدرس صفحه / سایت باشد.
intitle - عملگر جستجو در عنوان خود صفحه؛
ext یا filetype - فایل هایی از نوع خاصی را با پسوند جستجو کنید.

همچنین، هنگام ایجاد یک Dork، باید چندین عملگر مهم را بشناسید که توسط کاراکترهای خاص تنظیم شده اند.

| - عملگر OR که به عنوان اسلش عمودی (منطقی یا) نیز شناخته می شود، نشان می دهد که می خواهید نتایج حاوی حداقل یکی از کلمات فهرست شده در پرس و جو را نمایش دهید.
"" - عملگر نقل قول جستجوی دقیق مطابقت را نشان می دهد.
- - عملگر منهای برای حذف از خروجی نتایج با کلمات مشخص شده بعد از منهای استفاده می شود.
* - عملگر ستاره یا ستاره به عنوان ماسک به کار می رود و به معنای "هر چیزی" است.

Google Dorks را کجا پیدا کنیم

جالب‌ترین دام‌ها تازه هستند و تازه‌ترین‌ها آنهایی هستند که پنتستر خودش پیدا کرده است. درست است، اگر بیش از حد در آزمایش‌ها غافل شوید، تا زمانی که وارد کپچا نشوید، از Google محروم خواهید شد.

اگر تخیل کافی وجود ندارد، می توانید سعی کنید تاج های تازه را در شبکه پیدا کنید. بهترین سایت برای پیدا کردن dorks، Exploit-DB است.

سرویس آنلاین Exploit-DB یک پروژه غیرانتفاعی امنیت تهاجمی است. اگر کسی اطلاعی ندارد، این شرکت به آموزش در زمینه امنیت اطلاعات می پردازد و خدمات پنتست (تست نفوذ) را نیز ارائه می دهد.

پایگاه داده Exploit-DB دارای تعداد زیادی آسیب پذیری و آسیب پذیری است. برای جستجوی dorks، به سایت بروید و به تب "Google Hacking Database" بروید.

پایگاه داده روزانه به روز می شود. در بالا می توانید آخرین موارد اضافه شده را بیابید. در سمت چپ، تاریخ اضافه شدن داک، عنوان و دسته.

وب سایت Exploit-DB

در پایین می‌بینید که دام‌ها بر اساس دسته‌بندی طبقه‌بندی شده‌اند.

وب سایت Exploit-DB

یکی دیگر از سایت های خوب این است. در آنجا اغلب می توانید dorks های جالب و جدیدی را پیدا کنید که همیشه در Exploit-DB ختم نمی شوند.

نمونه هایی از استفاده از Google Dorks

در اینجا نمونه هایی از dorks آورده شده است. هنگام آزمایش با dorks، سلب مسئولیت را فراموش نکنید!

این مطالب فقط برای مقاصد اطلاعاتی است. خطاب به متخصصان در زمینه امنیت اطلاعات و کسانی که قرار است به آنها تبدیل شوند. اطلاعات مندرج در مقاله فقط برای مقاصد اطلاعاتی ارائه شده است. نه سردبیران سایت www.site و نه نویسنده نشریه هیچ مسئولیتی در قبال آسیب های ناشی از مطالب این مقاله ندارند.

Dorks برای یافتن مشکلات سایت

گاهی اوقات مطالعه ساختار یک سایت با دریافت لیستی از فایل ها در آن مفید است. اگر سایت بر روی موتور وردپرس ساخته شده باشد، فایل repair.php نام سایر اسکریپت های PHP را ذخیره می کند.

تگ inurl به گوگل می گوید که اولین کلمه را در متن پیوند جستجو کند. اگر ما allinurl را می نوشتیم، آنگاه جستجو در سراسر بدنه پیوند انجام می شد و نتایج جستجو پر از زباله تر بود. بنابراین، کافی است درخواستی مانند این ارائه دهید:

inurl:/maint/repair.php?repair=1

در نتیجه، فهرستی از سایت‌ها را در WP دریافت خواهید کرد که ساختار آن‌ها از طریق repair.php قابل مشاهده است.

ما ساختار سایت را در WP مطالعه می کنیم

بسیاری از مشکلات برای مدیران توسط وردپرس با خطاهای شناسایی نشده در پیکربندی ارائه می شود. از لاگ باز می توانید حداقل نام اسکریپت ها و فایل های دانلود شده را پیدا کنید.

inurl:"wp-content/uploads/file-manager/log.txt"

در آزمایش ما، ساده ترین درخواست به ما این امکان را داد که یک پیوند مستقیم به نسخه پشتیبان در گزارش پیدا کنیم و آن را دانلود کنیم.

یافتن اطلاعات ارزشمند در گزارش های WP

بسیاری از اطلاعات ارزشمند را می توان از سیاهههای مربوط به دست آورد. کافی است بدانید که چگونه به نظر می رسند و چه تفاوتی با انبوه فایل های دیگر دارند. به عنوان مثال، یک رابط منبع باز برای یک پایگاه داده به نام pgAdmin یک فایل سرویس pgadmin.log ایجاد می کند. اغلب شامل نام های کاربری، نام ستون های پایگاه داده، آدرس های داخلی و موارد مشابه است.

گزارش با یک پرس و جو ابتدایی یافت می شود:

ext:log inurl:"/pgadmin"

نظری وجود دارد که منبع باز کد امن است. با این حال، به خودی خود، باز بودن کدهای منبع تنها به معنای فرصتی برای کاوش در آنهاست و اهداف چنین تحقیقاتی همیشه خوب نیست.

به عنوان مثال، در میان فریمورک های توسعه برنامه های کاربردی وب، Symfony Standard Edition محبوب است. در صورت استقرار، به طور خودکار یک فایل parameters.yml در فهرست /app/config/ ایجاد می کند، جایی که نام پایگاه داده و همچنین نام کاربری و رمز عبور را ذخیره می کند.

با پرس و جوی زیر می توانید این فایل را پیدا کنید:

inurl:app/config/ intext:parameters.yml intitle:index.of

f فایل دیگری با پسورد

البته، پس از آن رمز عبور را می توان تغییر داد، اما اغلب همان چیزی است که در مرحله استقرار تنظیم شده است.

ابزار مرورگر UniFi API منبع باز به طور فزاینده ای در محیط شرکت استفاده می شود. برای مدیریت بخش هایی از شبکه های بی سیم ایجاد شده بر اساس اصل "Wi-Fi بدون درز" استفاده می شود. یعنی در یک طرح استقرار شبکه سازمانی که در آن بسیاری از نقاط دسترسی از یک کنترل کننده واحد کنترل می شوند.

این ابزار برای نمایش داده های درخواست شده از طریق UniFi Controller API Ubiquiti طراحی شده است. با کمک آن، مشاهده آمار، اطلاعات مربوط به مشتریان متصل و سایر اطلاعات مربوط به عملکرد سرور از طریق UniFi API آسان است.

توسعه دهنده صادقانه هشدار می دهد: "لطفاً به خاطر داشته باشید که این ابزار بسیاری از اطلاعات موجود در کنترلر شما را در معرض نمایش قرار می دهد، بنابراین باید به نحوی دسترسی به آن را محدود کنید! هیچ کنترل امنیتی در ابزار تعبیه نشده است…”. اما به نظر می رسد بسیاری این هشدارها را جدی نمی گیرند.

با اطلاع از این ویژگی و درخواست یک درخواست خاص دیگر، داده‌های سرویس زیادی از جمله کلیدهای برنامه و عبارت‌های عبور را مشاهده خواهید کرد.

inurl:"/api/index.php" intitle:UniFi

قانون جستجوی کلی: ابتدا، خاص ترین کلماتی را که مشخص کننده هدف انتخابی هستند، تعیین می کنیم. اگر یک فایل لاگ است، چه چیزی آن را از سایر گزارش‌ها متمایز می‌کند؟ اگر این یک فایل با پسورد است، پس کجا و به چه شکلی می توان آنها را ذخیره کرد؟ کلمات نشانگر همیشه در مکان خاصی یافت می شوند - به عنوان مثال، در عنوان یک صفحه وب یا آدرس آن. با محدود کردن دامنه جستجوی خود و تنظیم نشانگرهای دقیق، نتایج جستجوی خام را دریافت خواهید کرد. سپس با مشخص کردن درخواست، آن را از زباله پاک کنید.

Dorks برای یافتن NAS باز

ذخیره سازی شبکه های خانگی و اداری این روزها رایج شده است. عملکرد NAS توسط بسیاری از درایوها و روترهای خارجی پشتیبانی می شود. بسیاری از صاحبان آنها به فکر امنیت نیستند و حتی رمزهای عبور پیش فرض را مانند admin/admin تغییر نمی دهند. شما می توانید NAS های محبوب را با عناوین معمولی صفحات وب آنها پیدا کنید. به عنوان مثال، یک درخواست:

intitle:"به QNAP Turbo NAS خوش آمدید"

لیستی از IP های NAS تولید شده توسط QNAP را برمی گرداند. باقی مانده است که در میان آنها محافظت ضعیفی پیدا کنیم.

سرویس ابری QNAP (مانند بسیاری دیگر) عملکرد به اشتراک گذاری فایل ها از طریق یک پیوند خصوصی را دارد. مشکل این است که آنقدر بسته نیست.

inurl:share.cgi?ssid=

یافتن فایل های مشترک

این پرس و جو ساده فایل های به اشتراک گذاشته شده از طریق ابر QNAP را نشان می دهد. آنها را می توان مستقیماً از مرورگر مشاهده کرد یا برای اطلاعات دقیق تر بارگیری کرد.

Dorks برای جستجوی دوربین های IP، سرورهای رسانه و مدیریت وب

علاوه بر NAS، می توانید بسیاری از دستگاه های شبکه تحت مدیریت وب دیگر را با جستجوهای پیشرفته گوگل بیابید.

رایج ترین استفاده برای این برنامه نویسی CGI است، بنابراین فایل main.cgi یک هدف امیدوارکننده است. با این حال، او می تواند در هر جایی ملاقات کند، بنابراین بهتر است درخواست را روشن کنید.

به عنوان مثال، اضافه کردن یک نوع call?next_file به آن. در نتیجه، یک داک از فرم دریافت می کنیم:

inurl:"img/main.cgi?next_file"

علاوه بر دوربین ها، سرورهای رسانه نیز به طور مشابهی قرار دارند و برای همه باز هستند. این به ویژه برای سرورهای Twonky که توسط Lynx Technology ساخته شده اند صادق است. آنها نام بسیار قابل تشخیص و پورت پیش فرض 9000 دارند.

برای نتایج جستجوی تمیزتر، بهتر است شماره پورت را در URL مشخص کنید و آن را از قسمت متنی صفحات وب حذف کنید. درخواست فرم می گیرد

intitle:"twonky server" inurl:"9000" -intext:"9000"

کتابخانه ویدئو بر اساس سال

به طور معمول، یک سرور Twonky یک کتابخانه رسانه ای بزرگ است که محتوا را از طریق UPnP به اشتراک می گذارد. مجوز روی آنها اغلب "برای راحتی" غیرفعال می شود.

Dorks برای یافتن آسیب پذیری ها

بیگ دیتا در حال حاضر محبوب است: اعتقاد بر این است که اگر داده های بزرگ را به هر چیزی اضافه کنید، به طور جادویی بهتر عمل می کند. در واقعیت، متخصصان واقعی بسیار کمی در این موضوع وجود دارند و با پیکربندی پیش‌فرض، داده‌های بزرگ منجر به آسیب‌پذیری‌های بزرگ می‌شوند.

Hadoop یکی از ساده ترین راه ها برای به خطر انداختن ترا و حتی پتابایت داده است. این پلتفرم منبع باز حاوی هدرهای معروف، شماره پورت ها و صفحات خدماتی است که یافتن گره هایی را که مدیریت می کند آسان می کند.

intitle:"اطلاعات Namenode" AND inurl:":50070/dfshealth.html"

اطلاعات بزرگ؟ آسیب پذیری های بزرگ!

با این کوئری الحاقی، یک نتیجه جستجو با لیستی از سیستم های آسیب پذیر مبتنی بر Hadoop دریافت می کنیم. می توانید مستقیماً از مرورگر در سیستم فایل HDFS قدم بزنید و هر فایلی را دانلود کنید.

Google Dorki یک ابزار قدرتمند برای هر pentester است که نه تنها یک متخصص امنیت اطلاعات، بلکه یک کاربر عادی شبکه نیز باید در مورد آن بداند.

زبان پرس و جو یک زبان برنامه نویسی مصنوعی است که برای ایجاد پرس و جو در پایگاه های داده و سیستم های اطلاعاتی استفاده می شود.

به طور کلی، چنین روش های پرس و جو را می توان بسته به اینکه برای یک پایگاه داده یا برای بازیابی اطلاعات خدمت می کنند طبقه بندی کرد. تفاوت این است که درخواست برای چنین خدماتی برای به دست آوردن پاسخ واقعی به سؤالات مطرح شده انجام می شود، در حالی که موتور جستجو سعی می کند اسنادی را که حاوی اطلاعات مربوط به حوزه مورد علاقه کاربر است پیدا کند.

پایگاه داده

زبان‌های پرس و جو پایگاه داده شامل مثال‌های زیر هستند:

QL - شی گرا، به جانشین Datalog اشاره دارد.
متنی (CQL) یک زبان پرس و جو رسمی برای سیستم های بازیابی اطلاعات (مانند نمایه های وب یا فهرست های کتابشناختی) است.
CQLF (CODYASYL) - برای پایگاه های داده CODASYL-TYPE.
زبان پرس و جو مفهوم گرا (COQL) - در مدل های منطبق (com) استفاده می شود. این مبتنی بر اصول مدل‌سازی داده‌های ساختاری است و از عملیات‌هایی مانند طرح ریزی و طرح زدایی تحلیل چند متغیره، عملیات تحلیلی و استنتاج استفاده می‌کند.
DMX - برای مدل ها استفاده می شود
Datalog یک زبان پرس و جو پایگاه داده قیاسی است.
زبان انگلیسی Gellish زبانی است که می‌توان از آن برای جستجو در پایگاه‌های اطلاعاتی Gellish استفاده کرد و امکان گفتگو (پرسش‌ها و پاسخ‌ها) و همچنین مدل‌سازی اطلاعات دانش را فراهم می‌کند.
HTSQL - درخواست های http را به SQL ترجمه می کند.
ISBL - برای PRTV (یکی از اولین سیستم های مدیریت پایگاه داده رابطه ای) استفاده می شود.
LDAP یک پروتکل خدمات پرس و جو و دایرکتوری است که از طریق TCP/IP اجرا می شود.
MDX - برای پایگاه های داده OLAP مورد نیاز است.

موتورهای جستجو

زبان پرس و جو جستجو نیز به نوبه خود با هدف یافتن داده ها در موتورهای جستجو است. تفاوت آن در این است که پرس و جوها اغلب حاوی متن ساده یا فرامتن با نحو اضافی هستند (مانند "و"/"یا"). این زبان به طور قابل توجهی با زبان های مشابه استاندارد، که توسط قوانین نحو دستوری سخت کنترل می شوند یا حاوی پارامترهای موقعیتی هستند، متفاوت است.

پرس و جوهای جستجو چگونه طبقه بندی می شوند؟

سه دسته کلی وجود دارد که بیشتر عبارات جستجو را پوشش می دهد: اطلاعاتی، ناوبری و معاملاتی. اگرچه این طبقه بندی از نظر تئوری ثابت نشده است، اما از نظر تجربی با وجود پرس و جوهای واقعی در موتورهای جستجو تأیید می شود.

جستارهای اطلاعاتی آنهایی هستند که موضوعات گسترده ای را پوشش می دهند (مانند یک شهر خاص یا مدل کامیون) که می توان برای آنها هزاران نتیجه مرتبط ایجاد کرد.

جستجوهای ناوبری جستجو برای یک سایت یا صفحه وب واحد در یک موضوع خاص (مانند YouTube) هستند.

تراکنشی - منعکس کننده قصد کاربر برای انجام یک عمل خاص، به عنوان مثال، خرید ماشین یا رزرو بلیط است.

موتورهای جستجو اغلب از نوع چهارم پرس و جو پشتیبانی می کنند که بسیار کمتر مورد استفاده قرار می گیرد. اینها به اصطلاح درخواست های اتصال هستند که اتصال یک نمودار وب نمایه شده را گزارش می کنند (تعداد پیوندها به یک URL خاص یا تعداد صفحاتی که از یک دامنه خاص ایندکس شده اند).

اطلاعات چگونه جستجو می شود؟

ویژگی های جالب در مورد جستجوی وب شناخته شده است:

میانگین طول پرس و جو 2.4 کلمه بود.

حدود نیمی از کاربران یک درخواست ارسال کردند و کمتر از یک سوم از کاربران سه یا چند درخواست منحصر به فرد را یکی پس از دیگری ارسال کردند.
تقریباً نیمی از کاربران تنها یک یا دو صفحه اول نتایج را مشاهده کردند.
کمتر از 5 درصد از کاربران از گزینه های جستجوی پیشرفته (مانند انتخاب هر دسته خاص یا جستجو در جستجو) استفاده می کنند.

ویژگی های اقدامات سفارشی

این مطالعه همچنین نشان داد که 19٪ از پرس و جوها حاوی یک اصطلاح جغرافیایی (به عنوان مثال نام، کد پستی، ویژگی های جغرافیایی و غیره) هستند. همچنین شایان ذکر است که علاوه بر پرس و جوهای کوتاه (یعنی با چندین شرط)، اغلب الگوهای قابل پیش بینی وجود داشت که در آن کاربران عبارات جستجوی خود را تغییر می دادند.

همچنین مشخص شد که 33 درصد از درخواست های یک کاربر تکرار می شود و در 87 درصد موارد کاربر روی همان نتیجه کلیک می کند. این نشان می دهد که بسیاری از کاربران از پرس و جوهای مکرر برای بازبینی یا کشف مجدد اطلاعات استفاده می کنند.

توزیع فرکانس درخواست ها

علاوه بر این، کارشناسان تأیید کرده اند که توزیع فرکانس درخواست ها با قانون قدرت مطابقت دارد. یعنی بخش کوچکی از کلمات کلیدی در بزرگترین لیست جستجو مشاهده می شود (مثلاً بیش از 100 میلیون) و پرکاربردترین آنها هستند. عبارات باقی مانده در موضوعات مشابه کمتر و بیشتر به صورت جداگانه استفاده می شوند. این پدیده را اصل پارتو (یا "قانون 80-20") می نامند و به موتورهای جستجو اجازه می دهد تا از تکنیک های بهینه سازی مانند نمایه سازی یا پارتیشن بندی پایگاه داده، کش کردن و واکشی اولیه استفاده کنند و همچنین بهبود موتور جستجو را ممکن ساخته است. زبان پرس و جو

در سال های اخیر، مشخص شده است که میانگین طول پرس و جو در طول زمان به طور پیوسته در حال افزایش است. بنابراین، میانگین پرس و جو در انگلیسی طولانی تر شده است. در این راستا، گوگل به‌روزرسانی‌ای به نام «مرغ مگس‌خوار» (در آگوست 2013) اجرا کرد که قادر است عبارات جستجوی طولانی را با زبان جستجوی غیرپروتکلی «محاوره‌ای» (مانند «نزدیک‌ترین کافی‌شاپ کجاست؟») مدیریت کند.

برای پرس و جوهای طولانی تر، از پردازش آنها استفاده می شود - آنها به عبارات فرموله شده در زبان استاندارد تقسیم می شوند و پاسخ ها به طور جداگانه برای بخش های مختلف نمایش داده می شوند.

پرس و جوهای ساختاریافته

موتورهای جستجویی که از نحو پشتیبانی می کنند از زبان های جستجوی پیشرفته تری نیز استفاده می کنند. کاربری که به دنبال اسنادی است که موضوعات یا جنبه های متعددی را پوشش می دهد، می تواند هر یک از آنها را با ویژگی منطقی یک کلمه توصیف کند. در هسته خود، یک زبان پرس و جو منطقی مجموعه ای از عبارات خاص و علائم نگارشی است.

جستجوی پیشرفته چیست؟

زبان پرس و جو "Yandex" و "Google" قادر به انجام جستجوی هدفمند تری با توجه به شرایط خاص است. جستجوی پیشرفته می‌تواند بر اساس بخشی از عنوان صفحه یا پیشوند عنوان، و همچنین دسته‌ها و فهرست‌های نام‌های خاص جستجو کند. همچنین می‌تواند جستجو برای صفحاتی را که حاوی کلمات خاصی در عنوان هستند یا در گروه‌های موضوعی خاصی قرار دارند، محدود کند. هنگامی که زبان پرس و جو به درستی استفاده می شود، می تواند پارامترهایی را با مقادیر پیچیده تر از نتایج سطحی اکثر موتورهای جستجو، از جمله کلمات مشخص شده توسط کاربر با انتهای متغیر و املای مشابه، کنترل کند. هنگام ارائه نتایج جستجوی پیشرفته، پیوندی به بخش های مربوطه صفحه نمایش داده می شود.

همچنین امکان جستجو برای تمام صفحات حاوی یک عبارت خاص است، در حالی که با یک پرس و جو استاندارد، موتورهای جستجو نمی توانند در هیچ صفحه ای از بحث متوقف شوند. در بسیاری از موارد، زبان پرس و جو می تواند به هر صفحه ای که در تگ های noindex قرار دارد منتهی شود.

در برخی موارد، یک پرس و جو که به خوبی شکل گرفته است به شما امکان می دهد اطلاعاتی را که حاوی تعدادی نویسه خاص و حروف از سایر حروف الفبای (مثلاً کاراکترهای چینی) است، بیابید.

کاراکترهای زبان پرس و جو چگونه خوانده می شوند؟

حروف بزرگ و کوچک و همچنین برخی (املوت ها و لهجه ها) در جستجو در نظر گرفته نمی شود. به عنوان مثال، با جستجوی کلمه کلیدی سیتروئن، صفحات حاوی کلمه "سیتروئن" را پیدا نمی کنید. اما برخی از لیگاتورها با حروف فردی مطابقت دارند. به عنوان مثال، جستجوی کلمه "aeroskobing" به راحتی صفحات حاوی "Ereskoebing" (AE = Æ) را پیدا می کند.

بسیاری از نویسه‌های غیرالفبایی به طور مداوم نادیده گرفته می‌شوند. به عنوان مثال، یافتن اطلاعات در مورد پرس و جوی حاوی رشته |L| غیرممکن است (حروف بین دو نوار عمودی)، حتی اگر این کاراکتر در برخی از الگوهای تبدیل استفاده می شود. نتایج فقط حاوی داده هایی با "LT" خواهد بود. برخی از کاراکترها و عبارات به گونه‌ای متفاوت مدیریت می‌شوند: «وام (مالی)» مقالاتی را با کلمات «وام» و «مالی» بدون توجه به کروشه‌ها نشان می‌دهد، حتی اگر مقاله‌ای با عنوان دقیق «وام (مالی)» وجود داشته باشد.

توابع زیادی وجود دارد که می توان با استفاده از زبان پرس و جو از آنها استفاده کرد.

نحو

زبان جستجوی "Yandex" و "Google" ممکن است از برخی از علائم نگارشی برای اصلاح جستجو استفاده کند. به عنوان مثال بریس های فرفری - ((جستجو))). عبارت موجود در آنها به طور کامل و بدون تغییر جستجو می شود.

عبارت in به شما امکان می دهد هدف جستجو را تعیین کنید. به عنوان مثال، یک کلمه نقل‌قول‌شده به‌عنوان استفاده در معنای مجازی یا به عنوان یک شخصیت داستانی، بدون نقل قول به‌عنوان اطلاعاتی با ماهیت مستندتر شناخته می‌شود.

علاوه بر این، همه موتورهای جستجوی اصلی از کاراکتر "-" برای "not" منطقی و/یا پشتیبانی می کنند. استثنا عبارت‌هایی هستند که نمی‌توان با خط فاصله یا خط تیره پیشوند آنها را انتخاب کرد.

تطابق نادرست یک عبارت جستجو با علامت ~ مشخص می شود. به عنوان مثال، اگر کلمه یا نام دقیقی را به خاطر ندارید، می توانید آن را با کاراکتر مشخص شده در نوار جستجو وارد کنید و به نتایجی دست پیدا کنید که حداکثر شباهت را دارند.

گزینه های جستجوی سفارشی

همچنین پارامترهای جستجو مانند عنوان، و دسته بندی وجود دارد. آنها فیلترهای جدا شده با کولون به شکل "filter: query string" هستند. رشته پرس و جو می تواند شامل عبارت یا عبارت جستجو شده یا قسمت یا نام کامل صفحه باشد.

ویژگی "intitle:query" نتایج جستجوی عنوان را در اولویت قرار می دهد، اما نتایج عادی را برای محتوای عنوان نیز نشان می دهد. چندین مورد از این فیلترها را می توان به طور همزمان استفاده کرد. چگونه از این فرصت استفاده کنیم؟

درخواستی مانند "intitle: name of the Airport" همه مقالات حاوی نام فرودگاه را در عنوان برمی گرداند. اگر آن را به عنوان "عنوان پارکینگ: نام فرودگاه" فرموله کنید، مقاله هایی با نام فرودگاه در عنوان و ذکر پارکینگ در متن دریافت خواهید کرد.

جستجو با فیلتر "مقوله: دسته" بر اساس اصل انتشار اولیه مقالات متعلق به یک گروه خاص یا لیست صفحات کار می کند. به عنوان مثال، یک عبارت جستجو مانند "Temples category: History" نتایج مربوط به تاریخ معابد را نشان می دهد. با تنظیم پارامترهای مختلف می توان از این تابع به عنوان یک تابع پیشرفته نیز استفاده کرد.