• پایان فعالیت بخشهای انجمن: امکان ایجاد موضوع یا نوشته جدید برای عموم کاربران غیرفعال شده است

موتورهای جستجو

a_bertina

Registered User
تاریخ عضویت
20 آگوست 2006
نوشته‌ها
172
لایک‌ها
14
سلام
من عباس برتینا هستم
دانشجوی سال آخر کارشناسی کامپیوتر گرایش نرم افزار. حدود 4 الی 5 ساله که تو زمینه موتورهای جستجو کار می کنم
یه مقاله هم دادم که تو چهارمین همایش سراسری مهندسی کامپیوتر دانشگاه علم و فرهنگ پذیرفته شد.
عنوانش هم این بود:
طراحي يک موتور جستجوي توزيع شده حساس به موضوع
من تا حالا عملا دو موتورجستجو طراحی کردم که اولیش یه متا کرالر( meta crawler ) بود و توی سایت www.hamnafas.com گذاشته بودمش و تا اواخر فعالیتش بیش از 1500 جستجو در روز داشت
اما سایت همنفس رو بعد از 1 سال از فعالیت به دلیل مشغله زیاد بستمش یه دلیل دیگشم این بود که با اینکه از لحاظ کیفیت جستجوی فارسی هیچ رقیبی نداشت اما به نظر خودم خیلی ضعیف بود.دومین تجربه عملی من یه موتورجستجوی کامل با تمام مشخصاتش و زیر سیستم هاش بود. این موتور جستجو برای یه سازمان دولتیه که الان اسمشو نمیگم تا خبر رسمیش اعلام بشه احتمالا حدکثر تا دو ماه دیگه خبر رسمی اولین موتور جستجوی واقعی ایرانی اعلام میشه. الانم این موتور در حال تست توی حجم زیاد و باز بینی هستش.

خب مهمتر از همه دلیل ایجاد این تاپیک چیه:
من تازه عضو این سایت شدم چون متوجه شدم افراد با معلومات و با استعدادی وجود دارند که توی عضو هستن یا به اون مراجعه می کنن یا حداقل کسایی هستند که استعداد دارند و سخت کوش هستند به دنبال یادگیری. این همون رمز موفقیته و منم دنبال این افراد هستم.
خب من این تاپیک رو زدم تا بتونم به سوالات افراد در مورد موتور های جستجو تا جایی بلدم جواب بدم و همچنین تبادل اطلاعات بکنم و اون چیزایی رو که بلد نیستم رو یاد گیرم.
یه دلیل مهم دیگه اینه که من یه شرکت دارم که تخصصی توی این زمینه کار می کنه که نمیدونم طبق قوانین این سایت می تونم اسمشو ببرم یا نه و من دنبال کسایی می گردم که توی این زمینه با هاشون هم کاری کنم فقط این افراد یا باید توی این زمینه کارکرده باشن یا معلومات داشته باشن یا افرادی باشن که فکر می کنن توی این زمینه استعداد دارن.
همچنین اگه کسی پروژه ازمایشی هم داره بگه.

نکته مهم: این تاپیک در مورد موتور های جستجو و ساختار اونها و روش کار اونهاست و به SEO و بهینه سازی رتبه بندی موتور های و حواشی موتورها کاری نداره

خب طولانی شد چیزای دیگه رو بعدا میگم

از مدیر فروم هم تقا ضا دارم در صورت امکان این تاپیک رو به یه موضوع تبدیل کنه چون واقعا موضوع مهمی هستش و می تونه به ICT این مملکت کمک شایانی بکنه.

با تشکر فراوان: عباس برتینا
 

a_bertina

Registered User
تاریخ عضویت
20 آگوست 2006
نوشته‌ها
172
لایک‌ها
14
سایت همنفس 1 سال پیش به دلیل مشغله زیاد من بسته شد. الانم تمام اسکریپت ها و برنام های هست یه سرور هم دارم ولی مشغله نمیذاره الان راش بندازم.
هروقت تونستم حتما راهش می ندازم.
میدونی خیلی وقت میگیره.:(
 

a_bertina

Registered User
تاریخ عضویت
20 آگوست 2006
نوشته‌ها
172
لایک‌ها
14
با چه زبونی پیاده سازی کردی سیستم رو؟!
اگه منظور شما اون متا کرالر بود که با php/mysql نوشته بودمش اما اگه اون موتور جستجوی کامله که تو مرحله تست هستش از یک طراحی fully distributed برخورداره
این موتور از دو تکنولوژی 0.net 2 و یه قسمتیش هم از apache/php استفاده میشه
در مورد RDBMS هم الان از SQL 2005 Enterprise استفاده می کنیم که اگه تو حجم زیاد جواب نده میریم روی oracle
هزینه اولیه سخت افزارش چند 10 میلیون تومن می شه تا فقط بتونیم سیستم رو به صورت محدود تست کنیم تازه پهنای باند هم یه مشگل دیگس که هنوز درست حل نشده چون حداقل 100 مگ پهنای باند میخوایم که توی ایران تهیه چنین پهنای باندی یه کم سخته حتی برای دولتی ها.
 

Hitman3

Registered User
تاریخ عضویت
19 می 2006
نوشته‌ها
83
لایک‌ها
4
سلام مهندس
يکي از بچه ها توي همين فروم يه سئوالي پرسيده بود که دقيقا سئوال منم هست:

به چه صورت میشه از سرچ گوگل در سایت استفاده کرد؟
بطوری که کار جستجوی بخش های مختلف سایت رو گوگل انجام بده و نتیجه جستجو رو فقط از سایت مورد نظر به کاربران نمایش بده.
اينم آدرس جايي که سئوال رو پرسيده:
http://forum.persiantools.com/t55443.html

ممنون ميشم جواب بدين
 

a_bertina

Registered User
تاریخ عضویت
20 آگوست 2006
نوشته‌ها
172
لایک‌ها
14
سلام
من توی خیلی از تاپیک های سوالات زیادی در رابطه با سایت parseek دیدم و میخوام تک تک این سوالات رو که شامل سوالات زیر می شوند را پاسخ دهم.
1) پارسیک چگونه کار می کند؟
2) پارسیک اصلا چیست یک موتور جستجوی کامل است یا یک متا کرالر (meta search engine ) یا اصلا هیچ کدام اینها؟
3) پارسیک اطلاعات خود را از کجا می اورد و ایا برای اوردن انها پولی پرداخت می کند؟
4) پارسیک با چه زبانی نوشته شده است؟
5) آیا می توان یک سایت مثل پارسیک ساخت یا اسکریپتی مثل اون نوشت؟
6) پس آیا حرف هایی که در قسمت درباره سایت پارسیک نوشته شده(و مصاحبه سازنده آن یعنی آقای علیرضا شیرازی سازنده آن با بخش IT خبر 20:30) دروغ است؟
7) پس چرا www.parseek.com معروف شد؟

من سعی میکنم به دقت به تمام این سوالات جواب بدهم تا کاملا این موضوع روشن بشه و برای تمام پاسخ ها دلیل و سند می آورم تا حرفی در آن نباشد. علت این کار من هم اطلاع رسانی و شفاف سازی در رابطه با این سایت جستجو و دادن اطلاعات به دیگر دوستان برای ایجاد سیستم های بهتر می باشد و اینجانب شخصا مشکلی با این سایت جستجو ندارم.

اولین نکته جالب این است که این سایت در زمانی که می خواستم این پست را ارسال کنم ازکار افتاده بود که این نکته عجیبی بود چون یکی از نکات مثبت parseek این است که بسیار کم از کار می افتد؟!؟! 28 و 29 مرداد 1385

1) جستجوی پارسیک یک اسکریپت می باشد که با زبان ASP .net 1 نوشته شده و کارش این است که عبارت مورد جستجوی کاربر را به صورت مستقیم(در بعضی موارد با کمی تغییر مثلا در حرف ی و عبارات منطقی) به موتور جستجوی msn به ادرس www.msn.com ارسال می کند و سپس صفحه نتایج را دریافت کرده ، تغییر داده و در سایت پارسیک نمایش میدهد پس به عبارتی نتایج آن مستقیما همان msn می باشد بعضی ها به اشتباه فکر میکنند که این نتایج از چند موتور جستجو همانند yahoo و google می آید در صورتی که به هیچ عنوان اینگونه نمی باشد.
برای اثبات این موضوع فقط کافی است که یک کلمه را هم در سایت parseek و هم در msn جستجو نمایید و نتایج ان را مقایسه کنید حتی یک خط هم تفاوتی ندارد

2) ابتدا جستجوگر متا یا همان موتور جستجوی متا را تعریف می کنیم:(Meta search engine / Meta crawler)
" اين گونه جديد از موتورهای جستجوگر كه قدمت چندانی نيز ندارند از تركيب كردن نتايج حاصل از چنديد موتورجستجوگر استفاده ميكند.بدين معنی كه اين موتور عبارت مورد نظر شما را در چندين موتورجستجوگر ‍ِ جستجو ميكند و نتايج آنها را با هم تركيب كرده و يك نتيجه كلی به شما ارائه می‌دهد.به‌عنوان مثال موتورجستجوگر داگ پايل از نتايج حاصل از موتورهای Google - Yahoo - MSN و ASK استفاده كرده و نتيجه حاصل را به شما می‌دهد "
این تعریف مختصری است که در دایره المعارف wikipedia ارائه شده است به ادرس موتورهای جستجوی

بنا به این تعریف
جستجوی پارسیک یک موتور جستجوی متا نمی باشد چون نتایج را فقط از یک موتور جستجو یعنی msn می خواند و بدون استفاده از الگوریتم های پیچیده دوباره rank کردن انها را نمایش می دهد.

و به دلیل اینکه دارای یک سیستم کامل موتور جستجو همانند گوگل و یاهو هم نمی باشد پس یک موتور جستجوی کامل هم نمی باشد و تنها یک جستجوی ساده می باشدیا همان msn با ظاهر فارسی
(قابل ذکر است که تاکنون هیچ موتور جستجوی کامل فارسی ساخته نشده است)

3) پارسیک اطلاعات خود را از صفحات نتایج msn و بدون پرداخت هیچ هزینه ای بدست می اورد

4) جستجوی پارسیک یک اسکریپت می باشد که با زبان ASP .net 1 نوشته شده
برای فهمیدن این موضوع می توانید به پسوند صفحات سایت پارسیک نگاه کنید ASPX
هنگامی که شما جستجو می کنید در ادرس بار این عبارت را می بینید http://www.parseek.com/search/?q=
که اگر عبارت http://www.parseek.com/search/index.aspx?q=
را جایگزین یک صفحه خطا نمایش داده می شود که مخصوص ASP .net 1 می باشد.

5) بله، به راحتی می توان با استفاده از یک زیان اسکریپتی مانند php یا asp بر روی یک هاستینگ معمولی (shared)
ایجاد کرد.
چند نمونه غیر فارسی و شاید فارسی هم موجود می باشد که من ندیدم و فقط اسم انها رو شنیدم

6) عبارت دروغ چندان مناسب نیست متاسفانه بسیاری از صاحبان سایت به دلایلی که اغلب تبلیغاتی می باشد امکانات و وضعیت کنونی خود را بسیار بزرگ تر از واقعیت ارائه می دهند در صورتی که اصلا آن گونه که ادعا می کنند نمی باشد.

7) چند دلیل :
a) به قول یکی از دوستان توی یه تاپیک دیگه گفته بود چون ادعاهای گنده کرد
b) تو زمان خودش هیچ سایت جستجوی مشابهی وجود نداشت پس توی شهر کورها با یک چشم پادشاه بود
c) کاربران ایرانی از msn استفاده نمی کردند.
d) ارائه خدمات غیر از جستجو
e) نام خوب و راحت آن
f) عادت شدن استفاده از ان بین کاربران
و چندتا دلیل دیگه که بعدا می گم...

اگه دوستان بازم سوالاتی در مود این سایت و سیستم های مشابه دارن بفرمایند تا در صورت امکان پاسخ بدهم.
 

parsa

کاربر قدیمی پرشین تولز
کاربر قدیمی پرشین تولز
تاریخ عضویت
19 مارس 2006
نوشته‌ها
1,318
لایک‌ها
102
سن
45
آقا من تو این زمینه وارد نیستم، ولی اطلاعاتی که میدی خیلی جالب و مفیده! شخصا خیلی استفاده کردم!
امیدوارم با همفکری دوستان حرفه ای، ادامه پیدا کنه تا امثال ما آماتورها هم یه کم راه بیفتیم!
خسته نباشی ...
238.gif
 

a_bertina

Registered User
تاریخ عضویت
20 آگوست 2006
نوشته‌ها
172
لایک‌ها
14
سلام مهندس
يکي از بچه ها توي همين فروم يه سئوالي پرسيده بود که دقيقا سئوال منم هست:


اينم آدرس جايي که سئوال رو پرسيده
http://forum.persiantools.com/t55443.html

ممنون ميشم جواب بدين

خب برای این کار شما اول باید یک زبان اسکریپتی بلد باشید..مثل
php , perl , cgi , python , asp , ssi , ...
بعد باید یک فرم درست کنید که ورودی کاربر را در یافت کند و به اسکریپت شما ارسال کند
بعد از ان شما باید از طریق یک HTTP GET REQUEST یک درخواست برای گوگل ارسال کنید
چون من با php بیشتر اشنا هستم روش های این کار در php را توضیح میدم(اگه دوستان دیگه توی زبان های دیگه بلدند لطفا به ما هم یاد بدهند)
در php برای ارسال یک HTTP GET REQUEST سه راه رایج وجود دارد:
ّfopen
curl
fsockopen
راه اول خیلی سادست ولی هیچ امکاناتی نداره و تا حدودی ضعیفه و خیلی کنده (چند تا تابع مشابه هم داره )
راه دوم سریع ترین است ولی در بعضی موارد محدودیت هایی دارد و بسیاری از هاست ها آن را غیر فعال میککند
را سوم بیشترین امکانات را دارد و از لحاظ سرعت پس از curl می باشد اما کمی سخت است و شما باید یک Raw http Request درست کنید و آنرا به تابع fsockopen دهید.
پس از اینکه شما از یکی از طرق بالا محتویات صفحه نتیجه گوگل را به یک متغییر در اسکریپت خود وارد کردید باید با استفاده از regular expressions و یا توابع کار روی رشته ها محتویات مورد نیاز روی صفحه نتیجه را جداکنید (مانند لینک و هایپرلینک و titlt و توضیح )
بعد از این شما می توانیید مقدارهایی را که جدا کرده اید به شکلی که دوست دارید نمایش دهید بدون آنکه نامی از گوگل در سایت شما باشد
(توجه داشته باشید که این کار یعنی عدم رعایت copyright که کار پسندیده ای نیست. پس بهتر است در صورتی که از این روش استفاده میکیند ذکر نماید که نتایج از کدام موتور جستجو به دست می آید)

منه التوفیق
 

a_bertina

Registered User
تاریخ عضویت
20 آگوست 2006
نوشته‌ها
172
لایک‌ها
14
سلام
یک نکته جالب در مورد گوگل و یاهو بگم ان هم این است که هر دو اینها دون توجه به اینکه تعداد نتایج جستجوی شما چند تا باشد (حتی چند میلیارد) حداکثر فقط 1000 نتیجه را نشان می دهند و حتی یک نتیجه بیشتر هم نشان نمیدهند.
با این وضعیت ادم به تعداد نتیاج بدست آمده شک می کند
 

a_bertina

Registered User
تاریخ عضویت
20 آگوست 2006
نوشته‌ها
172
لایک‌ها
14
یعنی هیچ کس توی این فروم 50 هزار نفری از موتورهای جستجو خوشش نمیاد یا چیزی نمی دونه:mad:
 

rezadogar

Registered User
تاریخ عضویت
10 اکتبر 2004
نوشته‌ها
14
لایک‌ها
0
a_bertina عزیز آیا راهی وجود داره که در مورد گوگل از کدهای regular expressions استفاده کرد و نتایج را استخراج کرد؟
منظورم اینه که اول برای هدفی که دنبال میکنید کد رجکس رو بنویسید، و بعد به طریقی که شما لطف میکنید توضیح میدید نتایجی که با کدهای رجکس نوشته شده، تطبیق میکند را از گوگل دریافت کنید بدون هیچ گونه مطلب اضافی. من این مورد را در کتاب گوگل هکینگ دیدم که با اسکریپت پرل و regex اینکار انجام میشه ولی میخواستم بدونم راه دیگری وجود داره
ممنون میشم با مثال عملی لطف کنید توضیح بدید؟
 

a_bertina

Registered User
تاریخ عضویت
20 آگوست 2006
نوشته‌ها
172
لایک‌ها
14
a_bertina عزیز آیا راهی وجود داره که در مورد گوگل از کدهای regular expressions استفاده کرد و نتایج را استخراج کرد؟
منظورم اینه که اول برای هدفی که دنبال میکنید کد رجکس رو بنویسید، و بعد به طریقی که شما لطف میکنید توضیح میدید نتایجی که با کدهای رجکس نوشته شده، تطبیق میکند را از گوگل دریافت کنید بدون هیچ گونه مطلب اضافی. من این مورد را در کتاب گوگل هکینگ دیدم که با اسکریپت پرل و regex اینکار انجام میشه ولی میخواستم بدونم راه دیگری وجود داره
ممنون میشم با مثال عملی لطف کنید توضیح بدید؟
سلام
ببخشید که چند وقتی پست ندادم.
مسافرت بودم :blush:

جواب سوال:
بله وجود دارد
فقط کافیست شما صفحه نتایج گوگل را به طریقی وارد برنامه خود بکنید و با استفاده از regular expression نتایج مورد نیاز خودتون رو استخراج کنید.
حقیقتش اینه که من خودم regular expression ها رو خوب بلد نیستم اما اگر شما خودتون بخواهید یاد بگیرید
باید کتاب "نظریه زبان ها و ماشین ها" رو بخونید و یا کتاب "اتاماتا".
من یکی دو تا ebook هم دارم که اگه خواستید بهتون می دم.
اما من برای این کار یک پارسر کراکتر به کراکتر می نویسم که یکم سخت ترو بیشتره.
یه راه دیگه هم هست که توی اینترنت بگردیم و یک reg ex پیدا کنیم.
نمی دونم درست جواب دادم یا نه؟
اگه توضیحم ناقصه بفرمایید تا تکمیل کنم.
 

rezadogar

Registered User
تاریخ عضویت
10 اکتبر 2004
نوشته‌ها
14
لایک‌ها
0
خواهش میکنم، خیلی لطف کردید پاسخ دادید،
در مورد regular expression
این کتابها رو درمورد regex دارم

کد:
Mastering Regular Expressions, 2nd Edition.O'Reilly
Beginning Regular Expressions
Teach Yourself Regular Expressions in 10 Minutes

چهار فصل از ده فصل کتاب Teach Yourself Regular Expressions in 10 Minutes
را به فارسی ترجمه کردم تو این فروم
کد:
http://www.pcseven.com/forum/index.php
بخش آموزش، تاپیک دانلود آفلاین قرار دادم. فصل 5 هم مقداریش رو ترجمه کردم ولی وقت نمیکنم ادامه بدم.

باید کتاب "نظریه زبان ها و ماشین ها" رو بخونید و یا کتاب "اتاماتا".
این کتابها فقط در مورد regular expression هستند یا در مورد مباحث دیگری هم بحث میکنند، ترجمه شده هستند یا

انگلیسی؟ اگر انگلیسی هستند ISBN یا تایتل کتابها رو لطف کنید.

فقط کافیست شما صفحه نتایج گوگل را به طریقی وارد برنامه خود بکنید
فکر میکنم مشکل اینجاست.
اگر براتون مقدوره لطف میکنید بیشتر توضیح بدید.
فرض رو بر این قرار بدید که من مقدار کمی پی اچ پی و مای اس کیو ال میدونم.
فکر میکنم یکی از معروفترین regex ها الگوی ایمیل ادرس باشه
کد:
\b[A-Z0-9._%-]+@[A-Z0-9._%-]+\.[A-Z]{2,4}\b
در صورت تمایل میخواهید با این الگو مثال بزنید یا هر الگوی دیگری که مایل هستید.
اگر وقت ندارید باشه برای یه وقتی که فرصتی هست.
متشکرم.
 

hamid206

Registered User
تاریخ عضویت
26 فوریه 2005
نوشته‌ها
239
لایک‌ها
2
طراحی موتور جستوجو کار سختی نیست ولی با توجه به امکانات سخت افزاری موجود در ایران و نبود اسپانسر کار بیهوده ای هست اگه می خواید تو سایت تون موتور جستوجو داشته باشید و سوادی هم ندارید کافیه از نرم افزار زیر استفاده کنید که سه سوت براتون موتور طراحی میکنه اسمش رو می دم خودتون تو گوگول دنبال لینک دانلودش بگردید سریع پیدا می کنید
searchmp32
 
بالا