خوشم میاد کم هم نمیاری! یه درصد هم احتمال نمیدی که اشتباه کرده باشی! اعتماد به نفس در حد تیم ملی!
این عکس از همون مصاحبهی روز اول رونمایی موتور هست. اتفاقاً این هم توی آرشیو صدا و سیما موجوده!
خوب حالا شما اون مصاحبهای که با اون آقا کردن رو لینکش رو بذار ببینیم!
میشه بفرمایید من کجای مطلب رو پیچوندم؟ گفتی یوتیوب توی نتایج نیست، گفتم دلیلش اینه که فیلتره. گفتی این سرچ من جوابش خوب نبود، گفتم بله نبود. گفتی کیورد رو درست کراول نکردین، گفتم کیورد رو کراول نمیکنن، صفحه رو کراول میکنن. گفتی ۱۴۰ میلیارد پول! گفتم ۱۴۰ میلیارد نبوده، ۷ میلیارد بوده، نمونههای مشابه خارجی هم برات گذاشتم که مقایسه کنی. حالا بفرمایید من کجاش رو پیچوندم؟
ما آرشیو بلاگفا رو کامل کراول نکردیم، دلیلش اینه که خزشگر ما politeness رو رعایت میکنه. بله میتونیم حمله کنیم به بلاگفا و کلش رو با هم کراول کنیم! ولی این رفتار polite نیست. صد البته این ضعف خزشگر ما هست که آرشیو بلاگفا رو کامل نداریم. در ضمن مقایسهی خزش بلاگفا با بقیهی سایتها اصلاً عادلانه نیست. بلاگفا یک هاست مشخص هست که روی تعداد محدود IP، کلی دامنه و صفحه داره. برای همین خزش کردنش خیلی فرق میکنه با سایتهای دیگه.
در مورد پولش: بله، آواز دهل شنیدن از دور خوش است! هر کسی اولش میگه بابا این که کاری نداره! یک صدم این پول رو بدین به من یه هفتهای براتون ده برابر بهترش رو میسازم! اما در عمل هیچ کاری نمیتونه انجام بده.
نمونه:
http://barnamenevis.org/showthread.php?487670-فراخوان-ایجاد-یک-موتور-جستجوی-داخلی
این بنده خدا شروع کرد به نوشتن یه موتور جستجو! بعد که رفت جلو، رسید به جایی که متوجه شد با این عدد و رقمها نمیشه یه موتور جستجوی درست و حسابی نوشت:
http://barnamenevis.org/showthread.php?487670-فراخوان-ایجاد-یک-موتور-جستجوی-داخلی&p=2201111&viewfull=1#post2201111
بله، یه خزشگر که آروم آروم کارش رو بکنه، کلاً چند میلیون صفحه داشته باشی، یه ایندکس ساده، یه UI ساده، میشه در عرض چند روز نوشت، با هزینهی بسیار پایین. مسئله مقیاسه! وقتی مقیاس میره بالا همه چیز عوض میشه. مجبوری تمام بخشها رو توزیع شده بسازی. هم هزینهی سختافزاریات به شدت میره بالا، هم هزینهی نرمافزاری و نیرو. کلی پهنای باند میخوای. باید خزشگرت توی اون پهنای باند بالا، بتونه politeness رو رعایت کنه. یعنی چی؟ یعنی این:
شما چندین میلیون هاست مختلف دارید. روزانه باید دهها میلیون صفحه ازشون خزش کنید. این کار رو مجبورید به صورت توزیعشده انجام بدید. باید به صورت دائمی خزش انجام بشه که پهنای باند بلااستفاده نمونه و هدر نره. نمیتونید از یک هاست به صورت همزمان دهها صفحه رو دریافت کنید (politeness). در نتیجه باید یه سیستمی طراحی کنید که توی مقیاس بالا بتونه این کار رو انجام بده. خوب حالا بسمالله. ببینم باز هم «با ۱ هزارم اون پول برنامه نویس های این جا کراولر و اسپمر مینویسن ۱۰ برابر بهتر از یوز»؟!!!