انتظار می رود گوگل جمینی قدرتمندترین هوش مصنوعی ساخته شده تاکنون باشد. این مدل دارای توانایی های چندرسانه ای پیچیده ای خواهد بود، به مکالمات، زبان و محتوای انسانی درک و تسلط خواهد داشت، تصاویر را درک و تفسیر خواهد کرد، به طور مکرر و مؤثر کدنویسی انجام خواهد داد، توانایی تجزیه و تحلیل داده ها را دارد و توسط توسعه دهندگان برای ایجاد برنامه ها و رابط های برنامه نویسی کاربردی (API) جدید استفاده خواهد شد.
طی یک سال گذشته، یک جنگ هوش مصنوعی (AI) بین OpenAI، مایکروسافت، گوگل و دیگران، این حوزه پر از دگرگونی را با سرعتی فوقالعاده تقویت کرده است. هر کدام از این شرکتها با یکدیگر رقابت و مدلهای جدید و قدرتمندتری را منتشر کردهاند. با وجود اینکه گوگل در عرصه هوش مصنوعی پیشگام نبوده است، اکنون قصد دارد با Gemini به اوج برسد. گوگل جمینی در روز چهارشنبه، 6 دسامبر 2023 راه اندازی شد، بنابراین اکنون باید دید که این بازی طولانی چگونه پیش خواهد رفت. در ادامه این مقاله از آکادمی بیتریوم، نحوه کار گوگل جمینی، میزان قدرت آن و کارهایی که می تواند انجام دهد را مورد بررسی قرار می دهیم.
هوش مصنوعی جمینی
از همان ابتدا، زمانی که جمینی در 10 می در کنفرانس توسعهدهنده Google I/O توسط مدیر عامل Sundar Pichai اعلام شد، یک چیز واضح بود: گوگل در حال ساخت هوش مصنوعی نسل بعدی است. این پروژه که توسط تیمهای Google Brain Team و DeepMind رهبری میشود، بر روی PaLM 2 ساخته شده است.
PaLM 2، یا Pathways Language Model 2، هسته فناوری است که گوگل برای ایجاد قابلیتهای هوش مصنوعی در مجموعه محصولات خود از آن استفاده میکند. این شامل محصولات و خدمات Google Cloud، Gmail، Google Workspace، دستگاههای سختافزاری مانند تلفن هوشمند Pixel یا ترموستات Nest و البته چت بات معروف AI Bard است. در آن زمان، جمینی هنوز در حال توسعه کامل و آموزش بود، اما Pichai جزئیاتی را فاش کرد که باعث تمایز هوش مصنوعی جدید خواهد شد.
گوگل جمینی هوش مصنوعی چندرسانه ای را فراتر خواهد برد
در این جمله، Pichai تأکید کرد که «چندرسانه ای» کلمه کلیدی برای درک توانایی های گوگل جمینی است. در حالی که بسیاری از افراد هوش مصنوعی چندرسانه ای را با هر هوش مصنوعی که بتواند با انواع محتوا مانند تصاویر یا متن کار کند، اشتباه می گیرند، برای گوگل، این اصطلاح معنای بسیار بیشتری دارد.
اخیراً، در تاریخ 24 اکتبر، در جریان گزارش درآمد سه ماهه سوم 2023 Alphabet، مدیر عامل گوگل نشانه های واضحی از نوع هوش مصنوعی چندرسانه ای که در حال ساخت آن بودند، داد. در این جمله، Pichai اشاره کرد که گوگل جمینی تنها گام اولیه در زمینه هوش مصنوعی چندرسانه ای است و این شرکت قصد دارد در سال 2024 مدل های پیشرفته تری را معرفی کند.
جمینی یک هوش مصنوعی انسانی تر است
به نوعی، ما قبلاً هوش مصنوعی چندرسانه را تجربه کرده ایم. شرکت هایی مانند OpenAI – مسئول ChatGPT – یا مایکروسافت فناوری های مختلف هوش مصنوعی تولید کننده را ارائه می دهند که می توانند با تصاویر، متن، داده ها و حتی کد کار کنند. با این حال، همه این سیستم های هوش مصنوعی اولیه فقط در حال خراش دادن سطح فناوری چندرسانه ای هستند، زیرا ادغام فرمت های مختلف محتوا و داده کارآمد نیست. دلیل موفقیت هوش مصنوعی مولد این است که برای اولین بار، یک ماشین می تواند کارهایی که انسان انجام می دهد را تقلید کند. اما انسان دقیقاً چه کاری می تواند انجام دهد؟ ما انسان ها می توانیم چت کنیم، برنامه نویسی کنیم، گزارش بنویسیم و تصاویر بسازیم.
همچنین بخوانید: آموزش کامل سالیدیتی
جمینی، ترکیبی از چندین هوش مصنوعی
تنها راه برای ایجاد هوش مصنوعی چندرسانه ای ظریف و کارآمد، ترکیب مدل های مختلف هوش مصنوعی در یک سیستم واحد است. مدل های یادگیری ماشین و هوش مصنوعی مانند پردازش گرافیکی، بینایی کامپیوتری، پردازش صوتی، مدل های زبانی، کدنویسی و برنامه نویسی و مدل های سه بعدی باید برای دستیابی به هم افزایی در توسعه هوش مصنوعی چند رسانه ای یکپارچه و هماهنگ شوند. این یک کار بزرگ و چالشبرانگیز است، و گوگل میخواهد این مفهوم را به سطح جدیدی از بی سابقه ترین سطح برساند.
آزاد برای توسعه دهندگان:
تفاوت بزرگ دیگر بین جمینی و سایر مدل ها مانند Chat GPT یا Bing Chat سطح دسترسی محدود فعلی توسعه دهندگان به فناوری است. اما از همین ابتدا، جمینی این روند را تغییر داده است.
حتما بخوانید: برنامه Chatgpt برای دستگاه های اندرویدی
پیچای همچنین افزود که جمینی “با ابزارها و ادغامهای API بسیار کارآمد خواهد بود.”
این بدان معناست که گوگل صرفاً در حال کار بر روی هوش مصنوعی جدیدی نیست که فقط یک نمایش تبلیغاتی برای وب باشد، بلکه در حال ساخت نسخه های سبک وزن و قدرتمند جمینی برای توسعهدهندگان است تا از آنها استفاده کنند و آنها را سفارشی کنند تا برنامه ها و APIهای هوش مصنوعی خود را ایجاد کنند.
یک هوش مصنوعی برای ساخت هوش مصنوعی:
این خیلی زود نیست که درک کنیم توسعه دهندگان چگونه از جمینی برای ایجاد برنامه های جدید AI و API ها استفاده خواهند کرد. در اواسط سپتامبر، خبر منتشر شد که گوگل شروع به دادن دسترسی کاربران به نسخه اولیه جمینی کرد و به طور طبیعی، همانطور که انتظار می رفت، اولین نشت اطلاعاتی جمینی منتشر شد. در 15 اکتبر، مهندس جاوا اسکریپت بدروس پومبوکیان، جهان را با اولین تصاویری که به نظر میرسد جمینی را در Makersuite ادغام کرده است، شوکه کرد. MakerSuite گوگل، که در اوایل سال 2023 منتشر شد و توسط PaLM 2 قدرت گرفته است، توسط توسعه دهندگان برای ایجاد برنامه های AI استفاده می شود.
MakerSuite اساساً یک هوش مصنوعی برای ایجاد هوش مصنوعی است. MakerSuite یک پلتفرم هوش مصنوعی است که به توسعه دهندگان کمک می کند تا برنامه های هوش مصنوعی جدیدی را ایجاد کنند. این پلتفرم دارای رابط کاربری ساده ای است که استفاده از آن را آسان می کند.
مطالعه کنید: هوش مصنوعی و ارزهای دیجیتال
پومبوکیان با فاش کردن ادغام جمینی در MarketSuite، توانایی های چندرسانه ای شگفت انگیز این هوش مصنوعی را نشان داد. جمینی قادر است متن و اشیا را در تصاویر تشخیص دهد و درخواست های ترکیبی متن آزاد و تصاویر را پردازش کند. این قابلیت ها نشان می دهد که جمینی یک هوش مصنوعی پیشرفته و چند وجهی است.
آیا جمینی از ChatGPT قدرتمندتر است؟
هنگام مقایسه جمینی و ChatGPT، بسیاری از کارشناسان از پارامترها صحبت می کنند. پارامترها در یک سیستم هوش مصنوعی، مانند پیچ و مهره های یک ماشین هستند. آنها تنظیمات یا وزن های مدل هوش مصنوعی هستند و نقش مهمی در عملکرد آن دارند و هوش مصنوعی از آنها برای تبدیل داده های ورودی به خروجی استفاده می کند. به طور کلی، هرچه هوش مصنوعی پارامترهای بیشتری داشته باشد، پیچیده تر است.
Chat GPT 4.0، پیشرفته ترین هوش مصنوعی در حال کار، دارای 1.75 تریلیون پارامتر است. در مقابل، گزارش شده است که جمینی از این عدد فراتر خواهد رفت، با گزارش هایی مبنی بر اینکه 30 تریلیون یا حتی 65 تریلیون پارامتر خواهد داشت. اما قدرت یک سیستم هوش مصنوعی فقط در تعداد پارامترهای بزرگ نیست. یک مطالعه توسط SemiAnalysis به ما اطمینان میدهد که جمینی ChatGPT 4.0 را “شکست” خواهد داد. SemiAnalysis پیش بینی می کند که تا پایان سال 2023، جمینی ممکن است ChatGPT 4.0 را با ضریب پنج تا 20 برابر قدرتمندتر شکست دهد.
جمینی، چیپ ها و داده های آموزشی
گزارش SemiAnalysis می گوید: “Gemini چندرسانه ای است، به این معنی که می تواند متن، تصاویر و سایر انواع داده ها را پردازش و تولید کند. این آن را انعطاف پذیرتر از ChatGPT می کند که فقط قادر به پردازش متن است.”
SemiAnalysis افزود که گوگل “قدرت محاسباتی بی سابقه” را برای آموزش Gemini سرمایه گذاری کرده و از GPT-4 فراتر خواهد رفت. برای آموزش Gemini، گوگل از چیپ های آموزشی پیشرفته ای به نام TPUv5 استفاده می کند. گفته می شود که این چیپ ها تنها فناوری در جهان هستند که قادر به هماهنگ کردن 16384 چیپ در حال کار هستند. این سوپر چیپ ها رمزی هستند که به گوگل اجازه می دهد چنین مدل عظیمی را آموزش دهد.
SemiAnalysis می گوید: “در حال حاضر، هیچ نهاد دیگری در این زمینه توانایی انجام چنین کاری را ندارد.”
همچنین بخوانید: مدیر فناوری Nvidia (انویدیا) می گوید Chatgpt مفیدتر از کریپتو است
اما آموزش یک مدل هوش مصنوعی فقط مربوط به چیپ ها نیست بلکه همچنین مربوط به داده ها نیز است. و وقتی صحبت از داده می شود، گوگل یکی از پادشاهان حاکم است. “گوگل مجموعه گسترده ای از داده های فقط کد را دارد، که تخمین زده می شود در حدود 40 تریلیون توکن باشد، این واقعیت توسط SemiAnalysis تایید شده است.” 40 تریلیون توکن معادل صدها پتابایت یا محتوای میلیون ها کتاب است. طبق گفته Semi Analysis، تنها یکی از مجموعه داده های گوگل چهار برابر بزرگتر از کل داده های استفاده شده برای آموزش ChatGPT 4.0 است که شامل داده های کد و غیر کد است.
سخن پایانی
جمینی هنوز در حال توسعه است، اما پتانسیل زیادی برای کاربردهای مختلف دارد. این می تواند برای کارهایی مانند ترجمه زبان، تولید محتوای خلاقانه و پاسخ به سوالات استفاده شود. با پیشرفت جمینی و بهبود چیپ هایی که روی آن اجرا می شود، این هوش مصنوعی می تواند حتی قدرتمندتر شود و طیف گسترده تری از کاربردها را پوشش دهد. جمینی می تواند تاثیر قابل توجهی بر زندگی ما داشته باشد. این می تواند به ما کمک کند تا با یکدیگر بهتر ارتباط برقرار کنیم، خلاقیت خود را بیان کنیم و دنیا را بهتر درک کنیم.
نظر شما درمورد هوش مصنوعی جمینی (Gemini) چیست؟ نظرات خود را با آکادمی بیتریوم به اشتراک بگذارید.