شرکت (Adobe) در این سالها بیکار نبوده و بر پایه پایگاه اطلاعاتی که در اختیار دارد، نرمافزار هوش مصنوعی (Firefly) را طراحی کرده که از زمان راهاندازی تاکنون، بیش از یک میلیارد عکس تولید کرده و سهام آن ۳۶ درصد رشد داشته است. این بازار داغ رقابت در تولید نرمافزارهای هوش مصنوعی، ارزش بیشازپیش دسترسی به اطلاعات را نشان میدهد. شرکتهای هوش مصنوعی که تا پیش از این، بدون کسب اجازه از دادههای فضای وب استفاده میکردند، اکنون برای رقابت در این بازار پرمخاطب، به دنبال منابع اطلاعاتی جدید هستند و البته شرکتهایی که ذخیره دادهای غنی در اختیار دارند، در حال بررسی بهترین روش برای کسب سود در این رقابت بر سر اطلاعات هستند و به نظر میرسد که از برندگان این بازی خواهند بود.
هر روز قویتر از دیروز
نرمافزارهای هوش مصنوعی بر دو عنصر اصلی و ضروری استوار هستند؛ اول مجموعه دادههایی که سیستم بر اساس آنها دادههای جدید تولید میکند و دوم قدرت پردازش. این دو عنصر تا حدی قابلیت جایگزینی دارند. یعنی یک مدل هوش مصنوعی را میتوان با مصرف دادههای بیشتر یا افزودن قدرت پردازش بیشتر بهبود بخشید. اما مسئله اینجاست که تقویت قدرت پردازش به دلیل کمبود تراشههای هوش مصنوعی در حال دشوارشدن است و همین امر باعث شده، سازندگان مدلهای هوش مصنوعی تمرکز مضاعف بر جستوجوی دادهها داشته باشند. یک مجموعه تحقیقاتی، تخمین زده که تقاضا برای دادهها به قدری سریع در حال رشد است که ممکن است ذخیره متن باکیفیت که برای آموزش در دسترس است تا سال ۲۰۲۶ به اتمام برسد. بهطور مثال، جدیدترین مدلهای هوش مصنوعی گوگل و متا، دو غول فناوری، احتمالاً با بیش از یک تریلیون (هزار میلیارد) کلمه آموزش دیدهاند، در حالی که مجموع کلمات انگلیسی در ویکیپدیا، حدود ۴ میلیارد است. علاوه بر این، مجموعه اطلاعات تخصصی در دسترس این نرمافزارها نیز روزبهروز مهمتر و باارزشتر میشود، زیرا به مدلهای هوش مصنوعی اجازه میدهد تا به کاربران تخصصی خدمات بهتری ارائه دهند.
از سوی دیگر، به دلیل همین افزایش تقاضا برای داده، دسترسی به آن هم پیچیدهتر شده و بسیاری از تولیدکنندگان محتوا خواستار جبران خسارت هستند. گروهی از نویسندگان و هنرمندان، علیه سازندگان نرمافزارهای هوش مصنوعی به علت استفاده غیرقانونی از محتوا اعلام جرم کردهاند. نتیجه این اتفاقات، انبوهی از قراردادها بین دارندگان اطلاعات و صاحبان نرمافزارهای هوش مصنوعی بوده است تا بتوانند در این بازار داغ رقابت کنند. مثلاً در ژوییه شرکت (Openai)، قراردادی با خبرگزاری آسوشیتدپرس برای دسترسی به آرشیو داستانهای آن امضا کرد. همچنین اخیراً قراردادی را با (Shutterstock)، ارائهدهندهی عکاسی سهام، که متا نیز با آن قرارداد دارد، امضا کرده است. همچنین، گزارش شده که گوگل در حال مذاکره با یونیورسال موزیک، یک شرکت ضبط، برای مجوز دادن به صدای هنرمندان برای تغذیه ابزار آهنگنویسی هوش مصنوعی است. البته این فرصت باعث شده تا دارندگان اطلاعات از قدرت چانهزنی بیشتری برخوردار شوند.
گسترش مرزها
در نتیجه این اتفاقات، سازندگان مدلهای هوش مصنوعی به سختی تلاش میکنند تا کیفیت ورودیهایی را که از قبل دارند، بهبود بخشند. البته بخش عظیمی از این کار به سمت کشورهایی با نیروی کار ارزان هدایت میشود. همچنین شرکتهای هوش مصنوعی در حال جمعآوری دادهها از طریق تعامل بیشتر کاربران با ابزارهای خود هستند. بسیاری از این نرمافزارها از مکانیسم بازخورد برخوردارند که در آن کاربران مشخص میکنند کدام خروجی برای آنها مفید بوده است. شرکتهای تبدیل متن به تصویر مانند (Firefly) به کاربران اجازه میدهند یکی از چهار گزینه را انتخاب کنند. بارد - چت ربات گوگل- سه پاسخ را پیشنهاد میکند. کاربران میتوانند به (Chatgpt) پاسخهایشان را با جواب مثبت و منفی نشان دهند. این فرایند بازخورد به شرکتها کمک میکند دادههای بیشتر و متنوعتری تولید کنند. حتی این نرمافزارها از امکان تشخیص اینکه آیا شما به عنوان یک کاربر متن را کپی و در جای دیگری استفاده کردهاید یا خیر برخوردارند. این کار به شرکتهایی مانند گوگل کمک میکند تا ابزار ترجمه خود را به سرعت بهبود بخشند.
با این حال، یک منبع بزرگ داده وجود دارد که تا حد زیادی تاکنون دست نخورده باقی مانده است؛ اطلاعاتی که در داخل پروفایلهای مشتریان شرکتهای فناوری وجود دارد. بسیاری از کسبوکارها، اغلب ناخواسته حجم وسیعی از دادههای مفید، از رونوشتهای مرکز تماس گرفته تا سوابق هزینههای مشتری را در اختیار دارند که بدون طبقهبندی به حال خود رها شدهاند. چنین اطلاعاتی از آنجایی بسیار ارزشمند است که به هوش مصنوعی در اهداف تجاری کمک میکند. بهطور مثال این اطلاعات به کارکنان مرکز تماس یا تحلیلگران کمک میکند تا به مدلهای فروش بهتری دست پیدا کنند.
با این حال استفاده از این منبع غنی همیشه ساده نیست. در طول سالیان گذشته اغلب شرکتها توجه کمی به این اطلاعات گسترده و در عین حال ساختارنیافته نشان دادهاند که باعث شده این اطلاعات در سرورهای شرکت یا در فضاهای ابری مدفون شوند. اما شانس دسترسی به این اطلاعات، به شرکتها کمک میکند تا بتوانند ابزارهای هوش مصنوعی را سفارشسازی کنند. آمازون و مایکروسافت، دو غول فناوری اکنون ابزارهایی را برای کمک به شرکتها ارائه میدهند تا بتوانند مدیریت مجموعه دادههای بدون ساختار خود را بهبود بخشند. همه این اطلاعات نشان میدهد که تجارت داده در حال رونق گرفتن است. حجم استارتآپها در جهان در حال افزایش است که باعث میشود استارتاپها از طریق تجارت پایگاههای داده خود، سرمایههای بیشتری به دست آوردند. همین امر در عین حال، تقلا برای دادهها را نیز افزایش خواهد داد. هرچند که این اول ماجراست و این نیازمندی تازه شروع شده است.
هر روز قویتر از دیروز
نرمافزارهای هوش مصنوعی بر دو عنصر اصلی و ضروری استوار هستند؛ اول مجموعه دادههایی که سیستم بر اساس آنها دادههای جدید تولید میکند و دوم قدرت پردازش. این دو عنصر تا حدی قابلیت جایگزینی دارند. یعنی یک مدل هوش مصنوعی را میتوان با مصرف دادههای بیشتر یا افزودن قدرت پردازش بیشتر بهبود بخشید. اما مسئله اینجاست که تقویت قدرت پردازش به دلیل کمبود تراشههای هوش مصنوعی در حال دشوارشدن است و همین امر باعث شده، سازندگان مدلهای هوش مصنوعی تمرکز مضاعف بر جستوجوی دادهها داشته باشند. یک مجموعه تحقیقاتی، تخمین زده که تقاضا برای دادهها به قدری سریع در حال رشد است که ممکن است ذخیره متن باکیفیت که برای آموزش در دسترس است تا سال ۲۰۲۶ به اتمام برسد. بهطور مثال، جدیدترین مدلهای هوش مصنوعی گوگل و متا، دو غول فناوری، احتمالاً با بیش از یک تریلیون (هزار میلیارد) کلمه آموزش دیدهاند، در حالی که مجموع کلمات انگلیسی در ویکیپدیا، حدود ۴ میلیارد است. علاوه بر این، مجموعه اطلاعات تخصصی در دسترس این نرمافزارها نیز روزبهروز مهمتر و باارزشتر میشود، زیرا به مدلهای هوش مصنوعی اجازه میدهد تا به کاربران تخصصی خدمات بهتری ارائه دهند.
از سوی دیگر، به دلیل همین افزایش تقاضا برای داده، دسترسی به آن هم پیچیدهتر شده و بسیاری از تولیدکنندگان محتوا خواستار جبران خسارت هستند. گروهی از نویسندگان و هنرمندان، علیه سازندگان نرمافزارهای هوش مصنوعی به علت استفاده غیرقانونی از محتوا اعلام جرم کردهاند. نتیجه این اتفاقات، انبوهی از قراردادها بین دارندگان اطلاعات و صاحبان نرمافزارهای هوش مصنوعی بوده است تا بتوانند در این بازار داغ رقابت کنند. مثلاً در ژوییه شرکت (Openai)، قراردادی با خبرگزاری آسوشیتدپرس برای دسترسی به آرشیو داستانهای آن امضا کرد. همچنین اخیراً قراردادی را با (Shutterstock)، ارائهدهندهی عکاسی سهام، که متا نیز با آن قرارداد دارد، امضا کرده است. همچنین، گزارش شده که گوگل در حال مذاکره با یونیورسال موزیک، یک شرکت ضبط، برای مجوز دادن به صدای هنرمندان برای تغذیه ابزار آهنگنویسی هوش مصنوعی است. البته این فرصت باعث شده تا دارندگان اطلاعات از قدرت چانهزنی بیشتری برخوردار شوند.
گسترش مرزها
در نتیجه این اتفاقات، سازندگان مدلهای هوش مصنوعی به سختی تلاش میکنند تا کیفیت ورودیهایی را که از قبل دارند، بهبود بخشند. البته بخش عظیمی از این کار به سمت کشورهایی با نیروی کار ارزان هدایت میشود. همچنین شرکتهای هوش مصنوعی در حال جمعآوری دادهها از طریق تعامل بیشتر کاربران با ابزارهای خود هستند. بسیاری از این نرمافزارها از مکانیسم بازخورد برخوردارند که در آن کاربران مشخص میکنند کدام خروجی برای آنها مفید بوده است. شرکتهای تبدیل متن به تصویر مانند (Firefly) به کاربران اجازه میدهند یکی از چهار گزینه را انتخاب کنند. بارد - چت ربات گوگل- سه پاسخ را پیشنهاد میکند. کاربران میتوانند به (Chatgpt) پاسخهایشان را با جواب مثبت و منفی نشان دهند. این فرایند بازخورد به شرکتها کمک میکند دادههای بیشتر و متنوعتری تولید کنند. حتی این نرمافزارها از امکان تشخیص اینکه آیا شما به عنوان یک کاربر متن را کپی و در جای دیگری استفاده کردهاید یا خیر برخوردارند. این کار به شرکتهایی مانند گوگل کمک میکند تا ابزار ترجمه خود را به سرعت بهبود بخشند.
با این حال، یک منبع بزرگ داده وجود دارد که تا حد زیادی تاکنون دست نخورده باقی مانده است؛ اطلاعاتی که در داخل پروفایلهای مشتریان شرکتهای فناوری وجود دارد. بسیاری از کسبوکارها، اغلب ناخواسته حجم وسیعی از دادههای مفید، از رونوشتهای مرکز تماس گرفته تا سوابق هزینههای مشتری را در اختیار دارند که بدون طبقهبندی به حال خود رها شدهاند. چنین اطلاعاتی از آنجایی بسیار ارزشمند است که به هوش مصنوعی در اهداف تجاری کمک میکند. بهطور مثال این اطلاعات به کارکنان مرکز تماس یا تحلیلگران کمک میکند تا به مدلهای فروش بهتری دست پیدا کنند.
با این حال استفاده از این منبع غنی همیشه ساده نیست. در طول سالیان گذشته اغلب شرکتها توجه کمی به این اطلاعات گسترده و در عین حال ساختارنیافته نشان دادهاند که باعث شده این اطلاعات در سرورهای شرکت یا در فضاهای ابری مدفون شوند. اما شانس دسترسی به این اطلاعات، به شرکتها کمک میکند تا بتوانند ابزارهای هوش مصنوعی را سفارشسازی کنند. آمازون و مایکروسافت، دو غول فناوری اکنون ابزارهایی را برای کمک به شرکتها ارائه میدهند تا بتوانند مدیریت مجموعه دادههای بدون ساختار خود را بهبود بخشند. همه این اطلاعات نشان میدهد که تجارت داده در حال رونق گرفتن است. حجم استارتآپها در جهان در حال افزایش است که باعث میشود استارتاپها از طریق تجارت پایگاههای داده خود، سرمایههای بیشتری به دست آوردند. همین امر در عین حال، تقلا برای دادهها را نیز افزایش خواهد داد. هرچند که این اول ماجراست و این نیازمندی تازه شروع شده است.
نظر شما