টেক্সট থেকে ভিডিও তৈরি করা যেতে পারে!
AI দিয়ে, ছবি ছাড়াও টেক্সট থেকে ভিডিও তৈরি করা যেতে পারে! ChatGPT-এর নতুন কৃত্রিম বুদ্ধিমত্তা Sora AI, একটি সুপরিচিত ওপেন AI, এই নতুন চমক নিয়ে এসেছে। এটা কিভাবে কাজ করে? আপনি কি কোন ধরনের ভিডিও তৈরি করতে পারেন?
একটি Sora AI ভিডিও থেকে একটি ক্লিপ যাতে একটি ডলফিন একটি সাইকেল চালাচ্ছে
ওপেন এআই নামটি এখন কৃত্রিম বুদ্ধিমত্তা সম্প্রদায়ে সুপরিচিত। ChatGPT প্রকাশের সাথে সাথে, সমগ্র আইটি শিল্প বিকশিত হয়েছে। গুগলের মতো বড় কর্পোরেশনগুলিকেও স্থান পরিবর্তন করতে হয়েছে। Open AI এখন নতুন চমক প্রদান করবে। এই চমকের নাম 'সোরা'। ভাষা বা লেখার মাধ্যমে, এই নতুন কৃত্রিম বুদ্ধিমত্তা ভিডিও তৈরি করতে পারে।
এই টেক্সট-টু-ভিডিও সোরা, এআই সিস্টেম, প্রাথমিকভাবে একটি জেনারেটিভ এআই মডেল হিসেবে কাজ করে। অন্য কথায়, আপনি টেক্সট লিখে বা বক্তৃতা দেওয়ার মাধ্যমে নির্দেশনা (প্রম্পট) দিতে পারেন, অনেকটা chatgpt-এর মতো। এই কৃত্রিম বুদ্ধিমত্তা দ্বারা উত্পাদিত ভিডিওগুলি এটি প্রতিফলিত করবে। এটি শুধুমাত্র ভিডিও তৈরি করতে পারে না, অ্যানিমেশনও করতে পারে। এবং এগুলি সবই বেশ বাস্তববাদী—যাকে ইংরেজিতে বাস্তবসম্মত বলা হয়।
আপনি নীচের ভিডিওতে এরকম একটি উদাহরণ দেখতে পারেন। ওপেন এআই ওয়েবসাইট নিজেই ভিডিও সরবরাহ করে। ইংরেজি প্রম্পট প্রদান করা হয়. বাঙালি প্রতিনিধিত্ব করে
একজন চটকদার মহিলা টোকিওর রাস্তায় হাঁটছেন৷ নিয়ন লাইট এই রাস্তাকে আলোকসজ্জায় ভরিয়ে দেয়। আমার মনে হচ্ছে আমি একটি প্রাণবন্ত শহরে আছি। মহিলার লম্বা লাল পোশাকের উপরে একটি কালো চামড়ার জ্যাকেট রয়েছে। তার পার্স কালো।
আপনি প্রম্পটগুলির আরও উদাহরণ লিখলে পাঠ্যটি দীর্ঘ হবে। সোরার কার্যকারিতা সম্পর্কে ধারণা পেতে অতিরিক্ত পরামর্শ সহ আরও ভিডিও দেখুন।
এই কৃত্রিম বুদ্ধিমত্তা কার্যকারিতা ঠিক কিভাবে প্রশ্ন. সোরা হল একটি ডিফিউশন AI মডেল, ঠিক যেমন Dal-e3, Stablediffusion, এবং Midjourney. অর্থাৎ, এটি ভিডিও তৈরি করার আগে প্রথমে স্থির ছবি তৈরি করে। এরপরে, চিত্রটিকে ধীরে ধীরে ভিডিওতে রূপান্তর করতে নির্দেশাবলী অনুসরণ করুন। যাইহোক, সোরা অসংখ্য স্থির চিত্রের সাথে কাজ করার ক্ষমতা রাখে—অথবা, যেমনটি ভিডিও জার্গনে বলা হয়, "ফ্রেম"—একসাথে। এই কারণে, ফ্রেমের জিনিসগুলি - যেমন একটি মানুষ বা ডলফিন - ফ্রেমগুলি করার সময় নড়াচড়া করে না বা পরিবর্তন করে না। অন্য কথায়, এই কৃত্রিম বুদ্ধিমত্তা উল্লেখযোগ্যভাবে নির্ভরযোগ্য এবং দক্ষ।
অধিকন্তু, সোরা ট্রান্সফরমার আর্কিটেকচার এবং ডিফিউশন ধারণা উভয়ই অন্তর্ভুক্ত করে। সংক্ষেপে, এর অর্থ হল ডিফিউশন মডেলটি সুন্দরভাবে বিশদগুলিকে হাইলাইট করতে পারে, যখন ট্রান্সফরমার মডেল বা আর্কিটেকচার কার্যকরভাবে সামগ্রিক বিন্যাস বা ফ্রেম তৈরি করতে পারে।
যাইহোক, এটিতে এখনও অনেক সমস্যা রয়েছে কারণ এটি বাস্তব জগতের সাথে পুরোপুরি খাপ খায়নি। সোরা সঠিকভাবে নিশ্চিত নয় যে জিনিসগুলি কীভাবে একটি ক্রম অনুসারে কাজ করে, যেমন কারণ এবং প্রভাব বা কীভাবে একটি ক্রিয়া অন্যটির দিকে নিয়ে যায়। এর একটি দৃষ্টান্ত হল ট্রিগার টানা হলে বুলেট ফায়ারিং। ভিডিওতে এটা স্পষ্ট যে ট্রিগার টানার আগে রাউন্ড ফায়ার কারণ সোরা এই যৌক্তিক আদেশটি বুঝতে পারে না। একটি বাস্কেটবল উড়িয়ে দেওয়ার মতো একটি উদাহরণ দেখতে নীচের ভিডিওটি দেখুন।
সবাই এখনও এটি অ্যাক্সেস করতে সক্ষম নয়। যাইহোক, বিটা পরীক্ষার জন্য অনেক পাওয়া যায়। অধিকন্তু, ওপেন এআই এর নিরাপত্তা উদ্বেগ মোকাবেলায় সিদ্ধান্তমূলকভাবে কাজ করছে। এই কৃত্রিম বুদ্ধিমত্তা পরীক্ষা করার বিকল্প রেড টিমারদের দেওয়া হচ্ছে। লাল দলের সদস্যরা প্রতিপক্ষ যারা এই বুদ্ধিমত্তার ত্রুটি এবং দুর্বলতা চিহ্নিত করার চেষ্টা করবে। প্রকৃতপক্ষে, তারা নির্ধারণ করার চেষ্টা করবে যে হ্যাকাররা বা অনুরূপ ব্যক্তিরা আক্রমণ করে বা অন্যায়ের সুযোগ নিয়ে কী সুবিধা নিতে পারে। অতিরিক্তভাবে, ওপেন এআই সোরা (প্রযুক্তিগতভাবে, সনাক্তকরণ শ্রেণীবদ্ধকারী) এবং মেটাডেটা (ভিডিও তৈরির বিষয়ে নির্দিষ্ট বিবরণ) দিয়ে তৈরি ভিডিওগুলি সনাক্ত করার জন্য একটি পদ্ধতি প্রদান করার কথা বিবেচনা করছে। মেটাডেটা সম্ভবত যারা ফটো নিয়ে কাজ করে তাদের কাছে অপরিচিত নয়। ছবি কে তুলেছে?
ওপেন এআই প্রযুক্তিবিদ, নীতি নির্ধারক, শিল্পী এবং শিক্ষকদের সাথে কিভাবে হয়রানি বা ঘৃণামূলক বক্তব্য প্রতিরোধ করা যায় সে বিষয়ে কথা বলবে।
সূত্র: ওপেনএআই
ডটকম/সোরা

Comments