ቁልፍ መውሰጃዎች
- ተመራማሪዎች AI በመመልከት እና በማዳመጥ ቪዲዮዎችን እንዲሰይም ማስተማር እንደሚችሉ ይናገራሉ።
- የ AI ስርዓት በምስል እና በድምጽ ውሂብ መካከል የተጋሩ ጽንሰ ሀሳቦችን ለመያዝ ውሂብን መወከል ይማራል።
-
የሰው ልጅ ለመማር ምንም ችግር እንደሌለው ነገር ግን ኮምፒውተሮች ለመረዳት የሚከብዳቸው ፅንሰ ሀሳቦችን AI እንዲረዳ ለማስተማር የተደረገው ጥረት አካል ነው።
አዲስ አርቴፊሻል ኢንተለጀንስ ሲስተም (AI) ቪዲዮዎችዎን ማየት እና ማዳመጥ እና እየተከሰቱ ያሉ ነገሮችን መሰየም ይችላል።
MIT ተመራማሪዎች AI በቪዲዮ እና በድምጽ መካከል የተጋሩ ድርጊቶችን እንዲቀርጽ የሚያስተምር ዘዴ ፈጥረዋል።ለምሳሌ የሕፃን ልጅ በቪዲዮ ውስጥ የሚያለቅሰው ድርጊት በድምፅ ክሊፕ ውስጥ "ማልቀስ" ከሚለው የንግግር ቃል ጋር የተያያዘ መሆኑን የእነርሱ ዘዴ ሊረዳ ይችላል. የሰው ልጅ ለመማር ምንም ችግር እንደሌለበት፣ ነገር ግን ኮምፒውተሮች ለመረዳት የሚከብዳቸው ፅንሰ ሀሳቦችን እንዴት እንደሚረዱ AI ለማስተማር የሚደረግ ጥረት አካል ነው።
"የተስፋፋው የመማሪያ ፓራዳይም፣ ክትትል የሚደረግበት ትምህርት፣ በደንብ የተገለጹ እና የተሟሉ የውሂብ ስብስቦች ሲኖሩዎት በደንብ ይሰራል ሲሉ የ AI ኤክስፐርት ፊል ዊንደር ለላይፍዋይር በኢሜል ቃለ መጠይቅ ተናግሯል። "እንደ አለመታደል ሆኖ የውሂብ ስብስቦች እምብዛም አይሟሉም ምክንያቱም ገሃዱ ዓለም አዳዲስ ሁኔታዎችን የማቅረብ መጥፎ ልማድ ስላለው።"
ብልጥ AI
ኮምፒውተሮች የዕለት ተዕለት ሁኔታዎችን ለማወቅ ይቸገራሉ ምክንያቱም ከድምጽ እና እንደ ሰው ምስሎች መረጃን መሰባበር ስላለባቸው። አንድ ማሽን ፎቶን "ሲያይ" እንደ ምስል ምደባ ያለ ስራ ለመስራት ሊጠቀምበት የሚችለውን ፎቶ ወደ ዳታ መመስረት አለበት። እንደ ቪዲዮዎች፣ ኦዲዮ ክሊፖች እና ምስሎች ያሉ ግብዓቶች በተለያዩ ቅርጸቶች ሲመጡ AI ሊዋሽ ይችላል።
"እዚህ ያለው ዋናው ፈተና አንድ ማሽን እነዚያን የተለያዩ ዘዴዎች እንዴት ማቀናጀት ይችላል? ሰዎች እንደመሆናችን መጠን ይህ ለእኛ ቀላል ነው" ሲል የMIT ተመራማሪ እና ስለ ጉዳዩ የመጀመሪያ ደራሲ አሌክሳንደር ሊዩ ተናግሯል። የዜና መግለጫ. "መኪና አይተናል ከዚያም የመኪናውን ድምጽ እንሰማለን, እና እነዚህ ተመሳሳይ ነገሮች እንደሆኑ እናውቃለን. ለማሽን መማር ግን ያን ያህል ቀላል አይደለም."
የሊዩ ቡድን በምስል እና በድምጽ ውሂብ መካከል የተጋሩ ፅንሰ ሀሳቦችን ለመያዝ ውሂብን መወከል ይማራል ያለውን የ AI ቴክኒክ ሰራ። ይህንን እውቀት በመጠቀም የማሽን-መማሪያ ሞዴላቸው በቪዲዮ ውስጥ አንድ የተወሰነ እርምጃ የት እንደሚካሄድ ለይተው ይሰይሙት።
አዲሱ ሞዴል እንደ ቪዲዮዎች እና ተዛማጅ የጽሁፍ መግለጫዎች ያሉ ጥሬ መረጃዎችን ይወስዳል እና በቪዲዮው ውስጥ ስላሉ ነገሮች እና ድርጊቶች ባህሪያትን ወይም ምልከታዎችን በማውጣት ኮድ ያደርገዋል። ከዚያም እነዚያን የመረጃ ነጥቦች በፍርግርግ ውስጥ፣ የመክተት ቦታ በመባል ይታወቃል። አምሳያው በፍርግርግ ውስጥ እንደ ነጠላ ነጥቦች አንድ ላይ ተመሳሳይ መረጃዎችን ይሰበስባል; እያንዳንዳቸው እነዚህ የመረጃ ነጥቦች ወይም ቬክተሮች በግለሰብ ቃል ይወከላሉ.
ለምሳሌ፣ አንድ ሰው እየሮጠ የሚሄድ ቪዲዮ ክሊፕ "ጁግሊንግ" ወደተሰየመው ቬክተር ሊቀረጽ ይችላል።
ተመራማሪዎቹ ሞዴሉን የነደፉት 1,000 ቃላትን ብቻ በመጠቀም ቬክተሮችን ለመሰየም ነው። ሞዴሉ የትኞቹን ድርጊቶች ወይም ጽንሰ-ሐሳቦች ወደ ነጠላ ቬክተር ማስገባት እንደሚፈልግ ሊወስን ይችላል, ነገር ግን 1, 000 ቬክተሮችን ብቻ መጠቀም ይችላል. ሞዴሉ ውሂቡን በተሻለ ሁኔታ ይወክላሉ ብሎ ያሰበባቸውን ቃላት ይመርጣል።
"ስለ አሳማዎች የሚያሳይ ቪዲዮ ካለ ሞዴሉ 'አሳማ' የሚለውን ቃል ከ1,000 ቬክተር ለአንዱ ሊመድብ ይችላል። ከዚያም ሞዴሉ አንድ ሰው 'አሳማ' የሚለውን ቃል በድምጽ ክሊፕ ሲናገር ከሰማ። ያንን ለመመስጠር አሁንም ያው ቬክተር መጠቀም አለበት" ሲል Liu ገልጿል።
የእርስዎ ቪዲዮዎች፣ የተገለጡ
በኤምአይቲ እንደተሻሻለው ያሉ የተሻሉ የመለያ ስርአቶች በ AI ያለውን አድልዎ ለመቀነስ ይረዳሉ ሲሉ የባዮሜትሪክ ኩባንያ ኢንኖቫትሪክስ የምርምር እና ልማት ሃላፊ የሆኑት ማሪያን ቤዜዴስ ለLifewire በኢሜል ቃለ መጠይቅ ላይ ተናግረዋል። ቤዜድስ የመረጃው ኢንዱስትሪ የኤአይአይ ሲስተሞችን ከማምረት ሂደት አንፃር ማየት እንደሚችል ጠቁሟል።
"ስርዓቶቹ ጥሬ መረጃን እንደ ግብአት ይቀበላሉ (ጥሬ ዕቃዎች)፣ ቀድመው ያዘጋጃሉ፣ ወደ ውስጥ ያስገቡት፣ ውሳኔዎችን ይወስዳሉ ወይም ትንበያዎችን ይወስዳሉ እና የውጤት ትንተና (የተጠናቀቁ ዕቃዎች)። "ይህን ሂደት ፍሰት "የውሂብ ፋብሪካ" ብለን እንጠራዋለን, እና እንደ ሌሎች የማምረቻ ሂደቶች, የጥራት ቁጥጥር ሊደረግበት ይገባል. የመረጃ ኢንዱስትሪው AI አድልዎ እንደ የጥራት ችግር ሊመለከተው ይገባል.
"ከሸማች አንፃር፣ የተሳሳተ መለያ የተደረገበት ውሂብ ለምሳሌ በመስመር ላይ የተወሰኑ ምስሎችን/ቪዲዮዎችን መፈለግ የበለጠ ከባድ ያደርገዋል ሲል ቤዜዴዝ አክሏል። "በትክክል በተሻሻለ AI፣ በእጅ ከመስየም በበለጠ ፍጥነት እና በገለልተኝነት መሰየሚያ ማድረግ ይችላሉ።"
ነገር ግን የ MIT ሞዴል አሁንም አንዳንድ ገደቦች አሉት። አንደኛ፣ ጥናታቸው በአንድ ጊዜ ከሁለት ምንጮች በተገኘ መረጃ ላይ ያተኮረ ነበር፣ ነገር ግን በገሃዱ አለም ሰዎች በአንድ ጊዜ ብዙ አይነት መረጃዎችን ያጋጥማሉ ሲል ሊዩ
"እናም 1,000 ቃላት በዚህ አይነት የውሂብ ስብስብ ላይ እንደሚሰሩ እናውቃለን፣ነገር ግን ወደ ተጨባጭ አለም ችግር ሊጠቃለል ይችል እንደሆነ አናውቅም"ሲል ሊዩ አክሏል።
የኤምአይቲ ተመራማሪዎች አዲሱ ቴክኒሻቸው ከብዙ ተመሳሳይ ሞዴሎች ይበልጣል ይላሉ። AI ቪዲዮዎችን ለመረዳት መሰልጠን ከቻለ ውሎ አድሮ የጓደኛዎን የዕረፍት ጊዜ ቪዲዮዎችን መመልከትን መዝለል እና በምትኩ በኮምፒዩተር የመነጨ ሪፖርት ልታገኝ ትችላለህ።