ข้ามไปเนื้อหา

สเตเบิลดิฟฟิวชัน

จากวิกิพีเดีย สารานุกรมเสรี
สเตเบิลดิฟฟิวชัน
นักพัฒนากลุ่ม CompVis (มหาวิทยาลัยมิวนิก)[1]
วันที่เปิดตัว22 สิงหาคม 2022
รุ่นเสถียร
SDXL 1.0 (ตัวแบบ)[2] / 26 กรกฎาคม 2023
ที่เก็บข้อมูลgithub.com/Stability-AI/stablediffusion
ภาษาที่เขียนไพธอน
ระบบปฏิบัติการระบบปฏิบัติใด ๆ ที่รองรับ CUDA
ประเภทtext-to-image
สัญญาอนุญาตCreative ML OpenRAIL-M
เว็บไซต์stability.ai

สเตเบิลดิฟฟิวชัน (Stable Diffusion) คือตัวแบบปัญญาประดิษฐ์ช่วยสร้างซึ่งเปิดตัวในปี 2022 โดยพื้นฐานแล้วจะทำการสร้างภาพตามข้อความสั่ง (text-to-image) แต่นอกจากนี้ยังสามารถสร้างภาพขึ้นจากภาพ (image-to-image) การวาดเติมภายใน (inpainting), การวาดเติมภายนอก (outpainting) ได้ด้วย[3]

สเตเบิลดิฟฟิวชันเป็นแบบจำลองการแพร่แบบแฝงชนิดหนึ่งซึ่งอาศัยโครงข่ายประสาทเทียมทำการเรียนรู้เชิงลึก พัฒนาขึ้นโดยกลุ่ม CompVis ที่มหาวิทยาลัยมิวนิก โดยเป็นผลงานร่วมกันระหว่างบริษัท Stability AI, CompVis LMU และ Runway โดยได้รับการสนับสนุนจาก EleutherAI และ LAION[4][1][5] ในเดือนตุลาคม 2022 ทาง Stability AI ระดมทุนได้ 101 ล้านดอลลาร์สหรัฐ[6]

รหัสต้นทางและค่าพารามิเตอร์น้ำหนักของสเตเบิลดิฟฟิวชันนั้นได้รับการเปิดเป็นสาธารณะ[1] และสามารถทำงานบนฮาร์ดแวร์สำหรับผู้บริโภคส่วนใหญ่ที่มีการติดตั้ง GPU ที่มี VRAM อย่างน้อย 8GB จึงกล่าวได้ว่าสเตเบิลดิฟฟิวชันนั้นมีความแตกต่างจากตัวแบบแปลงข้อความเป็นรูปภาพแบบดั้งเดิมที่เป็นซอฟต์แวร์จำกัดสิทธิ์ เช่น DALL-E และมิดเจอร์นีย์ ซึ่งเข้าถึงได้ผ่านบริการคลาวด์เท่านั้น[7][8]

สเตเบิลดิฟฟิวชันได้ทำการกวาดรวบรวมข้อมูลภาพนับพันล้านภาพจากอินเทอร์เน็ตเพื่อใช้เป็นข้อมูลในการเรียนรู้ แต่ภาพเหล่านี้ส่วนใหญ่มีลิขสิทธิ์ และไม่ได้รับความยินยอม จึงมีข้อพิพาทว่าภาพดังกล่าวละเมิดกฎหมายหรือไม่ อยู่ภายใต้การใช้งานโดยชอบหรือไม่ และเป็นไปอย่างถูกต้องหรือไม่ โดยทาง Stability AI ได้ถูกฟ้องร้องมากมายหลายคดี[9]

เทคโนโลยี[แก้]

โครงสร้างสถาปัตยกรรมของสเตเบิลดิฟฟิวชัน

โครงสร้างสถาปัตยกรรม[แก้]

สเตเบิลดิฟฟิวชันได้รับการสร้างขึ้นมาจากแบบจำลองการแพร่ ชนิดหนึ่งที่เรียกว่า แบบจำลองการแพร่แบบแฝง (latent diffusion model, LDM) [1] เริ่มปรากฏการใช้งานตั้งแต่ในปี 2015 โดยได้รับการฝึกเพื่อจุดประสงค์ในการกำจัดสัญญาณรบกวนแบบเกาส์ ที่ถูกเพิ่มเข้าไปในภาพต้นฉบับสำหรับฝึกเรียนรู้อย่างต่อเนื่อง และใช้ตัวเข้ารหัสในตัว (autoencoder)

ตัวแบบสเตเบิลดิฟฟิวชันประกอบขึ้นจาก 3 ส่วนหลักคือ ตัวเข้ารหัสในตัวแบบแปรผัน (VAE), U-Net และตัวเข้ารหัสข้อความ[10] VAE จะทำการบีบย่อจากปริภูมิพิกเซลไปเป็นปริภูมิแฝงซึ่งอยู่ในมิติที่ต่ำกว่า เพื่อจับความหมายพื้นฐานของภาพ[11] ค่าที่ถูกแปลงให้อยู่ในรูปของปริภูมิแฝงนี้จะเข้าสู่กระบวนการที่เรียกว่ากระบวนการแพร่ไปข้างหน้า (forward diffusion process) ซึ่งมีการป้อนคลื่นรบกวนเกาส์ให้อย่างต่อเนื่อง[10] ก้อน U-Net ที่มีส่วนประกอบของ ResNet จะทำการกำจัดคลื่นรบกวนจากผลลัพธ์ที่ผ่านกระบวนการแพร่ไปข้างหน้า กระบวนการนี้เรียกว่ากระบวนการแพร่ย้อนกลับ (reverse diffusion process) โดยค่าที่ได้นี้จะยังอยู่ในรูปของปริภูมิแฝง และท้ายที่สุด ตัวถอดรหัสของ VAE จะแปลงค่าในปริภูมิแฝงกลับไปเป็นปริภูมิพิกเซล แล้วสร้างเป็นภาพสุดท้ายขึ้นมา[10]

กระบวนการลดสัญญาณรบกวนสามารถปรับเงื่อนไขได้อย่างยืดหยุ่นด้วยการป้อนข้อความ รูปภาพ หรือรูปแบบอื่น ๆ ข้อมูลสำหรับให้เงื่อนไขซึ่งผ่านการเข้ารหัสจะถูกส่งไปยัง U-Net สำหรับกำจัดคลื่นรบกวนโดยกลไก cross-attention[10] สำหรับกรณีที่ให้เงื่อนไขโดยการป้อนข้อความ ข้อความที่ป้อนเข้าไปจะถูกแปลงให้อยู่ในรูปของปริภูมิฝังตัวโดยใช้ตัวเข้ารหัสข้อความ CLIP ViT-L/14 ที่ได้รับการฝึกมาเรียบร้อยแล้ว[1] นักวิจัยได้อธิบายว่าข้อได้เปรียบของ LDM คือช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับการเรียนรู้และการสร้างสรรค์[12] [13]

ข้อมูลการเรียนรู้[แก้]

สเตเบิลดิฟฟิวชันทำการเรียนรู้จากคู่ของรูปภาพและคำบรรยายที่ได้มาจากชุดข้อมูล LAION-5B ซึ่งเป็นชุดข้อมูลที่เปิดเผยต่อสาธารณะซึ่งได้มาจากการคอมมอนครอวล์ที่รวบรวมข้อมูลจากเว็บไซต์ คู่ของรุปภาพและข้อความ 5 พันล้านคู่ถูกจัดประเภทตามภาษา ถูกกรองตามความละเอียดภาพ ความน่าจะเป็นที่จะมีลายน้ำ รวมถึงคะแนนด้านสุนทรียภาพ ทำเป็นชุดข้อมูลแยกกัน[14] ชุดข้อมูลนี้สร้างขึ้นโดย LAION ซึ่งเป็นองค์กรไม่แสวงผลกำไรของเยอรมนี โดยได้รับการสนับสนุนเงินทุนจากบริษัท Stability AI[14][15] ตัวแบบสเตเบิลดิฟฟิวชันได้รับการฝึกจากชุดย่อยสามชุดของ LAION-5B: laion2B-en, laion-high-solution และ laion-aesthetics v2 5+[14] การวิเคราะห์ข้อมูลการฝึกอบรมโดยบุคคลที่สามสำหรับตัวแบบนี้พบว่าจากรูปภาพ 12 ล้านภาพที่ดึงมาจากชุดข้อมูลแบบกว้างดั้งเดิมที่ใช้นั้น มีประมาณ 47% มาจากโดเมนที่แตกต่างกัน 100 โดเมน โดยพบว่าที่มาจาก Pinterest คิดเป็น 8.5% และตามด้วยเว็บไซต์ เช่น WordPress, Blogspot, Flickr, DeviantArt และ Wikimedia Commons[16][14]

กระบวนการเรียนรู้[แก้]

ตัวแบบนี้เริ่มทำการเรียนรู้ครั้งแรกจาก laion2B-en และ laion-high-resolution และหลายครั้งล่าสุดได้เรียนรู้จาก LAION-Aesthetics v2 5+ โดย LAION-Aesthetics v2 5+ นั้นเป็นชุดข้อมูลย่อยของภาพพร้อมคำบรรยาย 600 ล้านภาพซึ่งได้รับการคาดการณ์ว่าเมื่อ LAION-Aesthetics Predictor V2 ถามผู้คนว่าพวกเขาชอบภาพนั้นมากเพียงใด พวกเขาจะให้คะแนนโดยเฉลี่ย 5 เต็ม 10[17][14][18] ชุดย่อย LAION-Aesthetics v2 5+ ไม่รวมภาพความละเอียดต่ำและภาพที่ LAION-5B-WatermarkDetection ตรวจพบว่าน่าจะมีลายน้ำด้วยความน่าจะเป็น 80% ขึ้นไป[14] ในการฝึกครั้งสุดท้ายนั้น 10% ของเงื่อนไขประกอบข้อความ (คำบรรยาย) ได้ถูกลบทิ้งเพื่อปรับปรุงคำแนะนำการแพร่แบบปราศจากตัวแยกประเภท[19]

ตัวแบบทำการเรียนรู้โดย NVIDIA A100 256 เครื่องบน AWS ในราคา 600,000 เหรียญสหรัฐ โดยใช้เวลารัน GPU ทั้งหมด 150,000 ชั่วโมง[20][21][22]

ขีดจำกัด[แก้]

สเตเบิลดิฟฟิวชันมีปัญหา เช่น คุณภาพถดถอยและความไม่ถูกต้องภายใต้เงื่อนไขบางประการ รุ่นเริ่มต้นของตัวแบบนี้ได้รับการฝึกฝนบนชุดข้อมูลที่ประกอบด้วยรูปภาพที่มีความละเอียด 512×512 ดังนั้นหากขนาดภาพที่ผู้ใช้ต้องการสร้างแตกต่างจากความละเอียด 512×512 นี้คุณภาพของรูปภาพที่สร้างได้จะลดลงอย่างมาก[23] ในการอัปเดตเป็นรุ่น 2.0 ได้ใช้ความสามารถในการสร้างภาพที่ความละเอียด 768×768[24] ความท้าทายอีกประการหนึ่งคือคุณภาพข้อมูลของส่วนแขนขาในชุดข้อมูล LAION ต่ำ จึงเป็นอุปสรรคต่อการสร้างภาพแขนขาของมนุษย์[25] การขาดคุณสมบัติที่เป็นตัวแทนในชุดข้อมูลแสดงให้เห็นว่าตัวแบบไม่ได้รับการฝึกมาให้ทำความเข้าใจโครงสร้างแขนขาและใบหน้าของมนุษย์มาอย่างดีนัก จึงมักสับสนเมื่อถูกสั่งให้สร้างภาพดังกล่าว[26] มีการยืนยันแล้วว่าเป็นเรื่องยากที่จะสร้างภาพแขนขา ไม่เพียงแต่แขนขาของมนุษย์เท่านั้น แต่ยังรวมถึงแขนขาของสัตว์ด้วย และการพยายามสร้างรูปม้าล้มเหลว 25% จากทั้งหมด[27]

การเข้าถึงสำหรับนักพัฒนาแต่ละรายก็เป็นปัญหาเช่นกัน การปรับแต่งตัวแบบสำหรับกรณีการใช้งานแบบใหม่ที่ไม่ถูกรวมอยู่ในชุดข้อมูล เช่น การสร้างตัวละครอนิเมะต้องใช้ข้อมูลการเรียนรู้และการฝึกอบรมใหม่[28] อย่างไรก็ตาม กระบวนการปรับแต่งอย่างละเอียดนี้มีความอ่อนไหวต่อคุณภาพของข้อมูลใหม่ รูปภาพความละเอียดต่ำหรือรูปภาพที่มีความละเอียดแตกต่างจากข้อมูลการฝึกดั้งเดิมไม่เพียงแต่ป้องกันไม่ให้โมเดลเรียนรู้งานใหม่เท่านั้น แต่ยังช่วยลดประสิทธิภาพโดยรวมของโมเดลอีกด้วย นอกจากนี้ แม้ว่าโมเดลจะได้รับการฝึกโดยใช้รูปภาพคุณภาพสูง แต่การรันโมเดลบนคอมพิวเตอร์ผู้บริโภคทั่วไปก็เป็นเรื่องยาก ตัวอย่างเช่น กระบวนการเรียนรู้ของตัวแบบที่ชื่อ waifu-diffusion ต้องใช้ VRAM ขั้นต่ำ 30GB[29] แต่ GPU สำหรับผู้บริโภคทั่วไป เช่น GeForce 30 ของ NVIDIA มีความจุ VRAM ประมาณ 12GB[30] จึงเกินกว่าทรัพยากรปกติที่คนทั่วไปมี

ทางผู้พัฒนาสเตเบิลดิฟฟิวชันได้ยอมรับว่าตัวแบบได้รับการฝึกจากภาพที่มีข้อความบรรยายเป็นภาษาอังกฤษเป็นหลัก ซึ่งอาจก่อให้เกิดความโน้มเอียงเชิงอัลกอริทึม[22] ผู้พัฒนายังได้ชี้ให้เห็นว่ากระบวนการการเรียนรู้ยังขาดข้อมูลจากชุมชนและวัฒนธรรมอื่น ๆ ส่งผลให้ภาพที่ผลิตจากมุมมองของตะวันตกและตอกย้ำอคติทางสังคม นอกจากนี้ ข้อความสั่งที่เขียนเป็นภาษาอังกฤษจะให้ภาพที่แม่นยำมากกว่าข้อความที่เขียนในภาษาอื่น และมีความโน้มเอียงไปทางวัฒนธรรมตะวันตก (หรือคนขาว)[22]

ความสามารถ[แก้]

ตัวแบบสเตเบิลดิฟฟิวชันมีความสามารถในการสร้างภาพใหม่ตั้งแต่เริ่มต้นโดยการป้อนข้อความสั่งที่อธิบายองค์ประกอบที่จะรวมหรือจะไม่รวมอยู่ในภาพที่จะสร้าง[1] นอกจากนี้ยังสามารถเตรียมภาพที่มีอยู่เดิม เอามาสั่งให้ทำการวาดใหม่ได้ด้วยกลไกการลดสัญญาณรบกวนการแพร่ เพื่อรวมใส่ประกอบใหม่ ๆ ที่อธิบายไว้ในข้อความคำสั่งที่ป้อนให้[31][1] นอกจากนี้ยังสามารถทำการแก้ภาพโดยกระบวนการวาดเติมภาพภายใน (inpainting) และการวาดเติมภาพภายนอก (outpainting) มีการใช้งานโอเพนซอร์สที่แตกต่างกันมากมาย[32]

ในการใช้งานสเตเบิลดิฟฟิวชันนั้น แนะนำให้รันด้วย VRAM อย่างน้อย 10GB แต่หากมี VRAM น้อยกว่านั้น ก็สามารถอ่านค่าน้ำหนักด้วยความแม่นยำ float16 แทนค่าตั้งต้น float32 เพื่อประหยัด VRAM ได้ โดยแลกกับประสิทธิภาพที่ลดลงไประดับหนึ่ง[23]

การสร้างภาพตามข้อความ (text-to-image)[แก้]

ผลของข้อความสั่งเชิงลบในการสร้างภาพ
  • บน: ไม่มีการป้อนข้อความสั่งเชิงลบ
  • กลาง: "green trees"
  • ล่าง: "round stones, round rocks"

กระบวนการสร้างรูปภาพจากข้อความเรียกว่า txt2img (หรือ text-to-image, t2i) โดยมีพารามิเตอร์ทางเลือกต่าง ๆ เช่น วิธีการสุ่มตัวอย่าง ความละเอียดของภาพเป็นต้น กระบวนการนี้สร้างไฟล์รูปภาพตามการตีความข้อความสั่งป้อนเข้าไป[1] รูปภาพที่สร้างขึ้นจะถูกฝังด้วยลายน้ำดิจิทัลที่มองไม่เห็นเพื่อระบุว่าถูกสร้างขึ้นโดยสเตเบิลดิฟฟิวชัน[33] แต่หากปรับขนาดหรือทำการหมุนก็จะหายไป[1]

การสร้าง txt2img แต่ละรายการจะมีค่าเริ่มต้นเฉพาะที่ส่งผลต่อภาพที่สร้างได้ ผู้ใช้สามารถเลือกที่จะสุ่มค่าเริ่มต้นเพื่อให้ได้ผลลัพธ์ที่แตกต่างกัน หรือใช้ค่าเริ่มต้นเดียวกันเพื่อให้ได้ผลลัพธ์เดียวกันกับรูปภาพที่สร้างไว้ก่อนหน้านี้[23] นอกจากนี้ยังสามารถปรับจำนวนขั้นตอนการอนุมานของตัวสุ่มตัวอย่างได้อีกด้วย การเพิ่มค่าจำนวนขั้นจะทำให้ใช้เวลาในการสร้างนานขึ้น ในขณะที่การลดค่าเกินไปได้ภาพที่ไม่ชัดเจน[23] การปรับค่ามาตราส่วน CFG (classifier-free guidance scale) มีผลต่อความเที่ยงตรงของภาพที่มีต่อข้อความป้อนเข้า[19] ในการทดลองสร้างอาจใช้ค่า CFG ที่ต่ำ และเมื่อต้องการสร้างภาพที่ระบุชัดเจนจึงค่อยใช้ค่าสูง[23]

ความสามารถอื่น ๆ ของ txt2img เช่น การกำหนดค่าน้ำหนักความสำคัญให้กับข้อความสั่งบางส่วน เช่นใส่วงเล็บครอบข้อความสั่งที่ต้องการเน้นว่ามีความสำคัญ[34] อีกวิธีหนึ่งในการปรับน้ำหนักบางส่วนของข้อความสั่งคือการระบุข้อความสั่งเชิงลบ (negative prompt) ช่วยให้ผู้ใช้ระบุลักษณะที่ต้องการหลีกเลี่ยงสิ่งที่ไม่ต้องการจะได้เมื่อสร้างรูปภาพขึ้น[32]

การสร้างภาพจากภาพ (image-to-image)[แก้]

ผลของ img2img ในการสร้างภาพ
  • บน: ภาพต้นฉบับที่สร้างโดยสเตเบิลดิฟฟิวชัน 1.5
  • ล่าง: ภาพปรับแก้ที่สร้างโดยสเตเบิลดิฟฟิวชัน XL

สเตเบิลดิฟฟิวชันยังมีความสามารถอีกแบบหนึ่งที่เรียกว่า img2img (หรือ image-to-image, i2i) ซึ่งใช้ข้อความสั่งประกอบกับรูปภาพที่เตรียมไว้ และระบุค่าความเข้มระหว่าง 0.0 ถึง 1.0 ความสามารถนี้จะช่วยทำการสร้างรูปภาพใหม่ตามรูปภาพต้นฉบับ ซึ่งมีองค์ประกอบตามที่ระบุในข้อความสั่ง ค่าความเข้มแสดงถึงปริมาณสัญญาณรบกวนที่ป้อนเพิ่มให้กับภาพที่ส่งออก หากค่าความเข้มสูงจะทำให้เกิดองค์ประกอบใหม่เพิ่มเติมในภาพมากขึ้น แต่อาจสร้างภาพที่ไม่ตรงกับความหมายตามข้อความที่ระบุ[1]

img2img สามารถเพิ่มสัญญาณรบกวนให้กับภาพต้นฉบับได้ ดังนั้นจึงอาจเป็นประโยชน์สำหรับการปกปิดแหล่งข้อมูลหรือการต่อขยายข้อมูล โดยเปลี่ยนลักษณะโดยรวมของข้อมูลรูปภาพ[35] นอกจากนี้ยังอาจใช้สำหรับการขยายขนาด โดยเพิ่มความละเอียด ภาพด้วยการเติมรายละเอียดให้กับภาพมากขึ้น[35] นอกจากนี้แล้วยังมีการทดลองใช้สเตเบิลดิฟฟิวชันเป็นเครื่องมือบีบอัดรูปภาพอีกด้วย เมื่อเปรียบเทียบกับ JPEG และ WebP วิธีการสมัยใหม่ที่ใช้ในการบีบอัดภาพของสเตเบิลดิฟฟิวชัน มีข้อจำกัดในการรักษาข้อความขนาดเล็กและใบหน้า[36]

การวาดเติมภาพภายใน (inpainting) คือการปรับเปลี่ยนบางส่วนของภาพที่มีอยู่โดยแบ่งด้วย เลเยอร์มาสก์ตามที่ผู้ใช้ระบุ โดยเติมภาพในพื้นที่ส่วนที่ระบุด้วยเนื้อหาที่สร้างขึ้นใหม่ตามข้อความสั่งที่ป้อนเข้าไป[32] ทาง Stability AI ได้สร้างตัวแบบเฉพาะที่ได้รับการปรับแต่งอย่างละเอียดโดยเฉพาะสำหรับใช้เติมภาพภายในเมื่อครั้งเปิดตัวสเตเบิลดิฟฟิวชัน 2.0 [24] นอกจากนี้ยังมีการวาดเติมภาพภายนอก (outpainting) ซึ่งตรงกันข้ามกับการเติมภาพภายใน[32] คือช่วยให้สามารถขยายภาพเกินความละเอียดดั้งเดิมและเติมเนื้อหาที่สร้างขึ้นตามข้อความสั่งลงในที่ว่าง

สเตเบิลดิฟฟิวชัน 2.0 ซึ่งเปิดตัวเมื่อวันที่ 24 พฤศจิกายน 2022 ได้เปิดตัวตัวแบบเชิงลึกที่มีชื่อว่า deep2img ตัวแบบนี้อนุมานความลึกของรูปภาพป้อนเข้าที่ให้มา แล้วสร้างรูปภาพใหม่ตามข้อความสั่งและข้อมูลเชิงลึก ทำให้รูปภาพที่ได้ออกมานั้นสามารถรักษาความสอดคล้องและความลึกของรูปภาพที่ป้อนเข้า[24]

การใช้งาน ข้อพิพาท และการดำเนินคดี[แก้]

สเตเบิลดิฟฟิวชัน ไม่เรียกร้องสิทธิ์ใด ๆ ในรูปภาพที่สร้างขึ้น และให้สิทธิ์แก่ผู้ใช้ในการใช้รูปภาพใด ๆ ที่สร้างจากตัวแบบโดยอิสระ ตราบใดที่เนื้อหาของรูปภาพไม่ผิดกฎหมายหรือเป็นอันตรายต่อบุคคลใด ๆ อย่างไรก็ตาม สเตเบิลดิฟฟิวชันและตัวแบบช่วยสร้างอื่น ๆ เรียนรู้จากภาพที่มีลิขสิทธิ์โดยไม่ได้รับความยินยอมจากผู้ถือสิทธิ์ ทำให้เกิดการถกเถียงกันเรื่องจริยธรรมในการเป็นเจ้าของและเสรีภาพที่ผู้ใช้สามารถใช้ภาพ[37]

นักวารสารศาสตร์ นาโอมิ ไคลน์ ได้วิจารณ์เทคโนโลยีปัญญาประดิษฐ์และบริษัทที่เกี่ยวข้องอย่างรุนแรง โดยกล่าวว่าเป็น "การขโมยที่ยิ่งใหญ่ที่สุดในประวัติศาสตร์ของมนุษย์" กล่าวคือ บริษัทปัญญาประดิษฐ์กำลังผูกขาดความรู้ของมนุษย์ทั้งหมดที่เผยแพร่บนอินเทอร์เน็ตโดยยัดไว้ในผลิตภัณฑ์ของตน และผลงานที่ผู้คนได้ทำมาตลอดทั้งชีวิตกำลังถูกใช้เป็นข้อมูลการฝึกโดยไม่ได้รับความยินยอมหรือได้รับอนุญาต[38]

อรวินท์ นรยานัน (Arvind Narayanan) นักวิทยาศาสตร์คอมพิวเตอร์ และศาสตราจารย์แห่ง มหาวิทยาลัยพรินซ์ตัน กล่าวว่า บริษัทที่พัฒนาปัญญาประดิษฐ์ช่วยสร้างภาพกำลังพัฒนาและปรับใช้ในลักษณะที่ไม่เป็นมิตรต่อศิลปิน เช่น การรวบรวมภาพการฝึกอบรมโดยไม่ได้รับความยินยอมหรือการชดเชย นักพัฒนาสามารถปฏิบัติต่อศิลปินในฐานะหุ้นส่วนและผู้มีส่วนได้ส่วนเสียมากกว่ามองว่าเป็นแค่วัตถุดิบสำหรับการฝึกปัญญาประดิษฐ์[9]

เมื่อวันที่ 3 เมษายน 2023 มหาวิทยาลัยโตเกียวได้ออกแถลงการณ์ที่ลงนามโดยผู้อำนวยการและรองประธานคุนิฟุมิ โอตะ โดยแจ้งเตือนนักศึกษาและคณาจารย์ทุกคนที่ใช้ปัญญาประดิษฐ์ช่วยสร้าง เช่น มิดเจอร์นีย์ และ สเตเบิลดิฟฟิวชัน ปัญญาประดิษฐ์ช่วยสร้างภาพได้ดึงเนื้อหาจากอินเทอร์เน็ต เรียนรู้จากอินเทอร์เน็ต แล้วสร้างภาพขึ้นมา โดยผู้สร้างข้อมูลต้นฉบับเหล่านี้กำลังหยิบยกประเด็นปัญหาโดยอ้างว่า ลิขสิทธิ์ของตนได้ถูกละเมิดโดยที่พวกเขาไม่รู้ตัว เขากล่าวถึงความเป็นไปได้ที่เนื้อหาที่สร้างโดยปัญญาประดิษฐ์ช่วยสร้างภาพเหล่านี้อาจกลายเป็นประเด็นของการฟ้องร้องได้ในอนาคต[39]

อ้างอิง[แก้]

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. สืบค้นเมื่อ 17 September 2022.
  2. "Announcing SDXL 1.0". stability.ai. เก็บจากแหล่งเดิมเมื่อ July 26, 2023. สืบค้นเมื่อ 2023-07-26.
  3. "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-05.
  4. "Stable Diffusion Launch Announcement". Stability.Ai. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-06.
  5. "Revolutionizing image generation by AI: Turning text into images". LMU Munich. สืบค้นเมื่อ 17 September 2022.
  6. Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-17.
  7. "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. เก็บจากแหล่งเดิมเมื่อ 2022-08-31. สืบค้นเมื่อ 2022-08-31.
  8. Vincent, James (15 September 2022). "Anyone can use this AI art generator — that's the risk". The Verge. สืบค้นเมื่อ 2022-11-30.
  9. 9.0 9.1 "Artists are alarmed by AI — and they're fighting back". The Washington Post (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-02-18.
  10. 10.0 10.1 10.2 10.3 Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. สืบค้นเมื่อ 2022-10-31.
  11. "High-Resolution Image Synthesis with Latent Diffusion Models". Machine Vision & Learning Group (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-04.
  12. "Stable Diffusion launch announcement". Stability.Ai (ภาษาอังกฤษแบบบริติช). สืบค้นเมื่อ 2022-11-02.
  13. Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. arXiv:2112.10752.
  14. 14.0 14.1 14.2 14.3 14.4 14.5 Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
  15. "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
  16. Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
  17. Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, สืบค้นเมื่อ 2022-11-02
  18. "LAION-Aesthetics | LAION". laion.ai (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-08-26. สืบค้นเมื่อ 2022-09-02.
  19. 19.0 19.1 Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].Ho, Jonathan; Salimans, Tim (25 July 2022). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG]。
  20. Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
  21. Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-09-06. สืบค้นเมื่อ 2022-09-06.
  22. 22.0 22.1 22.2 "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-11-02.
  23. 23.0 23.1 23.2 23.3 23.4 "Stable Diffusion with 🧨 Diffusers". huggingface.co. สืบค้นเมื่อ 2022-10-31.
  24. 24.0 24.1 24.2 "Stable Diffusion 2.0 Release". stability.ai. สืบค้นเมื่อ 2022-11-24.
  25. "LAION". laion.ai (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
  26. "Generating images with Stable Diffusion". Paperspace Blog (ภาษาอังกฤษ). 2022-08-24. สืบค้นเมื่อ 2022-10-31.
  27. François Chollet. "(If you were wondering how often Stable Diffusion will give you a horse with more than 4 legs (or sometimes less) when you ask it for a photo of a horse: in my experience it's about 20-25% of the time.)". Twitter (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
  28. "hakurei/waifu-diffusion · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-10-31.
  29. Mercurio, Anthony (2022-10-31), Waifu Diffusion, สืบค้นเมื่อ 2022-10-31
  30. Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. สืบค้นเมื่อ 2022-10-31.
  31. Meng, Chenlin; He, Yutong (August 2, 2021). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arXiv:2108.01073 [cs.CV].
  32. 32.0 32.1 32.2 32.3 "Stable Diffusion web UI". GitHub. 10 November 2022. สืบค้นเมื่อ 2022-11-30.
  33. invisible-watermark, Shield Mountain, 2022-11-02, สืบค้นเมื่อ 2022-11-02
  34. "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
  35. 35.0 35.1 Luzi, Lorenzo; Siahkoohi, Ali (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". arXiv:2210.12100 [cs.CV].
  36. Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
  37. Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
  38. ナオミ・クライン、中村峻太郎(訳)「「幻覚を見ている」のはAIの機械ではなく、その製作者たちだ」『世界』岩波書店 2023年7月号 p85~95
  39. "生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について". 東京大学. สืบค้นเมื่อ 2023-04-05.