สเตเบิลดิฟฟิวชัน

สเตเบิลดิฟฟิวชัน
	ภาพที่สร้างขึ้นจากข้อความว่า "a photograph of an astronaut riding a horse" (ภาพถ่ายนักบินอวกาศขี่ม้า)
นักพัฒนา	กลุ่ม CompVis (มหาวิทยาลัยมิวนิก)
วันที่เปิดตัว	22 สิงหาคม 2022
รุ่นเสถียร	SDXL 1.0 (ตัวแบบ) / 26 กรกฎาคม 2023
ที่เก็บข้อมูล	github.com/Stability-AI/stablediffusion
ภาษาที่เขียน	ไพธอน
ระบบปฏิบัติการ	ระบบปฏิบัติใด ๆ ที่รองรับ CUDA
ประเภท	text-to-image
สัญญาอนุญาต	Creative ML OpenRAIL-M
เว็บไซต์	stability.ai

สเตเบิลดิฟฟิวชัน (Stable Diffusion) คือตัวแบบปัญญาประดิษฐ์แบบรู้สร้างซึ่งเปิดตัวในปี 2022 โดยพื้นฐานแล้วจะทำการสร้างภาพตามข้อความสั่ง (text-to-image) แต่นอกจากนี้ยังสามารถสร้างภาพขึ้นจากภาพ (image-to-image) การวาดเติมภายใน (inpainting), การวาดเติมภายนอก (outpainting) ได้ด้วย^[3]

สเตเบิลดิฟฟิวชันเป็นแบบจำลองแบบแพร่แบบแฝงชนิดหนึ่งซึ่งอาศัยโครงข่ายประสาทเทียมทำการเรียนรู้เชิงลึก พัฒนาขึ้นโดยกลุ่ม CompVis ที่มหาวิทยาลัยมิวนิก โดยเป็นผลงานร่วมกันระหว่างบริษัท Stability AI, CompVis LMU และ Runway โดยได้รับการสนับสนุนจาก EleutherAI และ LAION^[4]^[1]^[5] ในเดือนตุลาคม 2022 ทาง Stability AI ระดมทุนได้ 101 ล้านดอลลาร์สหรัฐ^[6]

รหัสต้นทางและค่าพารามิเตอร์น้ำหนักของสเตเบิลดิฟฟิวชันนั้นได้รับการเปิดเป็นสาธารณะ^[1] และสามารถทำงานบนฮาร์ดแวร์สำหรับผู้บริโภคส่วนใหญ่ที่มีการติดตั้ง GPU ที่มี VRAM อย่างน้อย 8GB จึงกล่าวได้ว่าสเตเบิลดิฟฟิวชันนั้นมีความแตกต่างจากตัวแบบแปลงข้อความเป็นรูปภาพแบบดั้งเดิมที่เป็นซอฟต์แวร์จำกัดสิทธิ์ เช่น DALL-E และมิดเจอร์นีย์ ซึ่งเข้าถึงได้ผ่านบริการคลาวด์เท่านั้น^[7]^[8]

สเตเบิลดิฟฟิวชันได้ทำการกวาดรวบรวมข้อมูลภาพนับพันล้านภาพจากอินเทอร์เน็ตเพื่อใช้เป็นข้อมูลในการเรียนรู้ แต่ภาพเหล่านี้ส่วนใหญ่มีลิขสิทธิ์ และไม่ได้รับความยินยอม จึงมีข้อพิพาทว่าภาพดังกล่าวละเมิดกฎหมายหรือไม่ อยู่ภายใต้การใช้งานโดยชอบหรือไม่ และเป็นไปอย่างถูกต้องหรือไม่ โดยทาง Stability AI ได้ถูกฟ้องร้องมากมายหลายคดี^[9]

เทคโนโลยี

โครงสร้างสถาปัตยกรรม

สเตเบิลดิฟฟิวชันได้รับการสร้างขึ้นมาจากแบบจำลองแบบแพร่ชนิดหนึ่งที่เรียกว่า แบบจำลองการแพร่แบบแฝง (latent diffusion model, LDM) ^[1] เริ่มปรากฏการใช้งานตั้งแต่ในปี 2015 โดยได้รับการฝึกเพื่อจุดประสงค์ในการกำจัดสัญญาณรบกวนแบบเกาส์ ที่ถูกเพิ่มเข้าไปในภาพต้นฉบับสำหรับฝึกเรียนรู้อย่างต่อเนื่อง และใช้ตัวเข้ารหัสอัตโนมัติ (autoencoder)

ตัวแบบสเตเบิลดิฟฟิวชันประกอบขึ้นจาก 3 ส่วนหลักคือ ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE), U-Net และตัวเข้ารหัสข้อความ^[10] VAE จะทำการบีบย่อจากปริภูมิ พิกเซลไปเป็นปริภูมิแฝงซึ่งอยู่ในมิติที่ต่ำกว่า เพื่อจับความหมายพื้นฐานของภาพ^[11] ค่าที่ถูกแปลงให้อยู่ในรูปของปริภูมิแฝงนี้จะเข้าสู่กระบวนการที่เรียกว่ากระบวนการแพร่ไปข้างหน้า (forward diffusion process) ซึ่งมีการป้อนสัญญาณรบกวนแบบเกาส์ให้อย่างต่อเนื่อง^[10] ก้อน U-Net ที่มีส่วนประกอบของ ResNet จะทำการลดสัญญาณรบกวนจากผลลัพธ์ที่ผ่านกระบวนการแพร่ไปข้างหน้า กระบวนการนี้เรียกว่ากระบวนการแพร่ย้อนกลับ (reverse diffusion process) โดยค่าที่ได้นี้จะยังอยู่ในรูปของปริภูมิแฝง และท้ายที่สุด ตัวถอดรหัสของ VAE จะแปลงค่าในปริภูมิแฝงกลับไปเป็นปริภูมิพิกเซล แล้วสร้างเป็นภาพสุดท้ายขึ้นมา^[10]

กระบวนการลดสัญญาณรบกวนสามารถปรับเงื่อนไขได้อย่างยืดหยุ่นด้วยการป้อนข้อความ รูปภาพ หรือรูปแบบอื่น ๆ ข้อมูลสำหรับให้เงื่อนไขซึ่งผ่านการเข้ารหัสจะถูกส่งไปยัง U-Net สำหรับกำจัดสัญญาณรบกวนโดยกลไกความใส่ใจแบบไขว้ (cross-attention)^[10] สำหรับกรณีที่ให้เงื่อนไขโดยการป้อนข้อความ ข้อความที่ป้อนเข้าไปจะถูกแปลงให้อยู่ในรูปของปริภูมิฝังโดยใช้ตัวเข้ารหัสข้อความ CLIP ViT-L/14 ที่ได้รับการฝึกมาเรียบร้อยแล้ว^[1] นักวิจัยได้อธิบายว่าข้อได้เปรียบของ LDM คือช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับการเรียนรู้และการสร้างสรรค์^[12]^[13]

ข้อมูลการเรียนรู้

สเตเบิลดิฟฟิวชันทำการเรียนรู้จากคู่ของรูปภาพและคำบรรยายที่ได้มาจากชุดข้อมูล LAION-5B ซึ่งเป็นชุดข้อมูลที่เปิดเผยต่อสาธารณะซึ่งได้มาจากคอมมอนครอวล์ซึ่งได้รวบรวมข้อมูลจากเว็บไซต์ คู่ของรุปภาพและข้อความ 5 พันล้านคู่ถูกจัดประเภทตามภาษา ถูกกรองตามความละเอียดภาพ ความน่าจะเป็นที่จะมีลายน้ำ รวมถึงคะแนนด้านสุนทรียภาพ ทำเป็นชุดข้อมูลแยกกัน^[14] ชุดข้อมูลนี้สร้างขึ้นโดย LAION ซึ่งเป็นองค์การไม่แสวงหาผลกำไรของเยอรมนี โดยได้รับการสนับสนุนเงินทุนจากบริษัท Stability AI^[14]^[15] ตัวแบบสเตเบิลดิฟฟิวชันได้รับการฝึกจากชุดย่อยสามชุดของ LAION-5B: laion2B-en, laion-high-solution และ laion-aesthetics v2 5+^[14] การวิเคราะห์ข้อมูลการฝึกอบรมโดยบุคคลที่สามสำหรับตัวแบบนี้พบว่าจากรูปภาพ 12 ล้านภาพที่ดึงมาจากชุดข้อมูลแบบกว้างดั้งเดิมที่ใช้นั้น มีประมาณ 47% มาจากโดเมนที่แตกต่างกัน 100 โดเมน โดยพบว่าที่มาจาก Pinterest คิดเป็น 8.5% และตามด้วยเว็บไซต์ เช่น WordPress, Blogspot, Flickr, DeviantArt และ Wikimedia Commons^[16]^[14]

กระบวนการเรียนรู้

ตัวแบบนี้เริ่มทำการเรียนรู้ครั้งแรกจาก laion2B-en และ laion-high-resolution และหลายครั้งล่าสุดได้เรียนรู้จาก LAION-Aesthetics v2 5+ โดย LAION-Aesthetics v2 5+ นั้นเป็นชุดข้อมูลย่อยของภาพพร้อมคำบรรยาย 600 ล้านภาพซึ่งได้รับการคาดการณ์ว่าเมื่อ LAION-Aesthetics Predictor V2 ถามผู้คนว่าพวกเขาชอบภาพนั้นมากเพียงใด พวกเขาจะให้คะแนนโดยเฉลี่ย 5 เต็ม 10^[17]^[14]^[18] ชุดย่อย LAION-Aesthetics v2 5+ ไม่รวมภาพความละเอียดต่ำและภาพที่ LAION-5B-WatermarkDetection ตรวจพบว่าน่าจะมีลายน้ำด้วยความน่าจะเป็น 80% ขึ้นไป^[14] ในการฝึกครั้งสุดท้ายนั้น 10% ของเงื่อนไขประกอบข้อความ (คำบรรยาย) ได้ถูกลบทิ้งเพื่อปรับปรุงคำแนะนำการแพร่แบบปราศจากตัวแยกประเภท^[19]

ตัวแบบทำการเรียนรู้โดย NVIDIA A100 256 เครื่องบน AWS ในราคา 600,000 เหรียญสหรัฐ โดยใช้เวลารัน GPU ทั้งหมด 150,000 ชั่วโมง^[20]^[21]^[22]

ขีดจำกัด

สเตเบิลดิฟฟิวชันมีปัญหา เช่น คุณภาพถดถอยและความไม่ถูกต้องภายใต้เงื่อนไขบางประการ รุ่นเริ่มต้นของตัวแบบนี้ได้รับการฝึกฝนบนชุดข้อมูลที่ประกอบด้วยรูปภาพที่มีความละเอียด 512×512 ดังนั้นหากขนาดภาพที่ผู้ใช้ต้องการสร้างแตกต่างจากความละเอียด 512×512 นี้คุณภาพของรูปภาพที่สร้างได้จะลดลงอย่างมาก^[23] ในการอัปเดตเป็นรุ่น 2.0 ได้ใช้ความสามารถในการสร้างภาพที่ความละเอียด 768×768^[24] ความท้าทายอีกประการหนึ่งคือคุณภาพข้อมูลของส่วนแขนขาในชุดข้อมูล LAION ต่ำ จึงเป็นอุปสรรคต่อการสร้างภาพแขนขาของมนุษย์^[25] การขาดคุณสมบัติที่เป็นตัวแทนในชุดข้อมูลแสดงให้เห็นว่าตัวแบบไม่ได้รับการฝึกมาให้ทำความเข้าใจโครงสร้างแขนขาและใบหน้าของมนุษย์มาอย่างดีนัก จึงมักสับสนเมื่อถูกสั่งให้สร้างภาพดังกล่าว^[26] มีการยืนยันแล้วว่าเป็นเรื่องยากที่จะสร้างภาพแขนขา ไม่เพียงแต่แขนขาของมนุษย์เท่านั้น แต่ยังรวมถึงแขนขาของสัตว์ด้วย และการพยายามสร้างรูปม้าล้มเหลว 25% จากทั้งหมด^[27]

การเข้าถึงสำหรับนักพัฒนาแต่ละรายก็เป็นปัญหาเช่นกัน การปรับแต่งตัวแบบสำหรับกรณีการใช้งานแบบใหม่ที่ไม่ถูกรวมอยู่ในชุดข้อมูล เช่น การสร้างตัวละครอนิเมะต้องใช้ข้อมูลการเรียนรู้และการฝึกอบรมใหม่^[28] อย่างไรก็ตาม กระบวนการปรับแต่งอย่างละเอียดนี้มีความอ่อนไหวต่อคุณภาพของข้อมูลใหม่ รูปภาพความละเอียดต่ำหรือรูปภาพที่มีความละเอียดแตกต่างจากข้อมูลการฝึกดั้งเดิมไม่เพียงแต่ป้องกันไม่ให้โมเดลเรียนรู้งานใหม่เท่านั้น แต่ยังช่วยลดประสิทธิภาพโดยรวมของโมเดลอีกด้วย นอกจากนี้ แม้ว่าโมเดลจะได้รับการฝึกโดยใช้รูปภาพคุณภาพสูง แต่การรันโมเดลบนคอมพิวเตอร์ผู้บริโภคทั่วไปก็เป็นเรื่องยาก ตัวอย่างเช่น กระบวนการเรียนรู้ของตัวแบบที่ชื่อ waifu-diffusion ต้องใช้ VRAM ขั้นต่ำ 30GB^[29] แต่ GPU สำหรับผู้บริโภคทั่วไป เช่น GeForce 30 ของ NVIDIA มีความจุ VRAM ประมาณ 12GB^[30] จึงเกินกว่าทรัพยากรปกติที่คนทั่วไปมี

ทางผู้พัฒนาสเตเบิลดิฟฟิวชันได้ยอมรับว่าตัวแบบได้รับการฝึกจากภาพที่มีข้อความบรรยายเป็นภาษาอังกฤษเป็นหลัก ซึ่งอาจก่อให้เกิดความโน้มเอียงเชิงขั้นตอนวิธี^[22] ผู้พัฒนายังได้ชี้ให้เห็นว่ากระบวนการการเรียนรู้ยังขาดข้อมูลจากชุมชนและวัฒนธรรมอื่น ๆ ส่งผลให้ภาพที่ผลิตจากมุมมองของชาวตะวันตกและตอกย้ำอคติทางสังคม นอกจากนี้ ข้อความสั่งที่เขียนเป็นภาษาอังกฤษจะให้ภาพที่แม่นยำมากกว่าข้อความที่เขียนในภาษาอื่น และมีความโน้มเอียงไปทางวัฒนธรรมตะวันตก (หรือคนขาว)^[22]

ความสามารถ

ตัวแบบสเตเบิลดิฟฟิวชันมีความสามารถในการสร้างภาพใหม่ตั้งแต่เริ่มต้นโดยการป้อนข้อความสั่งที่อธิบายองค์ประกอบที่จะรวมหรือจะไม่รวมอยู่ในภาพที่จะสร้าง^[1] นอกจากนี้ยังสามารถเตรียมภาพที่มีอยู่เดิม เอามาสั่งให้ทำการวาดใหม่ได้ด้วยกลไกการลดสัญญาณรบกวนการแพร่ เพื่อรวมใส่ประกอบใหม่ ๆ ที่อธิบายไว้ในข้อความคำสั่งที่ป้อนให้^[31]^[1] นอกจากนี้ยังสามารถทำการแก้ภาพโดยกระบวนการวาดเติมภาพภายใน (inpainting) และการวาดเติมภาพภายนอก (outpainting) มีการใช้งานโอเพนซอร์สที่แตกต่างกันมากมาย^[32]

ในการใช้งานสเตเบิลดิฟฟิวชันนั้น แนะนำให้รันด้วย VRAM อย่างน้อย 10GB แต่หากมี VRAM น้อยกว่านั้น ก็สามารถอ่านค่าน้ำหนักด้วยความแม่นยำ float16 แทนค่าตั้งต้น float32 เพื่อประหยัด VRAM ได้ โดยแลกกับประสิทธิภาพที่ลดลงไประดับหนึ่ง^[23]

การสร้างภาพตามข้อความ (text-to-image)

ผลของข้อความสั่งเชิงลบในการสร้างภาพ

บน: ไม่มีการป้อนข้อความสั่งเชิงลบ
กลาง: "green trees"
ล่าง: "round stones, round rocks"

กระบวนการสร้างรูปภาพจากข้อความเรียกว่า txt2img (หรือ text-to-image, t2i) โดยมีพารามิเตอร์ทางเลือกต่าง ๆ เช่น วิธีการสุ่มตัวอย่าง ความละเอียดของภาพเป็นต้น กระบวนการนี้สร้างไฟล์รูปภาพตามการตีความข้อความสั่งป้อนเข้าไป^[1] รูปภาพที่สร้างขึ้นจะถูกฝังด้วยลายน้ำดิจิทัลที่มองไม่เห็นเพื่อระบุว่าถูกสร้างขึ้นโดยสเตเบิลดิฟฟิวชัน^[33] แต่หากปรับขนาดหรือทำการหมุนก็จะหายไป^[1]

การสร้าง txt2img แต่ละรายการจะมีค่าเริ่มต้นเฉพาะที่ส่งผลต่อภาพที่สร้างได้ ผู้ใช้สามารถเลือกที่จะสุ่มค่าเริ่มต้นเพื่อให้ได้ผลลัพธ์ที่แตกต่างกัน หรือใช้ค่าเริ่มต้นเดียวกันเพื่อให้ได้ผลลัพธ์เดียวกันกับรูปภาพที่สร้างไว้ก่อนหน้านี้^[23] นอกจากนี้ยังสามารถปรับจำนวนขั้นตอนการอนุมานของตัวสุ่มตัวอย่างได้อีกด้วย การเพิ่มค่าจำนวนขั้นจะทำให้ใช้เวลาในการสร้างนานขึ้น ในขณะที่การลดค่าเกินไปได้ภาพที่ไม่ชัดเจน^[23] การปรับค่ามาตราส่วน CFG (classifier-free guidance scale) มีผลต่อความเที่ยงตรงของภาพที่มีต่อข้อความป้อนเข้า^[19] ในการทดลองสร้างอาจใช้ค่า CFG ที่ต่ำ และเมื่อต้องการสร้างภาพที่ระบุชัดเจนจึงค่อยใช้ค่าสูง^[23]

ความสามารถอื่น ๆ ของ txt2img เช่น การกำหนดค่าน้ำหนักความสำคัญให้กับข้อความสั่งบางส่วน เช่นใส่วงเล็บครอบข้อความสั่งที่ต้องการเน้นว่ามีความสำคัญ^[34] อีกวิธีหนึ่งในการปรับน้ำหนักบางส่วนของข้อความสั่งคือการระบุข้อความสั่งเชิงลบ (negative prompt) ช่วยให้ผู้ใช้ระบุลักษณะที่ต้องการหลีกเลี่ยงสิ่งที่ไม่ต้องการจะได้เมื่อสร้างรูปภาพขึ้น^[32]

การสร้างภาพจากภาพ (image-to-image)

ผลของ img2img ในการสร้างภาพ

บน: ภาพต้นฉบับที่สร้างโดยสเตเบิลดิฟฟิวชัน 1.5
ล่าง： ภาพปรับแก้ที่สร้างโดยสเตเบิลดิฟฟิวชัน XL

สเตเบิลดิฟฟิวชันยังมีความสามารถอีกแบบหนึ่งที่เรียกว่า img2img (หรือ image-to-image, i2i) ซึ่งใช้ข้อความสั่งประกอบกับรูปภาพที่เตรียมไว้ และระบุค่าความเข้มระหว่าง 0.0 ถึง 1.0 ความสามารถนี้จะช่วยทำการสร้างรูปภาพใหม่ตามรูปภาพต้นฉบับ ซึ่งมีองค์ประกอบตามที่ระบุในข้อความสั่ง ค่าความเข้มแสดงถึงปริมาณสัญญาณรบกวนที่ป้อนเพิ่มให้กับภาพที่ส่งออก หากค่าความเข้มสูงจะทำให้เกิดองค์ประกอบใหม่เพิ่มเติมในภาพมากขึ้น แต่อาจสร้างภาพที่ไม่ตรงกับความหมายตามข้อความที่ระบุ^[1]

img2img สามารถเพิ่มสัญญาณรบกวนให้กับภาพต้นฉบับได้ ดังนั้นจึงอาจเป็นประโยชน์สำหรับการปกปิดแหล่งข้อมูลหรือการต่อขยายข้อมูล โดยเปลี่ยนลักษณะโดยรวมของข้อมูลรูปภาพ^[35] นอกจากนี้ยังอาจใช้สำหรับการขยายขนาด โดยเพิ่มความละเอียด ภาพด้วยการเติมรายละเอียดให้กับภาพมากขึ้น^[35] นอกจากนี้แล้วยังมีการทดลองใช้สเตเบิลดิฟฟิวชันเป็นเครื่องมือบีบอัดรูปภาพอีกด้วย เมื่อเปรียบเทียบกับ JPEG และ WebP วิธีการสมัยใหม่ที่ใช้ในการบีบอัดภาพของสเตเบิลดิฟฟิวชัน มีข้อจำกัดในการรักษาข้อความขนาดเล็กและใบหน้า^[36]

การวาดเติมภาพภายใน (inpainting) คือการปรับเปลี่ยนบางส่วนของภาพเดิมที่มีอยู่ โดยเติมภาพในพื้นที่ส่วนที่ระบุด้วยเนื้อหาที่สร้างขึ้นใหม่ตามข้อความสั่งที่ป้อนเข้าไป^[32] ทาง Stability AI ได้สร้างตัวแบบเฉพาะที่ได้รับการปรับแต่งอย่างละเอียดโดยเฉพาะสำหรับใช้เติมภาพภายในเมื่อครั้งเปิดตัวสเตเบิลดิฟฟิวชัน 2.0^[24] นอกจากนี้ยังมีการวาดเติมภาพภายนอก (outpainting) ซึ่งตรงกันข้ามกับการเติมภาพภายใน^[32] คือช่วยให้สามารถขยายภาพเกินความละเอียดดั้งเดิมและเติมเนื้อหาที่สร้างขึ้นตามข้อความสั่งลงในที่ว่าง

สเตเบิลดิฟฟิวชัน 2.0 ซึ่งเปิดตัวเมื่อวันที่ 24 พฤศจิกายน 2022 ได้เปิดตัวตัวแบบเชิงลึกที่มีชื่อว่า deep2img ตัวแบบนี้อนุมานความลึกของรูปภาพป้อนเข้าที่ให้มา แล้วสร้างรูปภาพใหม่ตามข้อความสั่งและข้อมูลเชิงลึก ทำให้รูปภาพที่ได้ออกมานั้นสามารถรักษาความสอดคล้องและความลึกของรูปภาพที่ป้อนเข้า^[24]

การใช้งาน ข้อพิพาท และการดำเนินคดี

สเตเบิลดิฟฟิวชัน ไม่เรียกร้องสิทธิ์ใด ๆ ในรูปภาพที่สร้างขึ้น และให้สิทธิ์แก่ผู้ใช้ในการใช้รูปภาพใด ๆ ที่สร้างจากตัวแบบโดยอิสระ ตราบใดที่เนื้อหาของรูปภาพไม่ผิดกฎหมายหรือเป็นอันตรายต่อบุคคลใด ๆ อย่างไรก็ตาม สเตเบิลดิฟฟิวชันและตัวแบบช่วยสร้างอื่น ๆ เรียนรู้จากภาพที่มีลิขสิทธิ์โดยไม่ได้รับความยินยอมจากผู้ถือสิทธิ์ ทำให้เกิดการถกเถียงกันเรื่องจริยธรรมในการเป็นเจ้าของและเสรีภาพที่ผู้ใช้สามารถใช้ภาพ^[37]

นักวารสารศาสตร์ นาโอมิ ไคลน์ ได้วิจารณ์เทคโนโลยีปัญญาประดิษฐ์และบริษัทที่เกี่ยวข้องอย่างรุนแรง โดยกล่าวว่าเป็น "การขโมยที่ยิ่งใหญ่ที่สุดในประวัติศาสตร์ของมนุษย์" กล่าวคือ บริษัทปัญญาประดิษฐ์กำลังผูกขาดความรู้ของมนุษย์ทั้งหมดที่เผยแพร่บนอินเทอร์เน็ตโดยยัดไว้ในผลิตภัณฑ์ของตน และผลงานที่ผู้คนได้ทำมาตลอดทั้งชีวิตกำลังถูกใช้เป็นข้อมูลการฝึกโดยไม่ได้รับความยินยอมหรือได้รับอนุญาต^[38]

อรวินท์ นรยานัน (Arvind Narayanan) นักวิทยาศาสตร์คอมพิวเตอร์ และศาสตราจารย์แห่ง มหาวิทยาลัยพรินซ์ตัน กล่าวว่า บริษัทที่พัฒนาปัญญาประดิษฐ์แบบรู้สร้างภาพกำลังพัฒนาและปรับใช้ในลักษณะที่ไม่เป็นมิตรต่อศิลปิน เช่น การรวบรวมภาพการฝึกอบรมโดยไม่ได้รับความยินยอมหรือการชดเชย นักพัฒนาสามารถปฏิบัติต่อศิลปินในฐานะหุ้นส่วนและผู้มีส่วนได้ส่วนเสียมากกว่ามองว่าเป็นแค่วัตถุดิบสำหรับการฝึกปัญญาประดิษฐ์^[9]

เมื่อวันที่ 3 เมษายน 2023 มหาวิทยาลัยโตเกียวได้ออกแถลงการณ์ที่ลงนามโดยผู้อำนวยการและรองประธานคุนิฟุมิ โอตะ โดยแจ้งเตือนนักศึกษาและคณาจารย์ทุกคนที่ใช้ปัญญาประดิษฐ์แบบรู้สร้าง เช่น มิดเจอร์นีย์ และ สเตเบิลดิฟฟิวชัน ปัญญาประดิษฐ์แบบรู้สร้างภาพได้ดึงเนื้อหาจากอินเทอร์เน็ต เรียนรู้จากอินเทอร์เน็ต แล้วสร้างภาพขึ้นมา โดยผู้สร้างข้อมูลต้นฉบับเหล่านี้กำลังหยิบยกประเด็นปัญหาโดยอ้างว่า ลิขสิทธิ์ของตนได้ถูกละเมิดโดยที่พวกเขาไม่รู้ตัว เขากล่าวถึงความเป็นไปได้ที่เนื้อหาที่สร้างโดยปัญญาประดิษฐ์แบบรู้สร้างภาพเหล่านี้อาจกลายเป็นประเด็นของการฟ้องร้องได้ในอนาคต^[39]

อ้างอิง

↑ ^1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. สืบค้นเมื่อ 17 September 2022.
↑ "Announcing SDXL 1.0". stability.ai. เก็บจากแหล่งเดิมเมื่อ July 26, 2023. สืบค้นเมื่อ 2023-07-26.
↑ "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-05.
↑ "Stable Diffusion Launch Announcement". Stability.Ai. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-06.
↑ "Revolutionizing image generation by AI: Turning text into images". LMU Munich. สืบค้นเมื่อ 17 September 2022.
↑ Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-17.
↑ "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. เก็บจากแหล่งเดิมเมื่อ 2022-08-31. สืบค้นเมื่อ 2022-08-31.
↑ Vincent, James (15 September 2022). "Anyone can use this AI art generator — that's the risk". The Verge. สืบค้นเมื่อ 2022-11-30.
↑ ^9.0 ^9.1 "Artists are alarmed by AI — and they're fighting back". The Washington Post (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-02-18.
↑ ^10.0 ^10.1 ^10.2 ^10.3 Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. สืบค้นเมื่อ 2022-10-31.
↑ "High-Resolution Image Synthesis with Latent Diffusion Models". Machine Vision & Learning Group (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-04.
↑ "Stable Diffusion launch announcement". Stability.Ai (ภาษาอังกฤษแบบบริติช). สืบค้นเมื่อ 2022-11-02.
↑ Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. arXiv:2112.10752.
↑ ^14.0 ^14.1 ^14.2 ^14.3 ^14.4 ^14.5 Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
↑ "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
↑ Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
↑ Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, สืบค้นเมื่อ 2022-11-02
↑ "LAION-Aesthetics | LAION". laion.ai (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-08-26. สืบค้นเมื่อ 2022-09-02.
↑ ^19.0 ^19.1 Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].Ho, Jonathan; Salimans, Tim (25 July 2022). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG]。
↑ Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
↑ Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-09-06. สืบค้นเมื่อ 2022-09-06.
↑ ^22.0 ^22.1 ^22.2 "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-11-02.
↑ ^23.0 ^23.1 ^23.2 ^23.3 ^23.4 "Stable Diffusion with 🧨 Diffusers". huggingface.co. สืบค้นเมื่อ 2022-10-31.
↑ ^24.0 ^24.1 ^24.2 "Stable Diffusion 2.0 Release". stability.ai. สืบค้นเมื่อ 2022-11-24.
↑ "LAION". laion.ai (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
↑ "Generating images with Stable Diffusion". Paperspace Blog (ภาษาอังกฤษ). 2022-08-24. สืบค้นเมื่อ 2022-10-31.
↑ François Chollet. "(If you were wondering how often Stable Diffusion will give you a horse with more than 4 legs (or sometimes less) when you ask it for a photo of a horse: in my experience it's about 20-25% of the time.)". Twitter (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
↑ "hakurei/waifu-diffusion · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-10-31.
↑ Mercurio, Anthony (2022-10-31), Waifu Diffusion, สืบค้นเมื่อ 2022-10-31
↑ Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. สืบค้นเมื่อ 2022-10-31.
↑ Meng, Chenlin; He, Yutong (August 2, 2021). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arXiv:2108.01073 [cs.CV].
↑ ^32.0 ^32.1 ^32.2 ^32.3 "Stable Diffusion web UI". GitHub. 10 November 2022. สืบค้นเมื่อ 2022-11-30.
↑ invisible-watermark, Shield Mountain, 2022-11-02, สืบค้นเมื่อ 2022-11-02
↑ "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
↑ ^35.0 ^35.1 Luzi, Lorenzo; Siahkoohi, Ali (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". arXiv:2210.12100 [cs.CV].
↑ Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
↑ Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
↑ ナオミ・クライン、中村峻太郎（訳）「「幻覚を見ている」のはAIの機械ではなく、その製作者たちだ」『世界』岩波書店 2023年7月号 p85~95
↑ "生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について". 東京大学. สืบค้นเมื่อ 2023-04-05.

[stable-diffusion-github-1] 1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. สืบค้นเมื่อ 17 September 2022.

[release-sdxl1.0-2] "Announcing SDXL 1.0". stability.ai. เก็บจากแหล่งเดิมเมื่อ July 26, 2023. สืบค้นเมื่อ 2023-07-26.

[:0-3] "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-05.

[stable-diffusion-launch-4] "Stable Diffusion Launch Announcement". Stability.Ai. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-06.

[5] "Revolutionizing image generation by AI: Turning text into images". LMU Munich. สืบค้นเมื่อ 17 September 2022.

[6] Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-17.

[pcworld-7] "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. เก็บจากแหล่งเดิมเมื่อ 2022-08-31. สืบค้นเมื่อ 2022-08-31.

[verge-8] Vincent, James (15 September 2022). "Anyone can use this AI art generator — that's the risk". The Verge. สืบค้นเมื่อ 2022-11-30.

[wspost-ai-in-illustration-9] 9.0 ^9.1 "Artists are alarmed by AI — and they're fighting back". The Washington Post (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-02-18.

[:02-10] 10.0 ^10.1 ^10.2 ^10.3 Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. สืบค้นเมื่อ 2022-10-31.

[11] "High-Resolution Image Synthesis with Latent Diffusion Models". Machine Vision & Learning Group (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-04.

[12] "Stable Diffusion launch announcement". Stability.Ai (ภาษาอังกฤษแบบบริติช). สืบค้นเมื่อ 2022-11-02.

[13] Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. arXiv:2112.10752.

[Waxy-14] 14.0 ^14.1 ^14.2 ^14.3 ^14.4 ^14.5 Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.

[15] "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.

[16] Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.

[17] Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, สืบค้นเมื่อ 2022-11-02

[LAION-Aesthetics-18] "LAION-Aesthetics | LAION". laion.ai (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-08-26. สืบค้นเมื่อ 2022-09-02.

[:5-19] 19.0 ^19.1 Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].Ho, Jonathan; Salimans, Tim (25 July 2022). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG]。

[20] Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.

[21] Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-09-06. สืบค้นเมื่อ 2022-09-06.

[stable-diffusion-model-card-1-4-22] 22.0 ^22.1 ^22.2 "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-11-02.

[diffusers-23] 23.0 ^23.1 ^23.2 ^23.3 ^23.4 "Stable Diffusion with 🧨 Diffusers". huggingface.co. สืบค้นเมื่อ 2022-10-31.

[release2.0-24] 24.0 ^24.1 ^24.2 "Stable Diffusion 2.0 Release". stability.ai. สืบค้นเมื่อ 2022-11-24.

[25] "LAION". laion.ai (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.

[26] "Generating images with Stable Diffusion". Paperspace Blog (ภาษาอังกฤษ). 2022-08-24. สืบค้นเมื่อ 2022-10-31.

[27] François Chollet. "(If you were wondering how often Stable Diffusion will give you a horse with more than 4 legs (or sometimes less) when you ask it for a photo of a horse: in my experience it's about 20-25% of the time.)". Twitter (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.

[28] "hakurei/waifu-diffusion · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-10-31.

[29] Mercurio, Anthony (2022-10-31), Waifu Diffusion, สืบค้นเมื่อ 2022-10-31

[30] Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. สืบค้นเมื่อ 2022-10-31.

[31] Meng, Chenlin; He, Yutong (August 2, 2021). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arXiv:2108.01073 [cs.CV].

[webui_showcase-32] 32.0 ^32.1 ^32.2 ^32.3 "Stable Diffusion web UI". GitHub. 10 November 2022. สืบค้นเมื่อ 2022-11-30.

[33] invisible-watermark, Shield Mountain, 2022-11-02, สืบค้นเมื่อ 2022-11-02

[34] "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.

[:1-35] 35.0 ^35.1 Luzi, Lorenzo; Siahkoohi, Ali (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". arXiv:2210.12100 [cs.CV].

[36] Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.

[:13-37] Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.

[iwanami-naomi-38] ナオミ・クライン、中村峻太郎（訳）「「幻覚を見ている」のはAIの機械ではなく、その製作者たちだ」『世界』岩波書店 2023年7月号 p85~95

[u-tokyo-20230403-generative-ai-39] "生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について". 東京大学. สืบค้นเมื่อ 2023-04-05.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]