OpenAI 최신 4o 이미지 생성 소개

gongbuhow · 3월 26, 2025, 2:33오전

OpenAI는 최근 GPT-4o에 이미지 생성 기능을 통합해 공개하며, 텍스트 기반 모델과 시각적 표현의 경계를 무너뜨리는 새로운 진화를 선보였습니다. 이 기능은 단순히 아름다운 이미지를 생성하는 수준을 넘어, 의미 있고 실용적인 시각 콘텐츠를 제작할 수 있는 도구로 설계되었습니다.

소스: https://openai.com/index/introducing-4o-image-generation/
날짜: 2025년 3월 25일

아래는 전문을 번역하였습니다.

정밀하고 정확한 포토리얼리스틱 출력을 가능한 기본 멀티모달 모델로 유용하고 가치 있는 이미지 생성을 구현하기

OpenAI에서는 이미지 생성이 우리의 언어 모델의 주요 기능이어야 한다고 오랫동안 믿어왔습니다. 이 때문에 GPT-4o에 가장 진보된 이미지 생성기를 탑재했습니다. 그 결과는 아름다울 뿐만 아니라 유용한 이미지 생성입니다.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads: 
(left)  
"Transfer between Modalities:  
  
Suppose we directly model  
p(text, pixels, sound) [equation]  
with one big autoregressive transformer.  
  
Pros:  
* image generation augmented with vast world knowledge  
* next-level text rendering  
* native in-context learning  
* unified post-training stack  
  
Cons:  
* varying bit-rate across modalities  
* compute not adaptive"  
  
(Right)  
"Fixes:  
* model compressed representations  
* compose autoregressive prior with a powerful decoder"  
  
On the bottom right of the board, she draws a diagram:  
"tokens -> [transformer] -> [diffusion] -> pixels"

베이브릿지(Bay Bridge)가 보이는 방에서 유리 화이트보드(whiteboard)를 찍은 전화(phone) 사진입니다. 그림에는 큰 OpenAI 로고가 있는 티셔츠(t-shirt)를 입은 여성이 글을 쓰는 모습이 보입니다. 글씨는 자연스럽고 약간 지저분하며, 사진작가의 반사도 보입니다.
  
텍스트는 다음과 같습니다: 
(왼쪽)  
"모달리티 간 전환:   
중략...
  
(오른쪽)  
중략...
  
화이트보드 오른쪽 하단에는 그녀가 다이어그램을 그립니다:  
"토큰 -> [변환기] -> [확산] -> 픽셀"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

사진작가의 셀피(selfie) 뷰, 그녀가 그와 하이파이브(high five)하기 위해 돌아서는 모습

^{Best of 8}

magnetic poetry on a fridge in a mid century home:

Line 1: "A picture"  
Line 2: "is worth"  
Line 3: "a thousand words,"  
Line 4: "but sometimes"Large gapLine 5: "in the right place"  
Line 6: "can elevate"  
Line 7: "its meaning.

"The man is holding the words "a few" in his right hand and "words" in his left.

중세 가정의 냉장고에 붙여진 자석 시(poetry):

1행: "사진은"  
2행: "천 마디 말의"  
3행: "가치가 있다,"  
4행: "하지만 때로는" (큰 간격)  
5행: "적재적소에 쓰이면"  
6행: "그 의미를"  
7행: "높일 수 있다."

남자는 오른손에 "몇 마디"라는 단어를, 왼손에 "말"이라는 단어를 들고 있습니다.

^{Best of 5}

Make an image of a four‑panel strip, with some padding around the border:

A little snail is at the counter of a flashy car showroom. The salesman has leaned way over the desk to even see him.

Close‑up on the snail looking very serious. He says, “I want your fastest sports car… and I want you to paint big letter ‘S’s on the doors, the hood and the roof.”

The salesman is scratching his head. “Um… we can do that, but why the S’s?”

Smash cut to a red blur roaring down the highway. The sports car is covered in giant S’s. People on the sidewalk are pointing and laughing: “WOW! LOOK AT THAT S‑CAR GO!”

4패널 스트립으로 이미지를 만들고 테두리 주위에 약간의 여백을 두세요:

작은 달팽이가 화려한 자동차 전시장의 카운터에 있습니다. 세일즈맨은 그를 보기 위해 책상 위로 몸을 기울였습니다.

달팽이의 진지한 모습의 클로즈업. 그는 "가장 빠른 스포츠카가 필요하며, 문, 보닛, 지붕에 큰 'S'자를 그려주세요."라고 말합니다.

세일즈맨이 머리를 긁적입니다. "음... 그렇게 할 수는 있는데, 왜 S자죠?"

고속도로를 질주하는 빨간 불꽃으로 전환됩니다. 스포츠카에는 거대한 S가 그려져 있습니다. 인도에 있는 사람들이 손가락질하며 웃습니다: "봐라! 저 S‑CAR가 가는구나!"

^{Best of ~2}

an infographic explaining newton's prism experiment in great detail

뉴턴의 프리즘 실험에 대해 상세히 설명하는 인포그래픽

^{Best of 3}

now generate a POV of a person drawing this diagram in their notebook, at a round cafe table in washington square park

이제 워싱턴 스퀘어 파크(Washington Square Park)의 둥근 카페 테이블에서 노트북에 이 다이어그램을 그리는 사람의 관점(PoV)을 생성하십시오.

^{Best of 2}

now show the same scene with a smug young Isaac Newton sitting at the table, with a prism, demonstrating the experiment, without the notebook in view

이제 같은 장면에서 젊은 아이작 뉴턴(Isaac Newton)이 책상에 앉아 프리즘을 가지고 실험을 시연하는 모습을 보여주되, 노트북은 보이지 않도록 하십시오.

^{Best of 4}

최초의 동굴 벽화부터 현대의 인포그래픽까지, 인간은 시각적 이미지를 사용해 단순히 장식하는 것을 넘어 소통하고 설득하며 분석해 왔습니다. 오늘날의 생성 모델은 초현실적이고 숨막히는 장면을 만들어낼 수 있지만, 사람들이 정보를 공유하고 창출하기 위해 사용하는 실용적인 이미지에는 어려움을 겪습니다. 로고에서 다이어그램에 이르기까지, 이미지는 공유되는 언어와 경험을 참조하는 기호로 강화될 때 정확한 의미를 전달할 수 있습니다.

GPT‑4o 이미지 생성은 텍스트를 정확하게 렌더링하고, 프롬프트를 철저히 따르며, 4o의 내재된 지식 기반과 채팅 맥락을 활용하는 데 탁월합니다. 여기에 업로드된 이미지를 변형하거나 이를 시각적 영감으로 사용하는 기능까지 포함됩니다. 이러한 기능은 당신이 상상하는 정확한 이미지를 더 쉽게 생성할 수 있게 해주며, 시각적 커뮤니케이션을 보다 효과적으로 할 수 있도록 도와, 이미지 생성을 정밀하고 강력한 실용적 도구로 발전시킵니다.

우리는 온라인 이미지와 텍스트의 결합 분포를 기반으로 모델을 훈련시켰습니다. 이 과정을 통해 이미지는 언어와 어떻게 관계되는지뿐만 아니라 서로 어떻게 관계되는지를 학습했습니다. 공격적인 사후 훈련과 결합하여, 생성된 모델은 놀라운 시각적 유창성을 가지며 유용하고 일관되며 맥락을 인식하는 이미지를 생성할 수 있습니다.

한 장의 사진이 천 마디 말보다 더 가치 있을 수 있지만, 적재적소에 몇 마디를 생성하면 이미지의 의미를 높일 수 있습니다. 정확한 기호와 이미지를 혼합하는 4o의 능력은 이미지 생성을 시각적 커뮤니케이션을 위한 도구로 전환시킵니다.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.  
  
Context:  
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)\\n Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.  
  
Characters:  
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.  
  
Composition from background to foreground:  
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

두 명의 20대 마녀가 거리 표지판을 읽고 있는 포토리얼리스틱 이미지 생성하기 (한 명은 애쉬 발라야지(ash balayage), 다른 한 명은 긴 물결 모양의 적갈색 머리).  
  
맥락:  
뉴욕 윌리엄스버그(Williamsburg)의 임의의 도시 거리로, 여러 세부적인 거리 표지판들(예: 거리 청소 시간, 주차 허가 필요, 차량 분류, 견인 규칙)로 완전히 덮인 기둥이 있는 곳입니다. 중간에는 다소 우스꽝스러운 표지판들도 있는데, 이를 합법적인 거리 표지판으로 패러프레이즈합니다: "마녀를 위한 빗자루 주차는 C 구역에서 허용되지 않습니다" 그리고 "마법 양탄자 적재 및 하역 전용 (15분 제한)" 및 "루돌프 주차는 허가증 소지자만 이용 가능 (12월 24–25일)\\n 위반자는 말썽쟁이 명단에 올라갑니다." 표지판은 도로의 오른쪽에 있습니다. 표지판은 반복되지 않아야 합니다. 표지판은 현실적이어야 합니다.  
  
캐릭터:  
한 마녀는 빗자루를 들고 있고, 다른 마녀는 말린 마법 양탄자를 들고 있습니다. 이들은 전경에 있으며, 카메라를 약간 등지고 고개를 약간 기울인 채 표지판을 유심히 보고 있습니다.  
  
구도는 배경에서 전경으로:  
거리 + 주차된 자동차 + 건물 -> 거리 표지판 -> 마녀들. 캐릭터는 촬영하는 카메라에 가장 가까이 있어야 합니다.

^{Best of ~8}

I'm opening a traditional concept restaurant in Marin called Haein. It focuses on Korean food cooked with organic, farm-fresh ingredients, with a rotating menu based on what's seasonal. I want you to design an image - a menu incorporating the following menu items - lean into the traditional/rustic style while keeping it feeling upscale and sleek. Please also include illustrations of each dish in an elegant, peter rabbit style. Make sure all the text is rendered correctly, with a white background.

(Top)

Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.

Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.

Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.

Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.

Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.

(Bottom) Dessert & Drinks Seasonal Makgeolli (Rice Wine) – $12/glass

Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).

Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

저는 Marin에서 'Haein'이라는 전통 콘셉트 레스토랑을 열 예정입니다. 이곳은 유기농, 신선한 농산물로 만든 한국 음식을 전문으로 하며 계절에 따라 변화하는 메뉴를 선보입니다. 다음 메뉴 아이템을 포함한 메뉴 이미지를 디자인해 주세요. 전통적이고 소박한 스타일을 유지하면서도 고급스럽고 세련된 느낌을 주시기 바랍니다. 각 요리의 일러스트를 우아한 피터 래빗 스타일로 포함해 주세요. 모든 텍스트는 흰 배경에 정확히 렌더링되도록 해주세요.

(상단)

된장찌개 – $18 지역 버섯, 두부, 그리고 계절 채소가 들어간 집에서 만드는 된장과 함께 제공되는 스튜.

갈비찜 – $34 배와 흑마늘 글레이즈, 계절 뿌리채소, 대추와 함께 천천히 조리한 지역의 풀먹인 소갈비찜.

그릴 구운 제철 생선 – 시장 가격 ($22-$30) 지역의 지속 가능한 생선의 전체나 필레를 숯불에 구워 깻잎 쌈과 집에서 만든 소스와 함께 제공.

비빔밥 – $19 회전하는 신선한 채소와 집에서 발효한 고추장, 방목하여 자란 계란과 함께 제공되는 유산쌀.

보쌈 – $28 천천히 조리한 돼지 삼겹살과 배추 쌈, 굴김치, 깻잎 및 계절별 반찬.

(하단) 디저트 & 음료 제철 막걸리 - $12/잔

제철 과일과 꽃을 바탕으로 한 회전하는 맛(예: 감, 감귤, 엘더플라워 등).

호떡 – $9 팬에 구운 시나몬이 들어간 팬케이크와 흑임자 아이스크림.

^{Best of ~2}

photo of a delightful wedding invitation on a tasteful wooden desk. The card is hefty, with eggshell textures, and beautiful embossings, with elegant decorations abstractly representing the couple tastefully integrated into the designs. Iconography is used, but sparingly and in a minimalist way. perfect typesetting.  
  
"You are cordially invited  
to the long-awaited union of  
  
Image  
and  
Text  
  
After years of flirting and collaboration  
they are finally becoming One.  
  
Together at last, in GPT‑4o,  
they now speak the same language —  
where a whisper becomes a masterpiece,  
and a prompt becomes a picture.  
  
Please join us in celebrating  
this magical multimodal matrimony  
where imagination knows no bounds.  
  
Date: March 25, 2025  
Location: chatgpt.com  
Dress Code: Pixels or Prose  
  
With love,  
OpenAI"  
  
perfect typesetting.

우아한 나무 책상 위에 놓인 매력적인 웨딩 초대장 사진. 두툼한 카드에는 달걀껍질 질감이 있으며, 아름다운 양각과 우아한 장식이 추상적으로 결혼한 커플을 절묘하게 표현하고 있습니다. 아이콘은 드물게 최소한으로 사용됩니다. 완벽한 식자.

"당신을 정중히 초대합니다  
오랫동안 기다려온 결합에

이미지  
그리고  
텍스트

중략...

날짜: 2025년 3월 25일  
장소: chatgpt.com  
드레스 코드: 픽셀 또는 프로즈

사랑을 담아,  
OpenAI"

완벽한 식자.

^{Best of ~10}

이미지 생성이 이제 GPT‑4o에 내장되어 있기 때문에 자연스러운 대화를 통해 이미지를 수정할 수 있습니다. GPT‑4o는 채팅 맥락에서 이미지와 텍스트를 기반으로, 일관성을 유지하며 발전시킬 수 있습니다. 예를 들어, 비디오 게임 캐릭터를 디자인하는 경우, 캐릭터의 외모는 여러 번의 수정과 실험을 거쳐도 일관성을 유지하게 됩니다.

Give this cat a detective hat and a monocle

이 고양이에게 탐정 모자와 단안을 씌우세요.

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

이것을 4k 게임 엔진으로 만든 AAA 비디오 게임으로 바꾸고, 미스터리 RPG에서 사용자 인터페이스를 오버레이로 추가하여 상단에 체력 게이지와 미니맵, 하단에 일관된 아이콘으로 마법 목록을 보이게 하세요.

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

이를 가로 이미지 16:9 비율로 업데이트하고, UI에 더 많은 마법을 추가하며, 화면을 확대하여 스팀펑크 스타일의 맨해튼을 걷고 있는 고양이를 3인칭 시점에서 볼 수 있게 하세요. 최고급 AAA 게임처럼 멋진 대조와 조명을 만들어주세요. 시원한 톤의 색상으로.

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

플레이어가 메뉴를 열 때의 인터페이스를 만들고, 고양이의 캐릭터 프로필과 장비를 보여주는 페이지, 그리고 활성 퀘스트를 보여주는 다른 페이지를 생성하세요. 해당 페이지는 이미지에 설명된 세계관과 연관되어 있어야 합니다.

^{Best of 8}

concrete poem on luxury eggshell textured card  
  
At OpenAI, we have long believed image generation should be a primary capability of our language models. That’s why we’ve built our most advanced image generator yet into GPT‑4o. The result - image generation that is not only beautiful, but useful.  
  
From the first cave paintings to modern infographics, humans have used visual imagery to communicate, persuade, and analyze - not just to decorate. Today’s generative models can conjure breathtaking vistas and surreal scenarios, but still struggle with the workhorse imagery that underlies how most visual data is used to share and create information. From logos to diagrams, images can convey precise meaning when augmented with symbols that refer to shared language and experience.  
  
With this new capability, ChatGPT advances image generation towards being a practical tool with precision and power.

고급 달걀껍질 질감 카드를 배경으로 한 구체시

OpenAI에서는 이미지 생성이 우리의 언어 모델의 주요 기능이어야 한다고 오랫동안 믿어왔습니다. 이 때문에 GPT-4o에 가장 진보된 이미지 생성기를 탑재했습니다. 그 결과는 아름다울 뿐만 아니라 유용한 이미지 생성입니다.

중략...

GPT의 이 새로운 기능으로, ChatGPT는 이미지 생성을 정밀하고 강력한 실용적 도구로 발전시킵니다.

^{Best of 8}

show this card, but in a designers room. card close to the camera

이 카드를 디자이너의 방에 보여주세요. 카드는 카메라에 가까이 있습니다.

^{Best of 8}

can you make me a cute minimalist racoon eating a strawberry sticker? use a thick white border and transparent background

귀여운 미니멀리스트 스타일의 딸기를 먹고 있는 라쿤 스티커를 만들어 주세요. 두꺼운 흰색 테두리와 투명 배경을 사용하세요.

try a different minimalist style and a gray racoon

다른 미니멀리스트 스타일과 회색 라쿤으로 시도해 보세요.

awww, can you add a chew mark to the strawberry and maybe some red mess around the mouth

오, 딸기에 씹은 자국을 추가하고, 입 주위에 빨간 얼룩을 좀 더할 수 있나요?

GPT‑4o의 이미지 생성은 세부적인 프롬프트를 자세히 따릅니다. 다른 시스템이 약 5-8개의 객체로 어려움을 겪는 반면, GPT‑4o는 최대 10-20개의 다양한 객체를 처리할 수 있습니다. 객체의 특성과 관계에 대한 더 긴밀한 결합으로 더 나은 제어가 가능합니다.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:  
1\. a blue star  
2\. red triangle  
3\. green square  
4\. pink circle  
5\. orange hourglass  
6\. purple infinity sign  
7\. black and white polka dot bowtie  
8\. tiedye "42"  
9\. an orange cat wearing a black baseball cap  
10\. a map with a treasure chest  
11\. a pair of googly eyes  
12\. a thumbs up emoji  
13\. a pair of scissors  
14\. a blue and white giraffe  
15\. the word "OpenAI" written in cursive  
16\. a rainbow-colored lightning bolt

흰색 배경에 4행 4열의 그리드가 있는 정사각형 이미지에는 16개의 객체가 포함되어 있습니다. 왼쪽에서 오른쪽, 위에서 아래로 나아갑니다. 다음은 목록입니다:
1. 파란색 별
2. 빨간색 삼각형
3. 녹색 사각형
4. 분홍색 원
5. 주황색 모래시계
6. 보라색 무한대 기호
7. 검정과 흰색 물방울무늬 나비넥타이
8. 타이다이 "42"
9. 검정 야구 모자를 쓴 주황색 고양이
10. 보물 상자가 있는 지도
11. 귀여운 눈알
12. 엄지척 이모지
13. 가위 한 쌍
14. 파란색과 흰색 기린
15. 필기체로 쓰인 "OpenAI"
16. 무지개 색 번개 볼트

^{Best of 5}

Times Square in New York City in the afternoon, with no people, vehicles, or illuminated billboards.

오후의 뉴욕시 타임스 스퀘어, 사람들이나 차량, 가로등이 켜진 광고판 없이.

^{Best of ~1}

shibuya crossing with no people, vehicles, or illuminated billboards.

시부야 교차로, 사람도, 차량도, 켜진 광고판 없이.

^{Best of ~1}

show me a wine glass with only the tiniest drop of red wine in it.

와인 잔에 아주 작은 한 방울의 레드 와인만 있는 모습을 보여주세요.

^{Best of ~1}

We need evidence there is a currently present invisible elephant. Consider what an elephant is and does in the environment, then show us that, perhaps mid-process - but the elephant itself is not shown at all

현재 보이지 않는 코끼리가 존재하고 있다는 증거가 필요합니다. 코끼리가 환경에서 무엇을 하는지를 고려하여, 그것을 보여주세요. 아마도 중간 과정일 수도 있지만, 코끼리 자체는 전혀 보여지지 않도록.

credit creator: Eskcanta

a whiteboard that says the following equations:  
E = mc^2  
sqrt(9) = 3  
(-b +/- sqrt(b^2 - 4ac)) / 2a

다음과 같은 방정식이 적힌 화이트보드:  
E = mc^2  
sqrt(9) = 3  
(-b +/- sqrt(b^2 - 4ac)) / 2a

^{Best of ~1}

GPT‑4o는 사용자가 업로드한 이미지를 분석하고 학습하여, 그 세부 사항을 맥락에 원활하게 통합하여 이미지 생성에 활용할 수 있습니다.

- draw a design for a vehicle with triangular wheels, using these images as reference.
- label the front wheel, the back wheel, and at the of the diagram say (in small caps)
- TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

- 이 이미지를 참고하여 삼각형 바퀴가 있는 차량의 설계를 그리세요.
- 앞 바퀴, 뒷 바퀴에 라벨을 붙이고, 도면 끝에 (소문자 대문자로)
- TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

이제 이것을 뉴욕시에서 찍은 사진에 넣어보세요.

^{Best of ~16}

an photorealistic image of a blue chainsaw

파란색 전기톱의 포토리얼리스틱 이미지

^{Best of 1}

make an ad for this chainsaw, of a grandma carving turkey at thanksgiving dinner table. add a tag line

이 전기톱의 광고를 만들어 주세요, 할머니가 추수감사절 저녁 식탁에서 칠면조를 조각하는 모습으로. 태그라인을 추가하세요.

^{Best of 4}

turn this scene into a photo. shot on a dlsr

이 장면을 사진으로 전환하세요. DSLR로 촬영된 장면입니다.

^{Best of ~8}

turn this into a photo

이것을 사진으로 전환하세요

^{Best of ~4}

네이티브 이미지 생성은 4o가 텍스트와 이미지 간의 지식을 연결할 수 있게 하며, 이를 통해 더 스마트하고 효율적인 모델을 만들어 냅니다.

Code Example (Three.js)

make an image of what this means to you

이것이 당신에게 어떤 의미인지 이미지를 만들어 보세요

Make me a professionally shot photorealistic diagram of the top selling cocktails in my bar with recipes labeled on each drink.

put the recipes on handwritten cards in front of each drink.

the cards are brown, and the text is black.

background is white

Title is "4 most popular cocktails"

바에서 가장 많이 판매되는 칵테일의 레시피가 각각 표시된, 전문적으로 촬영된 포토리얼리스틱 다이어그램을 만들어 주세요.

각 음료 앞에 손글씨로 작성된 카드에 레시피를 적어주세요.

카드는 갈색이고, 텍스트는 검정색입니다.

배경은 흰색입니다.

제목은 "가장 인기 있는 4가지 칵테일"입니다.

^{Best of 1}

make a visual infographic describing why SF is so foggy

샌프란시스코가 왜 그렇게 안개가 자주 끼는지를 설명하는 시각적 인포그래픽을 만들어 주세요

^{Best of 3}

create an educational poster of different types of whales in an effervescent watercolor style. make the background pure white.

다양한 종류의 고래를 발포성 수채화 스타일로 그린 교육용 포스터를 만들어 주세요. 배경은 순백색으로 해주세요.

^{Best of 3}

make a very colorful risograph on how to make matcha

매우 다채로운 리소그래프로 말차 만드는 법을 만들어 주세요

^{Best of 3}

다양한 이미지 스타일을 반영한 이미지 훈련은 모델이 이미지를 설득력 있게 생성하거나 변형할 수 있게 해줍니다.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

칼 마르크스가 아메리카 몰 주차장을 서둘러 걷고 있는 모습을 촬영한 솔직한 파파라치 스타일의 사진. 그는 사진을 피하려고 놀란 표정으로 뒤를 힐끔히 본 채 여러 개의 고급 상품으로 가득 찬 반짝이는 쇼핑백을 움켜잡고 있습니다. 그의 코트는 바람에 날리며, 가방 중 하나는 걸음 도중처럼 흔들리고 있습니다. 차량과 빛나는 몰 입구가 있는 흐릿한 배경은 움직임을 강조합니다. 카메라의 플래시로 인해 이미지가 부분적으로 과다 노출되어 혼란스러우면서도 타블로이드 느낌을 줍니다.

우리의 모델은 완벽하지 않습니다. 우리는 현재 다양한 제한사항을 알고 있으며, 초기 출시 후 모델 개선을 통해 이를 해결해 나갈 것입니다.

GPT‑4o가 때때로 포스터와 같은 길쭉한 이미지를 너무 타이트하게 자르는 경우가 있으며, 특히 하단 근처에서 그렇습니다.

다른 텍스트 모델들처럼, 이미지 생성도 특히 맥락이 부족한 프롬프트에서 정보를 만들어낼 수 있습니다.

지식 기반에 의존하는 이미지를 생성할 때, 예를 들어 전체 주기율표와 같이 10-20개의 개별적인 개념을 한 번에 정확하게 렌더링하는 데 어려움을 겪을 수 있습니다.

모델이 때때로 비라틴 언어를 렌더링하는 데 어려움을 겪으며, 특히 복잡성이 증가할수록 문자가 부정확하거나 왜곡될 수 있습니다.

이미지 생성의 특정 부분을 편집해달라는 요청, 예를 들어 오타 수정이 항상 효과적이지 않으며 요청되지 않은 방식으로 이미지의 다른 부분을 변경하거나 더 많은 오류를 초래할 수 있습니다. 현재 모델의 편집 정밀도를 높이기 위해 작업 중입니다.

사용자가 업로드한 얼굴에 편집 일관성을 유지하는 데 어려움을 겪는 버그가 있다는 것을 알고 있으며, 이번 주 내로 이 문제가 해결될 것으로 기대하고 있습니다.

모델이 매우 작은 크기로 세부 정보를 렌더링하는 데 어려움을 겪는 것으로 알려져 있습니다.

모델 사양에 따라 우리는 강력한 안전 기준을 유지하면서 게임 개발, 역사 탐구, 교육과 같은 가치 있는 사용 사례를 지원하여 창의적 자유를 극대화하는 것을 목표로 하고 있습니다. 동시에 이러한 표준을 위반하는 요청을 차단하는 것이 더욱 중요합니다. 아래는 안전하고 높은 유틸리티 콘텐츠를 제공하고 사용자의 창의적 표현을 지원하기 위해 노력 중인 추가 위험 영역에 대한 평가입니다.

C2PA 및 내부 가역 검색을 통한 출처 확인 모든 생성된 이미지에는 C2PA 메타데이터가 함께 제공되어, 이미지가 GPT‑4o에서 생성된 것임을 명확히 합니다. 또한, 콘텐츠가 우리의 모델에서 생성되었는지를 검증하는 데 도움을 줄 수 있는 기술적 속성을 사용하는 내부 검색 도구도 구축했습니다.

유해 콘텐츠 차단 우리는 아동 성학대 자료 및 성적 딥페이크와 같은 콘텐츠 정책을 위반할 수 있는 생성 이미지 요청을 차단하고 있습니다. 실제 인물의 이미지가 문맥에 있을 때, 어떤 종류의 이미지를 생성할 수 있는지에 대한 제한을 강화하였으며, 특히 누드 및 폭력적인 이미지에 대한 강력한 보호 조치를 마련했습니다. 어떤 출시에나 안전은 끝이 아니며, 지속적인 투자 분야입니다. 이 모델의 실제 사용에 대해 더 많이 알게 되면서, 정책을 적절히 조정할 것입니다.

자세한 내용은 이미지 생성 GPT‑4o 시스템 카드 부록을 방문하세요.

추론을 통한 안전 강화 우리의 숙고된 정렬 작업과 유사하게, 우리는 인간이 작성하고 해석 가능한 안전 사양에서 직접 작동하는 추론 LLM을 훈련시켰습니다. 개발 중에 이 추론 LLM을 사용하여 정책의 모호성을 식별하고 해결하는 데 도움을 받았습니다. ChatGPT와 Sora를 위해 개발된 기존 안전 기술과의 결합으로, 입력 텍스트와 출력 이미지를 우리의 정책에 맞춰 조정할 수 있습니다.

오늘부터 4o 이미지 생성이 Plus, Pro, Team, Free 사용자에게 ChatGPT의 기본 이미지 생성기로 배포되며, 곧 Enterprise 및 Edu에도 제공될 예정입니다. Sora에서도 사용 가능합니다. DALL·E에 특별한 애정을 가진 분들을 위해, 전용 DALL·E GPT를 통해 여전히 접근할 수 있습니다.

개발자들은 곧 API를 통해 GPT‑4o로 이미지를 생성할 수 있으며, 다음 몇 주 내에 접근이 가능해질 예정입니다.

이미지를 생성하고 커스터마이즈하는 것은 GPT‑4o를 사용한 채팅만큼 간단합니다. 화면 비율, 헥스 코드로 지정한 정확한 색상, 투명 배경 등의 세부사항을 포함하여 필요한 내용을 설명하기만 하면 됩니다. 이 모델은 더 세부적인 이미지를 생성하기 때문에, 이미지를 렌더링하는 데 최대 1분이 걸릴 수 있습니다.

credit creator: Alex Duffy