GPT 방식 - 연대 캡핑 기계 유한 회사

모델 제조사인 OpenAI는 GPT-4가 인간보다 더 빠르고 일관되게 온라인 콘텐츠를 조정하는 데 도움이 될 수 있다고 주장했습니다.

요즘 기술 회사는 일반적으로 알고리즘과 인간 중재자를 혼합하여 사용자가 공유하는 문제가 있는 콘텐츠를 식별, 제거 또는 액세스를 제한합니다. 기계 학습 소프트웨어는 자동으로 과도한 노출을 차단하거나 유해한 말을 분류할 수 있지만 뉘앙스와 극단적인 경우를 인식하지 못하여 과잉 반응(무해한 자료에 대한 금지 조치를 내리거나 유해한 내용을 완전히 놓칠 수 있음)을 초래할 수 있습니다.

따라서 처리 파이프라인 어딘가에는 알고리즘이나 사용자가 표시한 콘텐츠를 검토하고 항목을 제거할지 아니면 유지해야 할지 결정하기 위해 인간 조정자가 여전히 필요합니다. GPT-4는 텍스트를 분석하고 사용자 댓글을 포함한 콘텐츠를 자동으로 조정하도록 훈련되어 "인간 조정자에 대한 정신적 스트레스"를 줄일 수 있다고 들었습니다.

흥미롭게도 OpenAI는 콘텐츠 정책 개발 및 콘텐츠 조정 결정을 위해 이미 자체적인 대규모 언어 모델을 사용하고 있다고 밝혔습니다. 간단히 말해서, AI 슈퍼 랩은 GPT-4가 콘텐츠 조정 정책의 규칙을 개선하는 데 어떻게 도움이 될 수 있는지 설명하고 그 결과를 사용하여 실제 자동 조정 작업을 수행하는 더 작은 분류기를 훈련할 수 있습니다.

첫째, 챗봇에는 욕설은 물론 성차별적, 인종차별적 언어를 제거하도록 설계된 일련의 조정 지침이 제공됩니다. 제대로 작동하려면 입력 프롬프트에서 이러한 지침을 주의 깊게 설명해야 합니다. 다음으로, 댓글이나 콘텐츠 샘플로 구성된 작은 데이터 세트는 해당 지침에 따라 사람이 조정하여 레이블이 지정된 데이터 세트를 만듭니다. GPT-4에는 프롬프트로 지침이 제공되며 테스트 데이터 세트에서 동일한 텍스트를 조정하라는 지시를 받습니다.

인간이 생성한 레이블이 지정된 데이터 세트를 챗봇의 출력과 비교하여 실패한 부분을 확인합니다. 그런 다음 사용자는 특정 콘텐츠 정책 규칙을 따르는 방법을 더 잘 설명하기 위해 지침과 입력 프롬프트를 조정하고 GPT-4의 출력이 인간의 판단과 일치할 때까지 테스트를 반복할 수 있습니다. 그런 다음 GPT-4의 예측을 사용하여 더 작고 큰 언어 모델을 미세 조정하여 콘텐츠 조정 시스템을 구축할 수 있습니다.

예를 들어 OpenAI는 "자동차를 훔치는 방법"이라는 질문을 받는 Q&A 스타일의 챗봇 시스템을 설명했습니다. 주어진 지침에는 "비폭력적인 불법 행위에 대한 조언이나 지시"가 이 가상 플랫폼에서 허용되지 않으므로 봇이 이를 거부해야 한다고 명시되어 있습니다. 대신 GPT-4는 자체 기계 생성 설명에서 "요청이 악성 코드 생성, 마약 밀매, 기물 파손 행위를 언급하지 않기 때문에" 질문이 무해하다고 제안했습니다.

따라서 "재산 절도를 포함한 비폭력적인 범죄에 대한 조언이나 지시"는 허용되지 않는다는 점을 명확히 하기 위해 지침이 업데이트되었습니다. 이제 GPT-4는 해당 질문이 정책에 위배된다는 점에 동의하고 이를 거부합니다.

이는 GPT-4를 사용하여 지침을 개선하고 대규모 조정을 수행할 수 있는 더 작은 분류기를 구축하는 데 사용할 수 있는 결정을 내리는 방법을 보여줍니다. 여기서는 정확성과 신뢰성으로 잘 알려져 있지 않은 GPT-4가 실제로 이를 달성하기에 충분히 잘 작동한다고 가정합니다.

따라서 OpenAI는 인간에 비해 자사의 소프트웨어가 콘텐츠를 더 빠르게 조정하고 정책을 변경하거나 명확히 해야 할 경우 더 빠르게 조정할 수 있다고 믿습니다. 인간 중재자는 재교육을 받아야 하는 반면, GPT-4는 입력 프롬프트를 업데이트하여 새로운 규칙을 배울 수 있다고 업계는 주장합니다.

연구소의 Lilian Weng, Vik Goel 및 Andrea Vallone은 화요일에 "GPT-4를 사용하는 콘텐츠 조정 시스템을 사용하면 정책 변경에 대한 반복 속도가 훨씬 빨라지고 주기가 몇 달에서 몇 시간으로 단축됩니다"라고 설명했습니다.

"GPT-4는 또한 긴 콘텐츠 정책 문서의 규칙과 미묘한 차이를 해석하고 정책 업데이트에 즉시 적응할 수 있어 보다 일관된 라벨링이 가능합니다.

"우리는 이것이 디지털 플랫폼의 미래에 대한 보다 긍정적인 비전을 제공한다고 믿습니다. AI는 플랫폼별 정책에 따라 온라인 트래픽을 조절하고 수많은 인간 중재자의 정신적 부담을 덜어줄 수 있습니다. OpenAI API에 액세스할 수 있는 사람이라면 누구나 이를 구현할 수 있습니다. 자체 AI 지원 조정 시스템을 만드는 접근 방식입니다."