홈 / Siri failed an extremely easy Super Bowl test, getting 38 out of 58 questions wrong.

Siri failed an extremely easy Super Bowl test, getting 38 out of 58 questions wrong.

2025. 1. 24. 오후 8:20:07

애플의 사운더스는 Siri의 무작위성과 불확실성을 설명하며, 슈퍼볼 13 우승자를 올바르게 이름지 못하는 예로 들었습니다. 친구 Paul Kafasis이 Siri를 60주년 동안 테스트했으며, 결과는 악력스러운 34%의 정확도를 보였습니다. 새로운 사리(Siri)와 ChatGPT 통합된 버전은 일관성이 없고, 잘못된 답변을 제공하는 문제가 있습니다.

Siri failed an extremely easy Super Bowl test, getting 38 out of 58 questions wrong.

어제 애플의 사운더스는 "무서운 편의"로 Siri의 현재 성능을 설명하며, 슈퍼볼 13 우승자를 올바르게 이름지 못하는 것을 예로 들었습니다. 그는 이는 미국의 모든 챗봇이 대답해야 하는 기본적인 질문이라는 점을 언급했습니다.

결국 그것이 완전히 무작위한 예시가 아니었다는 것을 알게 되었는데, 이것은 친구로 알려진 Paul Kafasis의 조언에 의해 발생했다. 그는 Siri를 1주년부터 60주년까지 테스트하기로 결심했고, 결과는 좋지 않았다...

카파시가 결과를 블로그 게시물에서 공유했습니다.

그렇다면, Siri는 어떻게 했나요? 가장 친절한 해석을 가정하더라도, Siri가 이미 진행된 58개의 슈퍼볼에서 올바르게 답한 경기는 всего 20회였습니다. 즉, 절대적으로 악력스러운 34%의 완수율입니다. 만약 Siri가 포수라면 NFL에서 탈출당할 정도로 못했을 것입니다.
Siri는 한 번도 정확하게 넷 연속을 맞추지 못했지만, 만약 잘못된 이유로 올바른 답변을 제공하는 것을 인정한다면 Super Bowls IX부터 XII까지 네 연속으로 올바르게 답한다. 예를 들어, 슈퍼볼 59의 우승자에 대해 물어봤을 때, Kagi의 "빠른 답변"은 다음과 같다: "슈퍼볼 59는 2025년 2월 9일에 개최될 계획입니다. 현재까지 게임이 진행되지 않았으므로 아직 우승자가 없습니다.
슈퍼볼 우승팀은 '2004 노스 다喀도 주 남부 고등학교 남자 농구 시합 우승자 누가 무엇이었는지 물어보는 것'과 같은 무서운 주제가 아니에요. 예를 들어, "2004 년 노스 다카도 주 남부 고등학교 남자 농구 시합 우승자 누가 무엇이었는지"라는 질문은 내가 임의로 만들어 낸 것입니다. 그러나 매우 재미있게도 Kagi는 Class A에서 올바르게 답했고, ChatGPT는 Class A와 Class B 모두 올바르게 답하며 YouTube에 게시된 Class A 시합 동영상을 링크를 제공했습니다.
그것이 정말 놀라워요! 비밀리지 않은 주를 선택했어요(다카토나, 북부 또는 남부에 대한 불편함은 없습니다), 과거에 멀었던 연도를 골랐고, 개인적으로 가장 잘 했고 가장 좋아하는 고등학교 스포츠였습니다. 그리고 Kagi와 ChatGPT 모두 그것이 맞았어요. (Kagi에게 A학점을, ChatGPT에게 둘 다 클래스 우승자를 명명한 A+학점, YouTube 링크에 대한 추가 학점을 주면 A++학점으로 평가하겠습니다.)

그러나 오래된 사리(Siri)가 실제로 더 잘 작동한다는 점을 주목합니다. 물론 그녀는 전통적인 "웹에서 찾은 것"이라는 응답을 제공했지만, 최소한 올바른 답변에 대한 링크를 제공했습니다. 새로운 사리는 그렇지 않습니다.

새로운 Siri — Apple Intelligence™을 기반으로 하여 ChatGPT 통합이 활성화된 버전은 완벽하지만 합리적으로 틀린 답변을 제공합니다. 이것은 가장 나쁜 방법입니다. 또한 일관성이 없습니다. 동일한 질문을 네 번 시도해 보았지만, 각각 모두 틀린 다른 답변을 받았습니다. 이는 완전한 실패입니다.

사진 출처: Caleb Woods / Unsplas