Улучшенный помощник, столкнувшийся с проблемой модели искусственного интеллекта

Что нужно знать

  • Gemini Live — это впечатляющий цифровой помощник с функцией голосового режима, 10 разными голосами, быстрыми ответами в диалоге и расшифровками чатов.
  • К сожалению, его ответы загнаны в угол базовой моделью ИИ. Речь Gemini Live также может быть немного слишком формальной, а его ответы кажутся урезанными.
  • Полагаться на Gemini Live глупо. Хуже того, платить за это 20 долларов.

Доступная по подписке Gemini Advanced, Gemini Live стала самой обсуждаемой функцией с момента ее презентации на мероприятии Made by Google 2024, заставив даже запуск Pixel 9 занять лишь сноску. Но первые обзоры, хотя изначально и впечатлили, не в ее пользу.

Итак, как и большинство технических обозревателей, я решил сам покататься на Gemini Live и посмотреть, что там за фигня. Для краткости я не буду рассказывать вам все, о чем я говорил (у кого есть время?). Но вы поймете общую идею.

Gemini Live – продвинутый цифровой помощник, которому не хватает модели искусственного интеллекта

Теперь Gemini Live не бесплатен, и у меня нет Pixel 9, который поставляется с бесплатной годовой подпиской Gemini Advanced. Поэтому я получил бесплатную пробную версию, и Gemini Live стал доступен мне сразу же, что здорово.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Вот именно так!

Но стоит ли того подписка в $20 на Gemini Live? Давайте выясним.

Чем хорош Gemini Live?

Gemini Live поставляется с 10 голосами, и вы можете легко выбрать свой в настройках Gemini. Но учтите, что Google требует, чтобы вы установили английский (США) в качестве языка по умолчанию, чтобы иметь возможность сделать это, что является бессмысленным требованием. Я имею в виду, что есть британский голос (Capella) прямо здесь.

Неужели мои глаза обманывают меня?

В любом случае, голосов хватит на каждый день недели, и даже больше.

Мои первые впечатления от Gemini Live, как и у всех остальных, были положительными. Учитывая неестественные, синтетические голоса Google в прошлом, Gemini Live — это глоток свежего воздуха. Однако голоса немного формальны — вы не услышите много «умм» и «ах» (и других междометий). Из-за этого и других подсознательных причин я нашел голоса немного бесстрастными и сдержанными, предположительно, чтобы пользователи не формировали эмоциональные связи — то, что, как опасается OpenAI, может иметь место в собственном голосовом режиме ChatGPT, который все равно намного лучше.

Ответы приходят быстро, так что на самом деле создается ощущение, что вы разговариваете с другом по телефону. Но в отличие от друга, чьи истории никогда не заканчиваются, вы можете прервать Gemini в любое время. Возможно, вы уже знали это. Но об этом все равно стоит упомянуть, потому что вы можете сказать ему, чтобы он отвалил, если он начнет извергать что-то, что, как вы знаете, неверно (подробнее об этом позже).

Как только вы закончите разговор, вы увидите готовую и доступную для чтения расшифровку. Для меня это одна из лучших функций. Она действительно помогает проверить, как выглядит разговор в тексте, и поделиться ею с другими.

Возможности для улучшения

Есть вещи, которые Gemini Live делает хорошо. Но у него также есть много нераскрытого потенциала.

Во-первых, разговоры с Gemini Live, несомненно, кратки. Когда вы задаете вопрос, Gemini Live отвечает как можно короче, как будто он занят обслуживанием других людей. Вы не увидите, чтобы он говорил с вами вскользь или плевался, что, по мнению многих, хорошо. Но можно ли все идеи излагать просто и по существу, несмотря на бритву Оккама?

Например, я попросил его сравнить Пегаса (так как я использовал этот голос) с Икаром (оба являются частью греческих мифов). Хотя есть несколько узлов сравнения, Gemini Live дал мне краткие, по существу ответы. Я привел Ханумана (из индуистского мифа), чтобы дать ему другой угол сравнения. И снова не более нескольких предложений. Все стало раздражать.

После многочисленных попыток заставить его говорить больше, я спросил, есть ли настройка, которая позволяет мне регулировать его многословность. Он сказал мне, что не может изменить это, но очень авторитетно дал мне инструкции, как я могу сделать это сам, которым я глупо последовал, потому что такой настройки не существует.

Что? Где?

Что подводит меня к…

Где он страдает?

Склонность Gemini выдумывать вещи и галлюцинировать не совсем способствовала доверию пользователей. Он также привлек много критики за свои ошибки в генерации изображений в прошлом. Как это ни прискорбно, хотя модальность изменилась, а базовая модель обновлена ​​до Gemini 1.5 Flash, проблема все еще распространена в Gemini Live.

Хотя по большей части его ответы основаны на фактической информации, время от времени он генерирует ответ буквально из воздуха.

Конечно, можно привести доводы в пользу того, что предоставление голоса ИИ вызывает больше доверия у пользователей. А с человеческими голосами гораздо проще довериться ему и поддаться уверенности, с которой даются ответы. Но если вы не будете начеку или не проверите сомнительные ответы, вы можете оказаться обманутыми, как и я.

Технология развивается быстрее, чем кто-либо ожидал, но чат-боты так же подвержены галлюцинациям, как и прежде. Поэтому, даже зная о склонности ИИ предоставлять плохую информацию, если вы продолжаете слепо полагаться на него, возможно, это не искусственный необходимые вам интеллектуальные данные.

Повторяйте это вместе со мной: Обманешь меня один раз — позор тебе; обманешь меня дважды — позор мне.

Чем Gemini Live отличается от расширенного голосового режима ChatGPT?

Теперь давайте рассмотрим слона в комнате. Как Gemini Live соотносится с расширенным голосовым режимом ChatGPT? По правде говоря, Gemini Live просто не такой многословный, увлекательный или развлекательный, как голосовой режим ChatGPT. Хотя последний, возможно, был немного слишком увлекательный (даже кокетливый) и жутко похожий на человека, со всеми его задумчивыми звуками и манерами, он, по крайней мере, служит инструментом для развлечения. Gemini Live, с другой стороны, относится к себе слишком серьезно, что может не сыграть ему на руку, особенно учитывая, что его ответы ограничены его моделью искусственного интеллекта.

Но, пожалуй, самое большое различие между ними заключается в следующем: Gemini Live интерпретирует речь как текст, а затем выдает ответ, в то время как голосовой режим ChatGPT обрабатывает речь напрямую.

Вердикт

Gemini Live — прекрасный инструмент, и явный шаг вперед по сравнению со старым Google Assistant. Возможность вызывать его с экрана блокировки удобна, а 10 голосов вполне достаточно. Но было бы безумием полагаться на него в профессиональных целях. Лично я скорее пожертвую свои деньги на благотворительность, о которой ничего не знаю, чем заплачу 20 долларов только за Gemini Live. К счастью, подписка Gemini Advanced имеет и другие преимущества.

При нынешнем положении вещей хорошо рассматривать ИИ, независимо от его модальности, как выздоравливающего шизофреника. Он становится лучше, но все еще склонен к рецидивам. Единственное отличие в том, что у вас в кармане нет шизофреника, и вы не будете платить за него.

Что вы думаете о Gemini Live? Как вы думаете, Google закроет этот восторженный отзыв? Дайте нам знать в комментариях ниже.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Один комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *