Улучшенный помощник, столкнувшийся с проблемой модели искусственного интеллекта
Что нужно знать
- Gemini Live — это впечатляющий цифровой помощник с функцией голосового режима, 10 разными голосами, быстрыми ответами в диалоге и расшифровками чатов.
- К сожалению, его ответы загнаны в угол базовой моделью ИИ. Речь Gemini Live также может быть немного слишком формальной, а его ответы кажутся урезанными.
- Полагаться на Gemini Live глупо. Хуже того, платить за это 20 долларов.
Доступная по подписке Gemini Advanced, Gemini Live стала самой обсуждаемой функцией с момента ее презентации на мероприятии Made by Google 2024, заставив даже запуск Pixel 9 занять лишь сноску. Но первые обзоры, хотя изначально и впечатлили, не в ее пользу.
Итак, как и большинство технических обозревателей, я решил сам покататься на Gemini Live и посмотреть, что там за фигня. Для краткости я не буду рассказывать вам все, о чем я говорил (у кого есть время?). Но вы поймете общую идею.
Gemini Live – продвинутый цифровой помощник, которому не хватает модели искусственного интеллекта
Теперь Gemini Live не бесплатен, и у меня нет Pixel 9, который поставляется с бесплатной годовой подпиской Gemini Advanced. Поэтому я получил бесплатную пробную версию, и Gemini Live стал доступен мне сразу же, что здорово.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Вот именно так!
Но стоит ли того подписка в $20 на Gemini Live? Давайте выясним.
Чем хорош Gemini Live?
Gemini Live поставляется с 10 голосами, и вы можете легко выбрать свой в настройках Gemini. Но учтите, что Google требует, чтобы вы установили английский (США) в качестве языка по умолчанию, чтобы иметь возможность сделать это, что является бессмысленным требованием. Я имею в виду, что есть британский голос (Capella) прямо здесь.
Неужели мои глаза обманывают меня?
В любом случае, голосов хватит на каждый день недели, и даже больше.
Мои первые впечатления от Gemini Live, как и у всех остальных, были положительными. Учитывая неестественные, синтетические голоса Google в прошлом, Gemini Live — это глоток свежего воздуха. Однако голоса немного формальны — вы не услышите много «умм» и «ах» (и других междометий). Из-за этого и других подсознательных причин я нашел голоса немного бесстрастными и сдержанными, предположительно, чтобы пользователи не формировали эмоциональные связи — то, что, как опасается OpenAI, может иметь место в собственном голосовом режиме ChatGPT, который все равно намного лучше.
Ответы приходят быстро, так что на самом деле создается ощущение, что вы разговариваете с другом по телефону. Но в отличие от друга, чьи истории никогда не заканчиваются, вы можете прервать Gemini в любое время. Возможно, вы уже знали это. Но об этом все равно стоит упомянуть, потому что вы можете сказать ему, чтобы он отвалил, если он начнет извергать что-то, что, как вы знаете, неверно (подробнее об этом позже).
Как только вы закончите разговор, вы увидите готовую и доступную для чтения расшифровку. Для меня это одна из лучших функций. Она действительно помогает проверить, как выглядит разговор в тексте, и поделиться ею с другими.
Возможности для улучшения
Есть вещи, которые Gemini Live делает хорошо. Но у него также есть много нераскрытого потенциала.
Во-первых, разговоры с Gemini Live, несомненно, кратки. Когда вы задаете вопрос, Gemini Live отвечает как можно короче, как будто он занят обслуживанием других людей. Вы не увидите, чтобы он говорил с вами вскользь или плевался, что, по мнению многих, хорошо. Но можно ли все идеи излагать просто и по существу, несмотря на бритву Оккама?
Например, я попросил его сравнить Пегаса (так как я использовал этот голос) с Икаром (оба являются частью греческих мифов). Хотя есть несколько узлов сравнения, Gemini Live дал мне краткие, по существу ответы. Я привел Ханумана (из индуистского мифа), чтобы дать ему другой угол сравнения. И снова не более нескольких предложений. Все стало раздражать.
После многочисленных попыток заставить его говорить больше, я спросил, есть ли настройка, которая позволяет мне регулировать его многословность. Он сказал мне, что не может изменить это, но очень авторитетно дал мне инструкции, как я могу сделать это сам, которым я глупо последовал, потому что такой настройки не существует.
Что? Где?
Что подводит меня к…
Где он страдает?
Склонность Gemini выдумывать вещи и галлюцинировать не совсем способствовала доверию пользователей. Он также привлек много критики за свои ошибки в генерации изображений в прошлом. Как это ни прискорбно, хотя модальность изменилась, а базовая модель обновлена до Gemini 1.5 Flash, проблема все еще распространена в Gemini Live.
Хотя по большей части его ответы основаны на фактической информации, время от времени он генерирует ответ буквально из воздуха.
Конечно, можно привести доводы в пользу того, что предоставление голоса ИИ вызывает больше доверия у пользователей. А с человеческими голосами гораздо проще довериться ему и поддаться уверенности, с которой даются ответы. Но если вы не будете начеку или не проверите сомнительные ответы, вы можете оказаться обманутыми, как и я.
Технология развивается быстрее, чем кто-либо ожидал, но чат-боты так же подвержены галлюцинациям, как и прежде. Поэтому, даже зная о склонности ИИ предоставлять плохую информацию, если вы продолжаете слепо полагаться на него, возможно, это не искусственный необходимые вам интеллектуальные данные.
Повторяйте это вместе со мной: Обманешь меня один раз — позор тебе; обманешь меня дважды — позор мне.
Чем Gemini Live отличается от расширенного голосового режима ChatGPT?
Теперь давайте рассмотрим слона в комнате. Как Gemini Live соотносится с расширенным голосовым режимом ChatGPT? По правде говоря, Gemini Live просто не такой многословный, увлекательный или развлекательный, как голосовой режим ChatGPT. Хотя последний, возможно, был немного слишком увлекательный (даже кокетливый) и жутко похожий на человека, со всеми его задумчивыми звуками и манерами, он, по крайней мере, служит инструментом для развлечения. Gemini Live, с другой стороны, относится к себе слишком серьезно, что может не сыграть ему на руку, особенно учитывая, что его ответы ограничены его моделью искусственного интеллекта.
Но, пожалуй, самое большое различие между ними заключается в следующем: Gemini Live интерпретирует речь как текст, а затем выдает ответ, в то время как голосовой режим ChatGPT обрабатывает речь напрямую.
Вердикт
Gemini Live — прекрасный инструмент, и явный шаг вперед по сравнению со старым Google Assistant. Возможность вызывать его с экрана блокировки удобна, а 10 голосов вполне достаточно. Но было бы безумием полагаться на него в профессиональных целях. Лично я скорее пожертвую свои деньги на благотворительность, о которой ничего не знаю, чем заплачу 20 долларов только за Gemini Live. К счастью, подписка Gemini Advanced имеет и другие преимущества.
При нынешнем положении вещей хорошо рассматривать ИИ, независимо от его модальности, как выздоравливающего шизофреника. Он становится лучше, но все еще склонен к рецидивам. Единственное отличие в том, что у вас в кармане нет шизофреника, и вы не будете платить за него.
Что вы думаете о Gemini Live? Как вы думаете, Google закроет этот восторженный отзыв? Дайте нам знать в комментариях ниже.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Попробуй Алису от Яндекса