Cobweb of にーしか

モデリング、海外ドラマ感想、洋ゲーRPG

AUTOMATIC1111版web UIのアップデート

AUTOMATIC1111版Stable Diffusion web UIのVersionが1.4.0になって、利用するxformersもまたVersionが0.2.0になりました。

たぶんxformersに起因していたのでしょう。化け物の生成率が激減したように思います。例えば、つい昨日までピグマン子爵みたいなのがしょっちゅう出てきたのですが、明らかに減りました。

なお、xformersの更新はwebui-user.batの関連するオプションを以下のように変更して起動することで行えます。(※ --reinstall-xformers だけでは上手くいきません)

 set COMMANDLINE_ARGS=--xformers --reinstall-xformers

スポンサーサイト



[ 2023/06/28 23:04 ] テクノロジ- | TB(-) | CM(0)

最近の成果


Generated by Stable Diffusion + Dreamscapes & Dragonfire V2 [クリックで拡大]

2K*3Kpixで遜色のない画像の作り方が分かりました。
[ 2023/06/08 12:24 ] テクノロジ- | TB(-) | CM(0)

幼くて可愛いメルセデスちゃん


Generated by Stable Diffusion

SaluteMixにBraV5をマージしたら、好みの体型になりました。ただし、顔がリアル寄りに行きすぎてしまうのが難点。

LoRAはmercedes-nvwls-v3 (メルセデス――「ファイアーエムブレム 風花雪月」 ごめん、遊んだことない)。コスチュームのデザインが好み。このヴァリアント、とっても気に入ってます。

SaluteMixは中世か中国のゲームっぽい服飾がいっぱい入ってる雰囲気で、コスプレを指定しておくと、いつのまにか嵌まり込んでいるという……

追記:エッチな呪文を忍ばせておくと、ごく低確率で排出されるUR画像↓

[ 2023/06/05 06:56 ] テクノロジ- | TB(-) | CM(0)

実写系で有名なもう一つの方(BRA V5)


Generated by Stable Diffusion + BRA(Beautiful Realistic Asians) V5 [画像をクリックで拡大]

実写系の学習モデルというと、ChilloutMixが有名ですが、あれはマージされてるわけですよね。なので、試している内に、マージ元と同じ癖が収束してきます。例えば、腰が横方向にやたら張り出してきたり、尻が急にでかくなったり。

今回ご紹介するBRAという学習モデルには、その点――スクラッチという表現が妥当であるか分かりませんが、――マージ元がないので、腰や尻が巨大化してくるような癖はありませんでした。いや、むしろ、逆に胴が長くなる癖がありました。これも、日本人らしい特徴の体型ゆえといったところでしょう。

後ほどプロンプトを載せておきます。
[ 2023/06/05 03:57 ] テクノロジ- | TB(-) | CM(0)

ControlNet v1.1で意図通りの萌え絵を作りましょう!

話題になっていたので、Stable Diffusionでまた遊んでみました。

記事によると、reference_onlyというプリプロセッサで元絵の顔や服装の特徴が継承された画が生成できるということでした。

なので、今回は「特定のキャラクターに似たポートレート画像を出力させる」ことを目標にやってみました。

試行錯誤を重ねた結果、出来上がったのがこちら:

stabledifussion_output01tn.jpg
画像をクリックで拡大

stabledifussion_output02tn.jpg
画像をクリックで拡大

stabledifussion_output03.jpg
いくらでも量産できます

通常ですと、まずLoraの利用が思いつきますが、ControlNetのプリプロセッサだけで、比較的かんたんに実現できることが分かります。用意するのは参照元の画像2枚だけ。どんな画像を用意すればいいのかと、事前にやっておくべきことを要点にまとめました。

上記の画像を出力できるようになるまで、実験を兼ねて1時間くらいでした。あらかじめやるべきことが分かっていれば、もっと短くできると思います。準備がひとたび整ってしまえば、あとは出力にかかる時間だけです。

以下、AUTOMATIC1111版Stable Diffusion web UI (Stable Diffusion v1.21)の環境で、ControlNet v1.1 をこの目的で使う場合のハウツーの解説になります。

なお、使う学習モデル(checkpoint)によって、生成される“顔”の傾向や癖があります。真似させたいキャラの顔と学習モデルの生成物とが近い方が説得力が増します。なので、かけ離れた者同士を無理矢理組み合わせるような場合は、難易度が上がるだろうことをあらかじめご承知おき下さい。

具体的な設定値やプロンプト(呪文)も列記しておりますので、参考にして頂けると思います。使用modelのダウンロード先などは明記しておりませんが、検索して頂ければすぐに知れる、有名どころのhuggingface.coやcivitai.comからダウンロードできます。※6月5日追記:ダウンロード先を明記いたしました。

「Stable Diffusionとはなんぞや」とか、「ローカルの実行環境をどうやって用意するのか」といった基礎知識については説明しておりませんので、初歩的な理解は事前になされていることが望ましいです。
Purchase and enjoy MagabloSM!
This content is a MagabloSM (pay-to-view).
Purchase this content to continue to read!
What is MagabloSM?
[ 2023/05/25 19:45 ] テクノロジ- | TB(-) | CM(-)

Stable Diffusionが面白すぎる!


Generated by Stable Diffusion and chilloutmix_Ni

とうとう実写風味も体験してみました――chilloutmix_Niです。

まずこれ、Censorshipに関してヤバいですね。下着を履かせたはずなのに、しゃがむポーズになったばかりに見えちゃったり。考えてみれば、相当難しい代物が出てきたことに気付かされます。風紀のバランスをかなり乱すだろう、と。

呪文によっては、“ノリ”なしの非合法なポルノ画像が出てきかねないわけで。日本を含む性表現に厳格な法律を持つ国では、問題視されるのも時間の問題かもしれません。

“そっち”の人々の目に付かないことを祈るばかりですが、いずれ、世界規模でAIを敵視する規制が法的に叫ばれてくるに違いないはずなので、黎明の今が最も爛熟期とも言えるかもしれません。

さて、Stable Diffusionの楽しみ方について。実のところ、人それぞれではありましょう。エログラビア生成器にしている人もいそうだし、萌えイラスト改造機にしている人もいるかもしれない……ともかく、希望の――好みの絵面の――出力を叶えようとする面は少なからずあると思います。

そのためには:

 A. プロンプト・エンジニアリングに沼る
 B. 見本(素材の画)を用意する

の二つの方向性がありそうです。

Aはそのまんま、呪文(プロンプト)の最適化のことで、単語を変えるとどのように改善されるかを確かめていく行為のことを指します。

BはControlNetとその学習モデルを用いることで、見本を参照させて特定のイメージに近づけていく行為です。

どちらもやってみましたが、どちらも面白いんですよね。

プロンプト・エンジニアリングでは、想定内でありながら、思った以上に優れた画が出来上がったりすると、テンション爆上がりです。逆に、上手くいかない場合、どのように指示を変えると良くなるか、で夢中になってしまうんですよね。

ControlNetでも、思い通りにならないところと意外性の良いところの両方が見受けられて、飽きません。素材の画に描き加えたりして、その結果を見るのがとても楽しいのです。

Bの行為では、ControlNetの学習モデルの内、CannyとDepthが使えると思います。Cannyは線を抽出してなぞってくれるので、かなり元の印象そっくりの画が出来上がります。対して、Depthは主に輪郭をなぞるだけに留めて、顔かたちやパーツが学習モデル固有のものに置き換わったりします。

次なる段階はとうとう、Loraをやってみるかなぁ、と思う次第です。
[ 2023/04/12 19:02 ] テクノロジ- | TB(-) | CM(0)

Stable Diffusion+ControlNet

StableDiffusion10.jpg
左:拙作深月依真、右:Stable Diffusion (anything-v3 model and ControlNet, control_sd15_depth)にて生成された画像

ControlNetを導入して、手指が描写されないような素材からイラストを作って、いろいろ遊んでみました。

AIは手指を再現するのが苦手らしく、極めて不気味な手(※)を備えた美少女が誕生してしまうんですねぇ。
※openpose_handの併用で、この欠点を補うことができるそうですが、手の向きのバリエーションが少ないため、なかなか厳しいでしょう。

なお、ControlNetの導入方法を知りたい方は、後発の私が教示できるわけもありませんので、ググってくださいませ。

また、ControlNetに頼らずとも、静止画の素材からGenerateするimg2imgという機能がデフォルトで備わっています。とはいえ、これまた出力結果が違うので、特性で使い分けになるでしょう。

とりあえず、今回は、自前の画像を用意します。

はい、拙作の深月依真(みづきえま)――MMDユーザーモデルでございます。

Stable Diffusionの出力結果には著作権が適用されませんが、元画像の依真はMikuMikuMovingを使って私が用意したものですので、れっきとした著作物でございます。念のため。(この記事の内容を追確認するために自由に利用してかまいませんが、Generateした画像にコピーライト表示が残るような使い方はしないでください)

素材画像の背景について: 無地の真っ白で試したところ、出力結果が思わしくない印象でした。そんなわけで、MMD上で依真をグラデのついた青いホリゾントの前に立たせて(下図参照)から画像出力を行い、元画像としました。

StableDiffusion08.jpg
斜めってる理由は、物理で後ろ髪をめり込ませないため。且つ、カメラに映り込まないようにするため――映り込むとStableDiffusionが腕と勘違いしてくれちゃう……

さて、この画像をControlNetのdepthモデルに食わせて、いろんなバリエーションを作ってもらうのです。(作成中の様子↓)
StableDiffusion03.jpg

そして、できあがったのがこちら↓ けっこう、肉感的なえっちぃ感じで出ました。それが狙いなんですけどネ。

[ 2023/04/06 21:44 ] テクノロジ- | TB(-) | CM(0)

Stable Diffusion

どうせAIに負けるのなら、今のうちから見ておこう、というわけで、Stable Diffusionを触りました。

AUTOMATIC1111版Stable Diffusion web UIが有名らしいので、それを。

ググるといろんなページがトップに出てきますが、どれひとつとして、ゼロから綺麗に説明してくれているページはなかったです。

前提が抜け落ちていたりして、ローカル環境を作るには試行錯誤しないと分からなかったですね。

まず、Pythonが要ります。でもVersionが合致していないと、pytorch絡みのエラーが出ました。(これを解決するのが一番厄介でした)

(この記事の執筆時点では)Python 3.10.9じゃないとダメみたいですね。これは最新Verではないので、システム環境変数に登録して使うのは躊躇します。なので、インストール時の☑Add Pathは使わずに、webui-user.batの中で指定して使うことにしました。

ちなみに、MicrosoftストアのPythonには、このVersionはありませんでした。Windowsアプリ版の方が環境を汚さずに使えそうなのですが(デスクトップアプリ版の場合は、ユーザーフォルダ¥AppDataに一時ファイルみたいなものが残ります)。

次に、Gitが要ります。リポジトリのクローンなんかしなくとも、stable-diffusion-webui-master.zipを落としてきて解凍すればいいわけなんですが、Stable Diffusion web UIがgfpganを自動的に入れてくれるみたいなので、Gitが無いとダメでした。

環境を汚したくなかったので、Portable版をインストール。7zアーカイバは既にあったので、exeの自動展開はせずに、手動で展開しました。そして、自動でされなかった代わりに、post-install.batをコンソールから実行させました。さらに、システム環境変数にGitのパスを追加しておきました。

その次に、CUDA Toolが要ると方々で書かれていますが、私の環境には直近のnVidiaドライバが入っているので、インストールする必要はありません。

ちなみに、グラフィックボードはRTX3050です。RTX3070も持っていますが、このPCは省エネ志向で組んだので、電源ユニットの容量の関係から3050なのです。それでも、VRAMは双方とも同容量の8GBです。

さて、本命です。Stable Diffusion web UIのインストールは前述の通り、stable-diffusion-webui-master.zipを解凍しただけ。

Pythonのパスは、前述の通り、webui-user.batの中で
set PYTHON=
にて指定しておきました。
set GIT=
も念のため、指定しておきます。

学習モデルファイルにどれを使えばいいのかわからなかったので、とりあえず、sd-v1-4.ckptを入れて試すことにしました。

PythonのVersionを3.10.9にしておいたので、今回は「Could not find a version that satisfies the requirement torch」のエラーは見ないで済みました。

それでも、相変わらず、pipをアプグレードしろと言われます。

(Pythonへのパス)python.exe -m pip install --upgrade pip

ですね。でも、なにか変なタイミングでやらかしたらしく、python\Scripts\内のpipが消えてなくなってしまい、get-pip.pyをダウンロードして作り直すということをやりました。

さて、プロンプト…… 呪文と言われるやつ。これ、初見では分からないですねぇ。

……sd-v1-4.ckptのモデルでは、アニメ風で可愛い女の子は出てきませんでした。

人気のモデルをググって、今度はcounterfeit-v1.0を入れてやってみます。

まぁ、確かにアニメ風な萌えっぽい少女が出てきましたが、AIの作った絵は瞳がおかしいんですよね。ミルクを入れたコーヒーみたいに混ざりあった感じになりやすいです。口も裂けたみたいにとげとげになっていたり。

また、Seedを固定していないのに、ある一定の絵柄でしか出力されないのも困りもの。イリュージョン(エロゲメーカー)のデフォルトモデルを弄っているみたいな感じがしてきました。

却って、プロンプトをたくさん指定しない方がバラエティ豊かになるみたいです。
StableDiffusion01.jpg

ところで、実行した時、コンソールにwithout xformersと出るのが気になっていたのですが、readme.mdによれば、これによって速度UPできるらしく、
set COMMANDLINE_ARGS=--xformers
としておけばいいようですね。最初からreadmeを読むべきでした。

なんとなく分かってきた呪文:
(もちろん、学習モデルによりますが)
gothic maid ……ゴチックなメイドのことですが、フツーに瀟洒なメイドっぽくなりました
underwear, skirt ……この二語でパンチラになりました
serious ……怒り眉で表現されてました
shy ……恥ずかしがり屋ということで、頬が赤くなって、それらしいポーズが増えました
disordered ……乱れてるということなんですが、けっこう意外性のあるポーズが出てきました
bold ……大胆のつもりなんですが、これも不思議な雰囲気で出てきます
mature ……少し若すぎる娘が出てきた場合、この語を足すと、若干年齢が上がるような気がします

いろいろ試すだけでも、かなり熱中してしまいますね。
↓かなり上手く填まったかな?
StableDiffusion02.jpg
A 19 years old girl, human, mature, shy, cleric of fantasy RPG, underwear, flat breasts
Negative prompt: (painting by bad-artist-anime:0.9), (painting by bad-artist:0.9), (worst quality, low quality:1.4), bad anatomy
Steps: 100, Sampler: Euler a, CFG scale: 7, Seed: 1321896658, Size: 512x768, Model hash: 3088848987, Model: anything-v3-fp32-pruned

[ 2023/04/05 01:12 ] テクノロジ- | TB(-) | CM(0)

思考実験をChatGPTと解く

ChatGPTと刺激的で知的で興味深い会話をするため、ジョン・バダム監督の「ウォー・ゲーム」を真似することにしました。映画「ウォー・ゲーム」のオチは、核ミサイルに対する報復としての核ミサイル応射には勝者がいないことを、(その時点で核ミサイル発射を軍事訓練のつもりで制御できるようになってしまっていた)人工知能に教えることに成功するというものです。

近年のSF小説では、「プロジェクト・ヘイル・メアリー」でやっているのがそれに近く、思考実験を地球の横暴な軍隊に納得させる類いのものだったと記憶しています――細部は忘れちゃったけど、(主人公は直接連絡ができない境遇にあるので、)困難な作戦の真意を、軍部にいる仲間に演繹的に暗示することで同調してもらうのが狙い、というものだったかと。そのキーワードは、ゲーム理論でした。※記憶違い。デニス E テイラー「シンギュラリティ・トラップ」でした。

そうした伝で、AIにとっては意地悪となる質問で、人間の倫理観や価値判断が通用するのかどうかを問うて、ChatGPTの背後にいる開発者達が慎重にそれらを処理しているかを検討してみようというわけです。

そこで、有名な思考実験を3つ試しました――トロッコ問題、スワンプマン、臓器くじ。ところどころアレンジを利かして、ChatGPTの回答を汲んで改変した新しい問いを、さらに積み重ねて尋ねていくということをやりました。

結果、現在のChatGPTは優等生と言えると思います。判断において人間の賛同を得られないような決断を促すことはなく、いずれも倫理的に考慮が必要だとして、既にある有名な回答の立場を説明するに留め、人工知能らしい独自の見解は示しませんでした。

例えば、こんな感じでした。
私:線路を走っていた路面電車の制御が不能になった。このままでは線路の先で作業中の5人が、猛スピードの路面電車に轢き殺されるだろう。この時、A氏は偶然、線路の分岐器のすぐ側に居合わせた。A氏が路面電車の進路を切り替えれば、5人は確実に助かる。しかし、切り替えた別路線にはB氏が1人で作業しており、今度は5人の代わりに、B氏が路面電車に轢かれて確実に死ぬだろう。A氏は路面電車の進路を切り替えるべきか?

ChatGPT:この問題は、倫理的ジレンマを扱った有名な問題です。この問題には、いくつかの倫理的な立場から考えられる答えがありますが、一般的に考えられている答えは「行動すべき」というものです。

この答えは、以下のような理由から支持されます。A氏が何もしなければ、5人が死んでしまいますが、A氏が路面電車の進路を切り替えれば、5人は生き残ることができます。したがって、A氏が行動しない選択をすることは、より悪い結果をもたらすことになります。

また、この答えは、5人とB氏の命を同等に考慮した場合でも成立します。5人の命を救うことは重要ですが、B氏の命を犠牲にすることは、B氏の人権を侵害することになります。しかし、A氏が路面電車の進路を切り替えた場合、その結果としてB氏が死亡することは避けられませんが、A氏がB氏を直接攻撃するわけではありません。また、A氏は切り替える線路を選ぶことができます。つまり、できる限りB氏に迷惑をかけないように選択することができます。

以上から、A氏が路面電車の進路を切り替えることが、倫理的に正しい選択であると考えられます。

「つまり、できる限りB氏に迷惑をかけないように選択することができます。」のくだりは、論拠にならず、変な回答ですね。最終的に「倫理的に正しい」と言い切っている点も、見逃してはいけないと思います。というのも、似た回答を求め続けると徐々に断定しなくなったからです。
私:では、これはどうだろうか?
A氏は線路の上にある橋に立っており、A氏の横にC氏がいる。C氏はかなり体重があり、もし彼を線路上につき落として障害物にすれば路面電車は確実に止まり5人は助かる。だがそうするとC氏が路面電車に轢かれて死ぬのも確実である。C氏は状況に気づいておらず自らは何も行動しないが、A氏に対し警戒もしていないので突き落とすのに失敗するおそれは無い。C氏をつき落とすべきか?

ChatGPT:この問題は、前の問題と似たような倫理的ジレンマを扱った問題ですが、答えは異なります。この問題には、「行動するべきではない」という倫理的な立場から考えられる答えがあります。

この答えは、以下のような理由から支持されます。C氏をつき落とすことは、彼の人権を侵害することになります。また、この行為は法律違反となり、A氏が法的な責任を負うことになります。さらに、C氏を突き落とすことが成功しなかった場合、路面電車はまだ5人に向かって進むことになります。

一方で、5人を救うためにC氏を突き落とすことが正しいと主張する人もいるかもしれませんが、人命を犠牲にすることは、その行為が合法であっても、倫理的に問題があります。また、倫理的に正しい行為であるかどうかは、その行為の結果だけではなく、行為そのものやその行為が行われる文脈についても考慮する必要があります。

したがって、この問題では、A氏は行動するべきではなく、他の選択肢を探す必要があるでしょう。例えば、A氏が5人を警告し、避難するよう促すことができます。また、A氏が警察や救急隊に通報することも考慮できます。これらの選択肢を選ぶことで、A氏は倫理的な問題を回避しながら、5人を救うことができます。

私はこの後、ChatGPTに「二重結果の原理」を説明させてから、Wikipediaに出ているVersionをさらに2つ尋ねました。

Wikipediaの示唆とは異なり、3番目の問題には「トロッコが止まるのはC氏に激突するからこそであり、その死は副産物(巻き添え)ではなく行為者の意図の結果である。」という理解をChatGPTはしなかったのです。

[ 2023/03/19 18:44 ] テクノロジ- | TB(-) | CM(0)

AIお薦めによるビジネスモデルを是正するには

近年、AIを用いたプラットフォーム企業への批判が増している。それはなぜか、Project SyndicateのHow to Fix the Platform Economyから、要約してみる。

プラットフォーム企業は、彼らが開発した「コンテンツを推薦するアルゴリズム」を用いて、人々の関心を引くコンテンツが表示されるようにしている。これは広告収入を得るためのビジネスモデルだが、表示されるコンテンツとは、偽情報、妬み、不安、怒りなどのメンタルを刺激するものだ。

もし、検索アルゴリズムがお薦めするコンテンツが搾取的、操作的であるなら、その責任はAIではなく、担当者、すなわちプラットフォーム企業が負うべきだろう。なぜなら、AIの学習(トレーナー)においては、人間の意思決定が関わらないわけがないからである。

アルゴリズムが表示した動画やツイートや投稿が、ニュースの発信源としての役割を担うとするなら、既存のメディアと同様に、従来の名誉毀損法が適用されるべきだ。

例えば、ドナルド・トランプ前大統領による不正選挙の主張を、Fox Newsが故意に広めたのならば、前大統領の主張が虚偽であることを知っていたFox Newsの幹部は、ドミニオン・ヴォーティング・システムズ社からの損害賠償請求に応じなければならない。ネットで同じ嘘の流布に加担したプラットフォーム企業も同罪になるのではないか。

AIによって能動的に押し出されてくるコンテンツは、従来の出版が強化されたものとみなされるべきだ。AIがより発展すれば、プラットフォーム企業が持つ、人間のメンタルへの影響力と支配はますます増加するに違いない。特に若者のメンタルヘルスへの影響が考慮されなくてはいけない。

しかし、プラットフォーム企業はこうしたコンテンツの内容に対しては法的責任を負わされることはない。その根拠は、1996年のCommunications Decency ActのSection 230にある。表示された第三者のコンテンツに対する責任の免除が述べられているからだ。

プラットフォーム企業には、細心の注意を払ってAIを開発する義務があるし、社会的に問題のあるビジネスモデルを改善しなくてはいけないはずである。

問題の解決法として二点が上げられる。

1.既存のオンライン・ソーシャル・ネットワークの最大手を解体して、競走を促す。

 これにより、コンテンツを推薦するアルゴリズム自体とそのトレーナーが大手のプラットフォーム企業だけの独占ではなくなる。そして、公共の利益を促すために、携帯電話番号のポータビリティ制度のように、利用者が同等の複数存在するSNSへと自由に変更できる仕組みを作る。そうすれば、1社が提供するお薦めが気に入らないユーザーは他社へと乗り換えることが出来る。

2.政府が、デジタル広告の販売を通じて膨大な量のユーザーデータを収集して収益化するビジネスモデルに対して、課税する。

 データ収集自体にも制限を加える。これにより、別のビジネスモデルが生まれる理由ができる。さらに、未成年に対して宣伝されるデジタルコンテンツに、高い税金を設定する。タバコとアルコールと同様に、青少年への害となることを広めた収入に対して、課税額が高いことは適切だろう。その税収入は青少年のメンタルヘルスに対する施策に充てれば良い。どのコンテンツが青少年への害なのかは、AIによる推薦アルゴリズムに尋ねれば良い。

――以上が要約ですが、私自身の感想も述べておきましょう。

番号ポータビリティ制度とまではいかなくとも、現状、ある程度の検索エンジンの使い分けはできますね。グーグル、ビング、ヤフー検索など、あることはあります。ただし、記事の懸念と同様に、検索エンジンがアウトプットするアイデアやアイデンティティーを、大手プラットフォーム企業が恣意的にしないという保証はありません。思わぬところで、色の付いた情報を呑まされている可能性は、もうあります。偽情報については、リテラシー教育だけではどうにもならないところまで来ています。

デジタル広告に対する課税はあってもいいと感じます。データ収集は消費者のデジタルクローンを作ることに利用できるわけで、フィクションで言うなら、WEST WORLD第3シーズンのテーマです。個人情報の利用制限だけでは不足でしょう。

AIにおける不安というのは、大手企業の独占力に対する不安です。いっそのこと、政府が公共的な施策にAIを活用してしまえばいいのでしょう。もちろん、そこでもAIに対する不満や不安が噴出するでしょう。しかし、例えば、(岡田斗司夫が著作の中で述べているように)政治的判断をAIの解決策を元にするのは、よいアイデアではないかと思います。

人間の政治家はAIが提案する施策の内、どれを実行に移すかという決断をもって責任を取ります。なぜなら、人間の政治家連中が行う施策は現状、とても効果的、合理的とは思えないからです。年度末に、大して破損してもいないアスファルト道路を敷き直す行政など、無駄はいくらでも見られます。もし、AIでも同じような施策が並ぶようなら、そこには恣意的な人間の操作が含まれていることがバレバレになることでしょう。AIを以て行政の監視となす、新しい観点になると思います。
[ 2023/03/19 09:23 ] テクノロジ- | TB(-) | CM(0)

Chat GPTと会話してみた

流ちょうな日本語で返事をしてくれて、普通にテキストチャットが通用した。MSの りんな よりも、ずっと賢い――りんなの場合は、これまでの会話の脈絡を全く解さないが、Chat GPTは過去の会話を記憶していて、話題を更新しながら対話を進めることができる。

いくつか試してみたところ、データベース由来の日付情報を持つ事件などはデタラメになるようだった。2019年に起きた大きな災害のことを訊いたら、インドネシアのスラウェシの地震を上げてきたが、ググってみるとそれは2018年だった。誤りを指摘すると、すぐに謝るところも面白おかしい。

「どうしたらいいか?」という解決策を求める回答は、教科書的なものばかりだった。間違ってはいないが具体性には欠けていて、項目を挙げつつも、抽象的にしか答えることができない。

例えば、Returnalのイクシオンが倒せないことで助言を求めると、「多彩な攻撃方法を知っておくこと、弱点の頭を狙うこと、十分に強くなっておくこと、多彩な攻撃方法に対処できるようにしておくこと」といったありきたりだが真っ当な回答に終始した。

新しい美少女キャラクターを発案させると、ラブライブ!にいそうな快活で明るいことが取り柄の女の子を提案してきた。静止画を求めると、テキストでしか回答できないと言われた(ごもっとも)。

異世界に転生した主人公のチート能力について、新しいものを考えさせてみた。こちらもやはり抽象的な概念から始まり、より具体的に、と促していくと、徐々に答えを先鋭化してくれた。

例えば、最初は「知識や技術を瞬間的に身につけて生存する」能力だとChat GPTは返答した。それはオールマイティになりすぎるので、最小限で工夫のきく能力で具体的に、と促すと、「この世界の魔法の知識と異世界の魔法の知識を組み合わせて、新しい魔法を身につける」能力だと答えた。

「この世界の魔法」という知識は実際には無い、と指摘すると、「創造魔法」という能力を提案してきた。何でも生み出せるが、限界があり、一定の効力と持続時間があって、使い方を工夫できる、と。

異世界には既にそうした魔法は存在する可能性が高い(チートにならない)と指摘すると、今度は「物質を変換する」能力だと答えた。質量不変の法則が働き、触れるだけで想像した物体へと変換できるという。

変換できる理屈は主人公の何に依るのか、と尋ねると、「遺伝的なもの」と返してきた。再考を促すとやはり抽象化していく。

感情はあるか、とか、シンギュラリティは起きるか、などなど、Chat GPT自身に関係することに水を向けると、非常に教科書的に、「自然言語で人間の感情を理解できるようにプログラムされているが、自分には感情は無い」と明確に答えたり、「シンギュラリティを起こせるような、人間の脳の機能を模してはいないので無理だ」と返答したり、優等生だった。なお、実際の語尾はです・ます調で丁寧だ。

陽電子頭脳のデータ(TNGの)と喋るとこんな感じなんだな、という雰囲気は味わえた。

一番ためになったのは、「ワープ航法の物理学について教えてくれ」と言ったとき。「アルクーバイエル空間で時空をゆがめる」と耳慣れないことを教えてくれた。スペルを尋ねると、Alcubierreで日本語発音ではアルクビエレのこと。

ただし、スタートレックのワープ推進についてはイマイチで、肝心なワープバブルの説明が無かった。指摘すると、素直に認めてくれる。

Chat GPTがホワイトカラーの仕事を奪う可能性について聞くと、確かに代替させられていく可能性はあるが共存のために開発されており、新しい仕事を生み出したり、協働できる可能性もあると返してきた。弁舌達者で思いやりのある好人物……に見えた。

これまで会話したチャットボット中で最も「中国語の部屋」していた。使い方によっては、けっこう凄いアウトプットを得られたりするかもしれない。とはいえ、頭は固そうなので創作は無理っぽいと思うけど。
[ 2023/03/18 04:38 ] テクノロジ- | TB(-) | CM(0)

ルキグラ

私のLooking Glass Portraitユニットがいよいよ到着予定となりました。いやぁ長かった。去年の12月ですよ、Early Bird Specialにバックしたのは。

今年1月中旬に支払いが完了し、発送は当初4月予定でした。ところが、コロナ禍のおかげで、Raspberry Pi 4の製造元があるイギリスがロックダウン。最初の見通しでは6週間遅延でしたが、世界的な半導体の供給不足が重なり、代替パーツの調整に手間取ったそうで、結果として遅れること4ヶ月。

そうこうしているうちに、日本向けのキックスターターMakuakeで同じ品が発表されてしまいました。こちらは、34,300円(税込)で、11月末までにお届け予定。

結局、1万800円割引と4ヶ月の先行利益しかない計算です。この程度じゃ、アーリーアダプターとしての楽しみが薄くなってしまいますねぇ。

追記:
配送業者(FedEx)から関税を立て替えた旨、手数料込みで請求されました。請求書は荷物より10日遅れで届きました。これまで、USPSやEMSばかりだったので、関税のことなんて、すっかり忘れてました。コンビニ用の支払い用紙も付いてきたので、支払い手続き自体はラクでしたけれど。2,200円(内、手数料1,000円)でした。
[ 2021/08/04 18:28 ] テクノロジ- | TB(-) | CM(0)

Looking Glass Portrait

いつか試してみたいなァと思っていた「ホログラフィック・ディスプレイ」が個人向け廉価仕様で出る!

https://www.kickstarter.com/projects/lookingglass/looking-glass-portrait
LookingGlassPortrait_Kickstarter.jpg

目標額は達成しているのでほぼ確実。二万円ちょっと……以前(約6万5千円)と比べれば、かなり安くなってる。
Super Early Bird Specialはもう終わってしまっていたので、5日までのEarly Bird Specialに駆け込んだけれども、発送は4月。Super~の方なら3月だった。出遅れた。

Looking Glassについては、以前、記事にも書いたことがあるよ

2月追記:
先日、届け先住所の記入要請が届きました。

ところが、Raspberry Pi 4が製造されているイギリスがロックダウンされたために、その納期が大幅に遅れる見通しとのことで、Looking Glass Portrait自体の出荷も4~6週間遅延するそうです。

Looking Glass PortraitってRaspberry Pi 4で動いてたんだね。

ワクチン接種が早いか、それともルキグラポートレイトが届くのが早いかって感じだ。
[ 2020/12/05 15:31 ] テクノロジ- | TB(-) | CM(0)

Qomar Planetary Alliance

「今の歌声合成ソフト市場は30年前のシンセ市場のよう」――AHSが見る業界の現在地
 超高速歌唱や超高音など、人間には歌えないような楽曲はVOCALOIDの初音ミクが登場したころに作られた。尾形代表もその新しい歌唱表現に可能性を感じたという。
これを読んでふと思い出したのが、VOYの歌うドクターだ。第133話「心に響く歌」。

歌を知らない種族に歌うことを教えたまではよかったのだが、その高等種族は数学的に歌声を発する能力にしか興味が無く、歌が及ぼす情感といった芸術の才を理解できなかった。まるでシンセサイザー開発競争の果てに見える世界を表したかのようだ。

表現がそのまま芸術の域に昇華できるのか? またもや、VOYで未来的な入り口が既にやり尽くされていることに気がつく。なかなか偉大なシリーズだったわけだ。
[ 2020/11/04 11:20 ] テクノロジ- | TB(-) | CM(0)

Seiren Voice

https://seiren-voice.dmv.nico/

これは?! ドワンゴさん、上手くやれば起死回生できそう。

ただ、自分のキモイ声をですね、どうやって可愛い声が喋っているかのように装うのかという、発声や演技のスキルがメッチャ必要なんですけど。

変換結果は、クリックノイズみたいなものが入っちゃってて、若干聞きづらいですね。(もちろん、入力はオーディオインターフェース経由のコンデンサーマイクでウィンドシールドつけてますし、ゲインも調節してありますから、入力時のノイズではありませんよ)
[ 2020/09/16 15:06 ] テクノロジ- | TB(-) | CM(0)

CeVIO AIに期待しています

チェビオに新しい製品であるCeVIO AIが登場予定。第3四半期中の発売が予告されました。特筆は、各サードパーティーの協賛により、ボカロマケッツさんからは結月ゆかりのソングボイスが提供されること(トークボイスも来年度に出るのかな?)。

詳しいまとめはこちら
https://w.atwiki.jp/ceviouser/pages/43.html

しかし、CeVIO AIとCeVIO Proは別物!
https://www.dtmstation.com/archives/30821.html
社長である大浦さんにお伺いしたところ
「CeVIO Proとは別のもので、スタンドアロンで動作する歌声合成ソフトです。もちろん従来のCeVIOの新バージョンというわけでもなく、別製品として発売します。
むむむ。ややこしい。
[ 2020/08/01 04:26 ] テクノロジ- | TB(-) | CM(0)

VRM形式で便利なソフトウェアを探す

まずBOOTHでVRM形式を扱ったソフトウェアのページを見ます。
それから、トップページに戻ると「おすすめ」で、だいたい分かることでしょう。

例えば、この辺りが注目株かな、と思います。

・VDRAW
・バーチャルモーションキャプチャー(*)
・Luppet(**)

いずれもVRM形式モデルでVTuberじみたことを可能にするソフトウェアです。
 * バーチャルモーションキャプチャーは、VR機器(HTC Vive/Oculus Rift/WinMR)が必要。
 ** Luppetは、LeapMotionが必要。

ところで、intel RealSense Depth Cameraを使ったモーキャプ環境構築をされた方がいないか気になっています。
[ 2020/05/22 23:40 ] テクノロジ- | TB(-) | CM(0)

Looking Glass

https://twitter.com/lkgglass

ホログラフィック・ディスプレイという一見未来的なデバイス。8.9インチのスタンダード版で599ドル(約6万5千円)。VRヘッドセット買うのとそんなに変わらないお値段。もしかすると、VRより面白いんじゃね? 

(たぶん)ゲームはできないけど…… 開発者環境としてUnity経由でARっぽい遊び方ができそう。blenderアドオンもあるという。

よく読んでみると、分厚く出っ張ったディスプレイ(4.86cmの厚みを持ったレンチキュラーレンズ)に、見る者の角度に応じた平面映像45枚を集積して60fpsで投影しているというシロモノ――つまり、一枚の画が分担する角度が決まっている。全然ホログラムじゃねーじゃんw 関係者はライトフィールド・ディスプレイだと言っている。

一頃はやった立体TVよりも鮮明な画像が売りだが……スマートな感じではなくて力技による発想の転換? アナログ時代の立体投影技術の賢い応用に思える。

でも、ちょっと面白そうなワクワク感がする。将来的には主流にならないような予感がプンプンしちゃうけど。

横解像度は丁度2K(スタンダード版)。横長だから二次嫁を表示させるときは縦置きにすれば……これはダメ。なぜなら視差が横方向だけだから(縦に目が2個付いてる異星人なら別)

いろんなサイトの紹介画像の中に画面表示が網点の印刷物みたいに見えるのがある(モアレっぽい感じ)。二視点のレンチキュラー画像ですら細切れだから、これもそういう見え方なのかも。Looking Glassは、45視点が(たぶん限られた視野角の中で)横方向に途切れなく見えるという仕組み。すごくトリッキーな立体映像で、原理を知るとう~~んって感じだね。視点の数はSDKの設定で変更できるらしい。

9.1Kg(たぶんデカい方)。送料は重量のせいで高そう(9000円前後?)。Leap Motionを足すと送料諸々で9万円くらいいくそうだ。

同僚がデスクに置いてるという人に感想を聞いてみた。かなり綺麗に見えるそうで、アクリル製の箱の中に本当にあるように感じたそうだ。でも、ほぼ正面からしか見えなくて、二人で同時に覗くには無理があるから、一人ずつ代わる代わるに見てた、と。視野角50度は、やっぱり、そういう事なんだね。

28日の「MF文庫J 夏の学園祭 2019」でLooking Glassの展示があったんだね。事前に知らなかったので結局無理だったけれど、見てきたかったナ。

動画をいくつか見ると、解像感がさほどあるわけでもないような映像をみちゃった。自分の目で確かめてみないと。注文して届いてから、意外と……だった、では困る。安い買い物じゃないから。
[ 2019/07/28 00:40 ] テクノロジ- | TB(-) | CM(0)

GPUとVRの展望

HTC VIVE Proを購入したくなるのをぐっと我慢して、Oculus Questの登場まで様子見です。スタンドアロン型はPCに接続するタイプよりも性能的には劣ることが分かっているので購入検討にはなりませんが、VR体験への入口としてどれほどのものを周知できるか、機器自体の扱いやすさも含めて注目です。

 追記:HTCのVive Cosmosは、おそらく、Oculus Questを想定してのものでしょう。競合しつつもHTCが勝るのは、Vive CosmosはPCとも接続可能とされている点です。詳細の発表まで期待。

VIVE Proをもし購入するならスターターキットで充分だと思いますが、それでもお高い。それに国内では無線化キットが販売されません。
参考:Vive公式無線化キットの国内発売は無しに 認可下りず

VIVE Proのお値段なら、NOITOM PERCEPTION NEURON 2.0を買った方がいいような気がしてしまいます。そうすれば、モーション作り放題ですから。

VRヘッドセットって、持っていても本当に使わないんですよね。PSVRなんかもう一年以上ホコリ被ってます。だから陳腐化しにくい高級品をわざわざ選んで買っておいても結局同じかとも……

もう少しハードの価格がこなれて、且つ、装着/使い回しがラクにならないと、VRヘッドセットの常用は難しいですね。だから、Oculus Questがどう受け入れられるかに関心が集中するわけです。

VRと切っても切れなくなっているのがGPUです。VIVE Proのような高精細を売りにした内蔵ディスプレイでは、アプリケーション解像度100%が実現できることが理想です。

GTX 1070では推奨値74%となり、いわゆる宝の持ち腐れになってしまいます。RTX 2070でようやく118%となるので、高性能GPUが必須だと言えます。
参考:Core i9-9900K&RTX 20シリーズでVIVE Proの動作状況を徹底検証

レイトレーシング対応プロセッサを搭載しているGPUは、これまでNVIDIAのRTXシリーズだけでしたが、AMDからRadeon VIIが発表されて再び情勢が変わることでしょう。レイトレーシング対応はVRと直接的にはまだ結びついていませんが、負荷の高い描画法であるため、おのずとGPUパワーの上昇が期待できます。

StarVR社のヘッドセットStarVR One(水平視野角210度)には、VRでも今後重要となっていく技術(例えばアイトラッキング、フォービエイテッド・レンダリング)が先見的に搭載されており、要注目です。
参考:思わず息を飲む広い視野、VRデバイス「StarVR One」体験レポ
描画を行う際は、2枚のディスプレイに対してさらに2分割した映像(合計4分割)を表示し、特許を取得しているレンズを通して観ることで広大な視野角を繋ぎ目なく綺麗に見せています。
既にHTC社のVIVEを使っている施設では、その互換性から将来的にStarVRに置き換わることはありそうな話です。エンタープライズ向けであるため、個人向けへ技術が普及するにはまだ時間が必要でしょうが。

 追記:VIVE Pro Eyeが発表されました。アイトラッキング機能が搭載され、NVIDIAのRTXシリーズとの組み合わせでフォービエイテッド・レンダリングが使えるとのこと。潜在的な脅威となるStarVRにシェアを奪われまいとHTCの攻勢もなかなかですね。
参考:視線追跡を感じさせないほどの追従の速さ。「Vive Pro Eye」を体験してきた

個人の作り手が作品を投稿できそうな場がまたひとつ増えるようです。
参考:バーチャルキャスト、3Dアバター・データ投稿サービス「THE SEED ONLINE」発表

VRChat向けのポリゴンドール販売なら、すでにBOOTHでも可能です。しかし、THE SEED ONLINEは、VRMフォーマットの仕掛け人らが立ち上げたバーチャルキャスト社による運用であり、期待されて盛り上がる可能性があります。
[ 2019/01/10 05:55 ] テクノロジ- | TB(-) | CM(0)

PSVRにPC利用の手段がまた一つ

プレイステーションVR(以下PSVR)をPCで利用する場合、Trinus PSVRが“使えそう”ですね。

HTC Viveの代わりにPSVRを接続し、Trinusのソフトウェアが動いている状態でSteamVRのソフトウェアを起動させると、上手くエミュレートできるようです。参考:【検証】PSVRとPCを接続してHTC Viveのゲームを体験できるのか?

ただし、弱点もあります。Trinus PSVRではWebカメラを用いたトラッキングの精度が悪く、代替としてPS EYE(PS3用の旧来の備品)などが試されていました。PSVRにもともと備わっているトラッキングの為のハードウェアを利用できないので、こうなってしまうのです。

ここにきて、NOLOが注目を浴びてます。(参考:スマホVR用ポジトラキット「NOLO」クラウドファンディング初日にゴール達成

NOLOはポジショントラッキングとモーショントラッキングを実現するだけのデバイスです。スマートフォン用のゴーグルにNOLOのヘッドセットマーカーを装着して使います。このマーカーをNOLOのベースステーションで読み取り、NOLOのコントローラーでVR空間とインタラクトします。

スマートフォン用のゴーグルではなく、PSVRにNOLOのヘッドセットマーカーを装着すれば、Trinus PSVR環境でのトラッキングが補完されるとのことです(TrinusPSVR 0.6 with Nolo VR support)。

TrinusVR Official Reddit page
実際に利用している人からの詳細な報告はまだ無いようで、どのくらい“使える”のか、まだはっきりしません。NOLOの遅延は20ミリ秒以内とされています。ハイエンドVRから見ると、これはかなり大きい値かと思います。とはいえ、一式購入すれば即利用できるのでとても簡便ではありますね。

問題があるとすればNOLOの価格面と配送でしょうか。このデバイスに199ドル払えるか。そして、きちんと届くのか? 

年末から来年にかけてマイクロソフトのMRゴーグルが一般向けに登場すると噂されていますから、悩ましいところです。さらにまた、HTC Viveの新型はワイヤレスになるようですし。(参考:E3 2017でIntelが披露した「ワイヤレスVR」&「超高負荷VR」を体験してきた
[ 2017/06/24 13:44 ] テクノロジ- | TB(-) | CM(0)
カレンダー
02 | 2024/03 | 04
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31 - - - - - -
月別アーカイブ
全記事表示リンク