偏見はアルゴリズムだけでなく選択する言葉の中にも存在する
多言語対応のスイスの大規模言語モデル「アペルトゥス」は文化的多様性の高い斬新な取り組みだが、その名称にはジェンダー中立性が欠如した欧州言語の根強い慣習が反映されていると、包括的言語・コミュニケーションの専門家、クラウディア・ヴァッカローネ氏は言う。
スイスは国内初の大規模オープンソース多言語モデル「アペルトゥス(Apertus)外部リンク」を発表し、人工知能(AI)分野で大胆な一歩を踏み出した。スイス連邦工科大学ローザンヌ校(EPFL)、同チューリヒ校(ETHZ)、スイス国立スーパーコンピューティングセンター(CSCS)が共同開発したものだ。
アペルトゥスのまさにユニークな点は、設計段階から多言語に対応していることだ。現在世界中で話されている7000種類の言語のうち1000種類以上の言語から収集した15兆トークン(単語または単語の一部)が学習に使われている。英語以外の言語がデータソースの約4割を占め、スイスドイツ語やロマンシュ語など、通常の大規模言語モデル(LLM)では過小評価されがちな言語も組み込まれている。
おすすめの記事
スイス国産の大規模言語モデル その強みと限界
このことは文化的多様性の観点から見て非常に重要だ。主要なほとんどのLLMは英語で学習されている。インターネット上には他の言語よりも圧倒的に英語のコンテンツが多く、かつ最大のAI企業が米国・英国を拠点とし、英語圏市場向けの商品を最優先に構築しているからだ。こうした現在のサービスは種々の問題をはらむ。民主主義と技術のためのセンター(CDR)外部リンク(米国・ワシントンとベルギー・ブリュッセルに本部を持つ非営利団体・シンクタンク)の2023年報告書「ロスト・イン・トランスレーション(Lost in Translation)外部リンク」は以下のように指摘する。主に英語のデータセットで構築されたLLMは「英語に組み込まれた価値観や前提を、本来それが当てはまらない他の言語に移行させてしまう。例えば、バスク語(スペインとフランスの国境地域のバスク地方で話されている言語)では鳩(uso)は侮辱的な意味になり得るが、多言語LLMモデルは全ての言語で鳩(英語でdove)と平和(英語でpeace)を関連付けてしまう可能性がある」
リソースの少ない言語でLLMベースのツールを使うと、より多くのハルシネーション(一見正しそうだが明らかに間違った結果)や偏見を出力する可能性がある。少数派言語の組み込みが意図的に行われないものには言語の画一化という明らかなリスクが存在する。そのため、言語の多様性を重視することが明示的に設計に組み込まれているブルーム外部リンク(BLOOM、2022年に発表されたオープンソースLLM)やアペルトゥスのようなプロジェクトが非常に重要だ。
ラテン語文法と現代の偏見
アペルトゥスはラテン語で「開かれた」という意味の形容詞で、高い透明性を追求するツールにとって理想的な名称だ。ほぼ全ての商用AIモデルと異なり、アペルトゥスのプログラムコード、データ、手法は全て完全に公開されている。
ラテン語の使用によって、EPFL、 ETHZ、 CSCSのようなスイスの主要機関が開発したモデルにふさわしい時代を超越した学術的な印象を与えるとともに、デジタル主権とアクセス可能なAIを象徴した名称となっている。
だが我々はこの名称に潜むある問題に注目している。特に真の開放性を重視するならなおさら見逃せない重要な点だ。
ラテン語の名詞と形容詞は文法上の性によって語尾が変化する。Apert-a(アペルタ)は女性形、Apert-um(アペルトゥム)は中性形、Apert-us(アペルトゥス)は男性形だ。
スイス版LLMは男性形(Apertus)の名称を冠している。辞書に男性形がデフォルトとして記載されているとしても、それを選択することは中立的とは言えない。これは男性形を他の性の形を含む汎用形として扱う欧州の言語に根強く残る慣習を反映している。あまりに強く根付いているため、そのことに気づかないことが多いが、この慣習は女性を不可視化し(男性形でのみ表記される職業を思い浮かべてみるとよい)、ジェンダーで差別された家父長的な階層の固定化に寄与してきた。
最近の社会言語学の信頼できる研究外部リンクは、人間の脳は男性形を汎用形として使うあいまいさを処理できず、表記のとおり男性形と解釈すると証明している。
包括的な言語を推進する運動は、男性形を汎用形として使う慣習を廃止し、性を特定しない中立的な形を優先すべきだと強く訴えてきた。
おすすめの記事
今さら聞けないAI用語
「アペルトゥス」の名称選択に注目する理由
アペルタ(女性形)やアペルトゥム(中性形)ではなくアペルトゥス(男性形)を選択することは、それ自体は間違いではない。
この選択は残念ながら言語自体がジェンダー階層を内包していることの表れだ。特に科学の世界では男性=標準であり、それ以外は標準から逸脱したものと見なされる。男性形を汎用形として扱うという広く浸透した言語的慣習が反映されたものだ。その慣習自体が植え込まれた偏見の一種であり、こうした慣習が男性でコード化した言語を「中立」なものとして定着させている。
アペルトゥスは革新的で言語の包括性を体現するAIツールでありながら、その名称によって、ジェンダー包括性の拡大と言語が持つ影響力と重要性を喚起する機会を逸している。
アペルトゥスの名称が選ばれた背景には、それが形容する名詞「モデル」がフランス語(le model)やイタリア語(il modello)などの文法上の性がある言語において男性形であることに合わせた経緯があると推測される。だが、多言語を話す西洋古典学者としてそれを見たとき、私には文法的な性以上のものが見える。それは社会的偏見を反映した言語選択の慣習だ。
この名称は具体的にどのような経緯で決まったのだろうか。アイデアを出す過程は全て人間によるものだったのか?あるいは別のLLMツールを使ったのか?ひょっとしてアペルトゥス自身が自ら名乗ったのか?
好奇心からChatGPTとGeminiという2種類のLLMにこの名称についてどう思うか聞いてみた。最初はどちらもラテン語の言葉が持つ優雅さと目的の明確さを称賛する回答を返してきた。だが名称が含み持つジェンダー要素に関してはどうかと質問を重ねたところ、それぞれ異なる回答が返ってきた。ChatGPTは「軽微で体系的」な偏見があるとした。Geminiは「Apertusは名前であって人ではない上、大多数の人はラテン語を知らない」ことから偏見とは無関係だと一蹴。さらに問い詰めたところ、ようやく男性形をデフォルトとすることが排他的な規範を強化する可能性があると認めた。
技術の世界では長きにわたり顕著なジェンダー格差がはびこっている。アペルトゥスのような名称は、技術分野は男性の領域だとする考えを微かに強化する。小さなシグナルだが、全体を支配する大きな流れの1つだ。新しい製品やプロジェクトに付ける名称は男性名が普通だとされるたびに、この分野は開発者も使用者も男性が中心だという物語の刷り込みが助長される。
ジェンダー中立と人権に基づくアプローチ
もしこのモデルがジェンダー中立と人権に基づいたアプローチで命名されていたなら、その名前は異なる響きを持っていたかもしれない。女性形の「アペルタ(Aperta)」なら、開放性に加えて友好的、包括的、人間的な意味を包含できただろうし、中性形の「アペルトゥム(Apertum)」なら、中立性と抽象性を強調し、スイスの伝統である中立性とも呼応できただろう。
AI技術やツールにおける最大のリスクと懸念の1つは、それらが構築された社会や組織に存在する不平等を再現する恐れがあることだ。だが偏見はアルゴリズムやデータセットの中だけにあるのではない。それは言語そのものにも存在する。
この現実を認識し、言語の使い方を意識的に省察すれば、新たな道を開拓する標準モデルとして「アペルトゥス」はツールを超えた存在になり得る。我々の社会が当然のように受け入れているものを見直すきっかけになるのではないか。
突き詰めれば、開放性とは単に透明性だけを意味するのではない。人口の半分を不可視化する規範に対して疑念を投じる勇気もその意味に含まれる。真の革新とは、コードだけでなく、我々の心もオープンにすることだ。スイスにはそれを世界に発信できる可能性を持っている。
編集:Veronica DeVore/ts、英語からの翻訳:佐藤寛子、校正:大野瑠衣子
JTI基準に準拠
swissinfo.chの記者との意見交換は、こちらからアクセスしてください。
他のトピックを議論したい、あるいは記事の誤記に関しては、japanese@swissinfo.ch までご連絡ください。